Spaces:

nsfwalex
/

whisper-transcribe-new

Runtime error

App Files Files Community

liuyang commited on Jul 7

Commit

a3f71ba

1 Parent(s): 75ff28d

apply audio convertion

Browse files

Files changed (1) hide show

app.py +16 -6

app.py CHANGED Viewed

@@ -234,23 +234,28 @@ class WhisperTranscriber:
         if audio_file is None:
             return {"error": "No audio file provided"}
         try:
             print("Starting new processing pipeline...")
-            # Step 1: Perform diarization first
             diarization_segments, detected_num_speakers = self.perform_diarization(
-                audio_file, num_speakers
             )
-            # Step 2: Cut audio into segments based on diarization
-            audio_segments = self.cut_audio_segments(audio_file, diarization_segments)
-            # Step 3: Transcribe each segment
             transcription_results = self.transcribe_audio_segments(
                 audio_segments, language, translate, prompt
             )
-            # Step 4: Return in requested format
             return {
                 "speaker_count": detected_num_speakers,
                 "transcription": transcription_results
@@ -260,6 +265,11 @@ class WhisperTranscriber:
             import traceback
             traceback.print_exc()
             return {"error": f"Processing failed: {str(e)}"}
 # Initialize transcriber
 transcriber = WhisperTranscriber()

         if audio_file is None:
             return {"error": "No audio file provided"}
+        converted_audio_path = None
         try:
             print("Starting new processing pipeline...")
+            # Step 1: Convert audio format first
+            print("Converting audio format...")
+            converted_audio_path = self.convert_audio_format(audio_file)
+            # Step 2: Perform diarization on converted audio
             diarization_segments, detected_num_speakers = self.perform_diarization(
+                converted_audio_path, num_speakers
             )
+            # Step 3: Cut audio into segments based on diarization
+            audio_segments = self.cut_audio_segments(converted_audio_path, diarization_segments)
+            # Step 4: Transcribe each segment
             transcription_results = self.transcribe_audio_segments(
                 audio_segments, language, translate, prompt
             )
+            # Step 5: Return in requested format
             return {
                 "speaker_count": detected_num_speakers,
                 "transcription": transcription_results
             import traceback
             traceback.print_exc()
             return {"error": f"Processing failed: {str(e)}"}
+        finally:
+            # Clean up converted audio file
+            if converted_audio_path and os.path.exists(converted_audio_path):
+                os.unlink(converted_audio_path)
+                print("Cleaned up converted audio file")
 # Initialize transcriber
 transcriber = WhisperTranscriber()