|Ankit, Umair, Anirudh| fix chunk file

ankit-thoughtworks · ankit-thoughtworks · commit d86c5f551509 · 2022-03-02T15:59:58.000+05:30
diff --git a/.circleci/config.yml b/.circleci/config.yml
@@ -7,7 +7,7 @@ parameters:
     default: speech_recognition_model_api
   package_version:
     type: string
-    default: "3.2.35"
+    default: "3.2.36"
   dependency_image_name:
     type: string
     default: speech-recognition-open-api-dependency
diff --git a/src/lib/inference_lib.py b/src/lib/inference_lib.py
@@ -377,9 +377,8 @@ def get_results(wav_path, dict_path, generator, use_cuda=False, w2v_path=None, m
     dir_name = src.media_convertor.media_conversion(wav_path, duration_limit=15)
     audio_file = dir_name / 'clipped_audio.wav'
 
-    start_time, end_time = extract_time_stamps(str(audio_file))
-    original_file_path = wav_path.replace('clipped_audio_enhanced', 'clipped_audio')
-    original_chunk = AudioSegment.from_wav(original_file_path)
+    start_time, end_time = extract_time_stamps(audio_file)
+    original_chunk = AudioSegment.from_wav(audio_file)
     silence = AudioSegment.silent(duration=500)
     chunked_audio = AudioSegment.silent(duration=500)
     for i in tqdm(range(len(start_time))):
diff --git a/src/srt/timestamp_generator.py b/src/srt/timestamp_generator.py
@@ -132,7 +132,7 @@ def vad_collector(sample_rate, frame_duration_ms,
 def extract_time_stamps(wav_file):
     start_time = []
     end_time = []
-    audio, sample_rate = read_wave(wav_file)
+    audio, sample_rate = read_wave(str(wav_file))
     vad = webrtcvad.Vad(3)
     frames = frame_generator(30, audio, sample_rate)
     frames = list(frames)