Added command-line demo for streaming ASR

vsl9 · vsl9 · commit 56ef1709118c · 2019-07-31T08:37:27.000-07:00
Signed-off-by: Vitaly Lavrukhin &lt;vlavrukhin@nvidia.com&gt;
diff --git a/demo_streaming_asr.py b/demo_streaming_asr.py
@@ -0,0 +1,50 @@
+from frame_asr import FrameASR
+import numpy as np
+import pyaudio as pa
+import time
+
+CHANNELS = 1
+RATE = 16000
+DURATION = 2.0
+CHUNK_SIZE = int(DURATION*RATE)
+
+p = pa.PyAudio()
+
+print('Available audio input devices:')
+for i in range(p.get_device_count()):
+    dev = p.get_device_info_by_index(i)
+    if dev.get('maxInputChannels'):
+        print(i, dev.get('name'))
+print('Please type input device ID:')
+dev_idx = int(input())
+
+
+asr = FrameASR()
+print('Initialization was successful')
+
+
+def callback(in_data, frame_count, time_info, status):
+    signal = np.frombuffer(in_data, dtype=np.int16)
+    pred = asr.transcribe(signal)
+    if len(pred.strip()):
+        print('"{}"'.format(pred))
+    return (in_data, pa.paContinue)
+
+
+stream = p.open(format=pa.paInt16,
+                channels=CHANNELS,
+                rate=RATE,
+                input=True,
+                input_device_index=dev_idx,
+                stream_callback=callback,
+                frames_per_buffer=CHUNK_SIZE)
+
+stream.start_stream()
+
+while stream.is_active():
+    time.sleep(0.1)
+
+stream.stop_stream()
+stream.close()
+p.terminate()
+
diff --git a/frame_asr.py b/frame_asr.py
@@ -11,9 +11,9 @@
                                      create_model, get_interactive_infer_results
 
 # Define the command line arguments that one would pass to run.py here
-MODEL_PARAMS = ["--config_file=data/jasper10x5-dr-librosa-novograd-speed/config_infer.py",
+MODEL_PARAMS = ["--config_file=models/Jasper-Mini-for-Jetson/config_infer_stream.py",
                 "--mode=interactive_infer",
-                "--logdir=data/jasper10x5-dr-librosa-novograd-speed/checkpoint/",
+                "--logdir=models/Jasper-Mini-for-Jetson/",
                 "--batch_size_per_gpu=1",
                 "--num_gpus=1",
                 "--use_horovod=False",
@@ -50,7 +50,7 @@ def __init__(self, model_params=MODEL_PARAMS, scope_name='S2T',
         saver_S2T.restore(self.sess, checkpoint_S2T)
         
         self.vocab = self._load_vocab(
-            self.model_S2T.params['decoder_params']['alphabet_config_path']
+            self.model_S2T.params['data_layer_params']['vocab_file']
         )
         self.sr = sr
         self.frame_len = frame_len
@@ -59,7 +59,8 @@ def __init__(self, model_params=MODEL_PARAMS, scope_name='S2T',
         self.n_frame_overlap = int(frame_overlap * sr)
         self.n_timesteps_overlap = int(frame_overlap / timestep_duration) - 2
         self.buffer = np.zeros(shape=2*self.n_frame_overlap + self.n_frame_len, dtype=np.float32)
-        self._calibrate_offset()
+        # self._calibrate_offset()
+        self.offser = 5
         self.reset()
         
         
@@ -86,11 +87,11 @@ def transcribe(self, frame=None, merge=True):
         return self.greedy_merge(unmerged)
     
     
-    def _calibrate_offset(self, max_offset=10, n_calib_inter=10):
+    def _calibrate_offset(self, wav_file, max_offset=10, n_calib_inter=10):
         '''
         Calibrate offset for frame-by-frame decoding
         '''
-        sr, signal = wave.read('data/gtc2019_keynote_16kHz.wav')
+        sr, signal = wave.read(wav_file)
         
         # warmup
         n_warmup = 1 + int(np.ceil(2.0 * self.frame_overlap / self.frame_len))
@@ -117,7 +118,8 @@ def reset(self):
         '''
         self.buffer=np.zeros(shape=self.buffer.shape, dtype=np.float32)
         self.prev_char = ''
-        
+
+
     @staticmethod
     def _get_model(args, scope):
         '''
diff --git a/scripts/run_all_tests.sh b/scripts/run_all_tests.sh
@@ -1,7 +1,7 @@
 #!/usr/bin/env bash
 set -e
 # This will take quite some time
-pip install -r requirements.txt
+# pip install -r requirements.txt
 echo '**********>>>> CREATE TOY DATA <<<< ************'
 scripts/create_toy_data.sh
 echo '**********>>>> RUNNING UNIT TESTS <<<< ************'