Commit @8b2f7a6d0e49134f794bf7f08bd5710f61b4339f - yjyoon/whisper_streaming

Dominik Macháček 2024-04-17

Merge branch 'tijszwinkels-online-from-factory'

PR #71

@8b2f7a6d0e49134f794bf7f08bd5710f61b4339f

5b8da85

8b2f7a6

whisper_online.py

--- whisper_online.py

+++ whisper_online.py


 
 def asr_factory(args, logfile=sys.stderr):
     """
-    Creates and configures an ASR instance based on the specified backend and arguments.
+    Creates and configures an ASR and ASR Online instance based on the specified backend and arguments.
     """
     backend = args.backend
     if backend == "openai-api":

         print("Setting VAD filter", file=logfile)
         asr.use_vad()
 
-    return asr
+    language = args.lan
+    if args.task == "translate":
+        asr.set_translate_task()
+        tgt_language = "en"  # Whisper translates into English
+    else:
+        tgt_language = language  # Whisper transcribes in this language
 
+    # Create the tokenizer
+    if args.buffer_trimming == "sentence":
+        tokenizer = create_tokenizer(tgt_language)
+    else:
+        tokenizer = None
+
+    # Create the OnlineASRProcessor
+    online = OnlineASRProcessor(asr,tokenizer,logfile=logfile,buffer_trimming=(args.buffer_trimming, args.buffer_trimming_sec))
+
+    return asr, online
 ## main:
 
 if __name__ == "__main__":

     duration = len(load_audio(audio_path))/SAMPLING_RATE
     print("Audio duration is: %2.2f seconds" % duration, file=logfile)
 
-    asr = asr_factory(args, logfile=logfile)
-    language = args.lan
-    if args.task == "translate":
-        asr.set_translate_task()
-        tgt_language = "en"  # Whisper translates into English
-    else:
-        tgt_language = language  # Whisper transcribes in this language
-
-    
+    asr, online = asr_factory(args, logfile=logfile)
     min_chunk = args.min_chunk_size
-    if args.buffer_trimming == "sentence":
-        tokenizer = create_tokenizer(tgt_language)
-    else:
-        tokenizer = None
-    online = OnlineASRProcessor(asr,tokenizer,logfile=logfile,buffer_trimming=(args.buffer_trimming, args.buffer_trimming_sec))
-
 
     # load the audio into the LRU cache before we start the timer
     a = load_audio_chunk(audio_path,0,1)

5b8da85

8b2f7a6

whisper_online_server.py

--- whisper_online_server.py

+++ whisper_online_server.py


 
 size = args.model
 language = args.lan
-
-asr = asr_factory(args)
-if args.task == "translate":
-    asr.set_translate_task()
-    tgt_language = "en"
-else:
-    tgt_language = language
-
+asr, online = asr_factory(args)
 min_chunk = args.min_chunk_size
 
+
 if args.buffer_trimming == "sentence":
     tokenizer = create_tokenizer(tgt_language)
 else:

Add a comment

Open 0
Closed 0

List

...	...	@@ -551,7 +551,7 @@
551	551
552	552	def asr_factory(args, logfile=sys.stderr):
553	553	"""
554		- Creates and configures an ASR instance based on the specified backend and arguments.
	554	+ Creates and configures an ASR and ASR Online instance based on the specified backend and arguments.
555	555	"""
556	556	backend = args.backend
557	557	if backend == "openai-api":
...	...	@@ -576,8 +576,23 @@
576	576	print("Setting VAD filter", file=logfile)
577	577	asr.use_vad()
578	578
579		- return asr
	579	+ language = args.lan
	580	+ if args.task == "translate":
	581	+ asr.set_translate_task()
	582	+ tgt_language = "en" # Whisper translates into English
	583	+ else:
	584	+ tgt_language = language # Whisper transcribes in this language
580	585
	586	+ # Create the tokenizer
	587	+ if args.buffer_trimming == "sentence":
	588	+ tokenizer = create_tokenizer(tgt_language)
	589	+ else:
	590	+ tokenizer = None
	591	+
	592	+ # Create the OnlineASRProcessor
	593	+ online = OnlineASRProcessor(asr,tokenizer,logfile=logfile,buffer_trimming=(args.buffer_trimming, args.buffer_trimming_sec))
	594	+
	595	+ return asr, online
581	596	## main:
582	597
583	598	if __name__ == "__main__":
...	...	@@ -605,22 +620,8 @@
605	620	duration = len(load_audio(audio_path))/SAMPLING_RATE
606	621	print("Audio duration is: %2.2f seconds" % duration, file=logfile)
607	622
608		- asr = asr_factory(args, logfile=logfile)
609		- language = args.lan
610		- if args.task == "translate":
611		- asr.set_translate_task()
612		- tgt_language = "en" # Whisper translates into English
613		- else:
614		- tgt_language = language # Whisper transcribes in this language
615		-
616		-
	623	+ asr, online = asr_factory(args, logfile=logfile)
617	624	min_chunk = args.min_chunk_size
618		- if args.buffer_trimming == "sentence":
619		- tokenizer = create_tokenizer(tgt_language)
620		- else:
621		- tokenizer = None
622		- online = OnlineASRProcessor(asr,tokenizer,logfile=logfile,buffer_trimming=(args.buffer_trimming, args.buffer_trimming_sec))
623		-
624	625
625	626	# load the audio into the LRU cache before we start the timer
626	627	a = load_audio_chunk(audio_path,0,1)

...	...	@@ -25,16 +25,10 @@
25	25
26	26	size = args.model
27	27	language = args.lan
28		-
29		-asr = asr_factory(args)
30		-if args.task == "translate":
31		- asr.set_translate_task()
32		- tgt_language = "en"
33		-else:
34		- tgt_language = language
35		-
	28	+asr, online = asr_factory(args)
36	29	min_chunk = args.min_chunk_size
37	30
	31	+
38	32	if args.buffer_trimming == "sentence":
39	33	tokenizer = create_tokenizer(tgt_language)
40	34	else:

Delete comment