Commit @73904efcdc98299e93faca696f3a19468430ee18 - yjyoon/whisper_streaming

Dominik Macháček 2024-08-19

small code review

@73904efcdc98299e93faca696f3a19468430ee18

e4f0cfb

73904ef

whisper_online.py

--- whisper_online.py

+++ whisper_online.py


 
     def insert_audio_chunk(self, audio):
         res = self.vac(audio)
-        print(res)
         self.audio_buffer = np.append(self.audio_buffer, audio)
 
         if res is not None:

             if self.status == 'voice':
                 self.online.insert_audio_chunk(self.audio_buffer)
                 self.current_online_chunk_buffer_size += len(self.audio_buffer)
-            if self.status is not None:
                 self.clear_buffer()
-            else:  # we are at the beginning of process, no voice has ever been detected
-                # We keep the 1s because VAD may later find start of voice in it.
-                # But trimming it to prevent OOM. 
+            else:
+                # We keep 1 second because VAD may later find start of voice in it.
+                # But we trim it to prevent OOM. 
                 self.buffer_offset += max(0,len(self.audio_buffer)-self.SAMPLING_RATE)
                 self.audio_buffer = self.audio_buffer[-self.SAMPLING_RATE:]
 

Add a comment

Open 0
Closed 0

List

...	...	@@ -558,7 +558,6 @@
558	558
559	559	def insert_audio_chunk(self, audio):
560	560	res = self.vac(audio)
561		- print(res)
562	561	self.audio_buffer = np.append(self.audio_buffer, audio)
563	562
564	563	if res is not None:
...	...	@@ -584,11 +583,10 @@
584	583	if self.status == 'voice':
585	584	self.online.insert_audio_chunk(self.audio_buffer)
586	585	self.current_online_chunk_buffer_size += len(self.audio_buffer)
587		- if self.status is not None:
588	586	self.clear_buffer()
589		- else: # we are at the beginning of process, no voice has ever been detected
590		- # We keep the 1s because VAD may later find start of voice in it.
591		- # But trimming it to prevent OOM.
	587	+ else:
	588	+ # We keep 1 second because VAD may later find start of voice in it.
	589	+ # But we trim it to prevent OOM.
592	590	self.buffer_offset += max(0,len(self.audio_buffer)-self.SAMPLING_RATE)
593	591	self.audio_buffer = self.audio_buffer[-self.SAMPLING_RATE:]
594	592

Delete comment