Commit @5741d7c7d9dc4e745ef560756bffd3fb6e3f60f1 - yjyoon/whisper_server

d7d34e3

5741d7c

Taskfile.yaml

--- Taskfile.yaml

+++ Taskfile.yaml


   create-multi-arch-builder: docker buildx create --name main --driver=docker-container
   build-and-push:
     cmds:
-      - docker compose build --builder main
+      - docker compose build --builder main --push
     sources:
       - Dockerfile.*
       - speaches/*.py

d7d34e3

5741d7c

speaches/config.py

--- speaches/config.py

+++ speaches/config.py


 from pydantic import BaseModel, Field
 from pydantic_settings import BaseSettings, SettingsConfigDict
 
-from speaches.server_models import ResponseFormat
-
 SAMPLES_PER_SECOND = 16000
 BYTES_PER_SAMPLE = 2
 BYTES_PER_SECOND = SAMPLES_PER_SECOND * BYTES_PER_SAMPLE

 # 1 SECOND OF AUDIO = 32000 BYTES = 16000 SAMPLES
 
 
+# https://platform.openai.com/docs/api-reference/audio/createTranscription#audio-createtranscription-response_format
+class ResponseFormat(enum.StrEnum):
+    TEXT = "text"
+    JSON = "json"
+    VERBOSE_JSON = "verbose_json"
+    # VTT = "vtt"
+    # SRT = "srt"
+
+
 # https://huggingface.co/Systran
 class Model(enum.StrEnum):
     TINY_EN = "tiny.en"

d7d34e3

5741d7c

speaches/main.py

--- speaches/main.py

+++ speaches/main.py


 from speaches import utils
 from speaches.asr import FasterWhisperASR
 from speaches.audio import AudioStream, audio_samples_from_file
-from speaches.config import SAMPLES_PER_SECOND, Language, Model, config
+from speaches.config import (SAMPLES_PER_SECOND, Language, Model,
+                             ResponseFormat, config)
 from speaches.core import Transcription
 from speaches.logger import logger
-from speaches.server_models import (ResponseFormat, TranscriptionJsonResponse,
+from speaches.server_models import (TranscriptionJsonResponse,
                                     TranscriptionVerboseJsonResponse)
 from speaches.transcriber import audio_transcriber
 

d7d34e3

5741d7c

speaches/server_models.py

--- speaches/server_models.py

+++ speaches/server_models.py


 from __future__ import annotations
 
-import enum
-
 from faster_whisper.transcribe import Segment, TranscriptionInfo, Word
 from pydantic import BaseModel
 
 from speaches import utils
 from speaches.core import Transcription
-
-
-# https://platform.openai.com/docs/api-reference/audio/createTranscription#audio-createtranscription-response_format
-class ResponseFormat(enum.StrEnum):
-    TEXT = "text"
-    JSON = "json"
-    VERBOSE_JSON = "verbose_json"
-    # VTT = "vtt"
-    # SRT = "srt"
 
 
 # https://platform.openai.com/docs/api-reference/audio/json-object

...	...	@@ -15,7 +15,7 @@
15	15	create-multi-arch-builder: docker buildx create --name main --driver=docker-container
16	16	build-and-push:
17	17	cmds:
18		- - docker compose build --builder main
	18	+ - docker compose build --builder main --push
19	19	sources:
20	20	- Dockerfile.*
21	21	- speaches/*.py

...	...	@@ -3,8 +3,6 @@
3	3	from pydantic import BaseModel, Field
4	4	from pydantic_settings import BaseSettings, SettingsConfigDict
5	5
6		-from speaches.server_models import ResponseFormat
7		-
8	6	SAMPLES_PER_SECOND = 16000
9	7	BYTES_PER_SAMPLE = 2
10	8	BYTES_PER_SECOND = SAMPLES_PER_SECOND * BYTES_PER_SAMPLE
...	...	@@ -12,6 +10,15 @@
12	10	# 1 SECOND OF AUDIO = 32000 BYTES = 16000 SAMPLES
13	11
14	12
	13	+# https://platform.openai.com/docs/api-reference/audio/createTranscription#audio-createtranscription-response_format
	14	+class ResponseFormat(enum.StrEnum):
	15	+ TEXT = "text"
	16	+ JSON = "json"
	17	+ VERBOSE_JSON = "verbose_json"
	18	+ # VTT = "vtt"
	19	+ # SRT = "srt"
	20	+
	21	+
15	22	# https://huggingface.co/Systran
16	23	class Model(enum.StrEnum):
17	24	TINY_EN = "tiny.en"

...	...	@@ -17,10 +17,11 @@
17	17	from speaches import utils
18	18	from speaches.asr import FasterWhisperASR
19	19	from speaches.audio import AudioStream, audio_samples_from_file
20		-from speaches.config import SAMPLES_PER_SECOND, Language, Model, config
	20	+from speaches.config import (SAMPLES_PER_SECOND, Language, Model,
	21	+ ResponseFormat, config)
21	22	from speaches.core import Transcription
22	23	from speaches.logger import logger
23		-from speaches.server_models import (ResponseFormat, TranscriptionJsonResponse,
	24	+from speaches.server_models import (TranscriptionJsonResponse,
24	25	TranscriptionVerboseJsonResponse)
25	26	from speaches.transcriber import audio_transcriber
26	27

...	...	@@ -1,21 +1,10 @@
1	1	from __future__ import annotations
2	2
3		-import enum
4		-
5	3	from faster_whisper.transcribe import Segment, TranscriptionInfo, Word
6	4	from pydantic import BaseModel
7	5
8	6	from speaches import utils
9	7	from speaches.core import Transcription
10		-
11		-
12		-# https://platform.openai.com/docs/api-reference/audio/createTranscription#audio-createtranscription-response_format
13		-class ResponseFormat(enum.StrEnum):
14		- TEXT = "text"
15		- JSON = "json"
16		- VERBOSE_JSON = "verbose_json"
17		- # VTT = "vtt"
18		- # SRT = "srt"
19	8
20	9
21	10	# https://platform.openai.com/docs/api-reference/audio/json-object

Delete comment