Spaces:

Detomo
/

detect_greeting_app

Runtime error

App Files Files Community

vumichien commited on Jun 26, 2023

Commit

dfa0f16

1 Parent(s): ca8a6b4

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -15

app.py CHANGED Viewed

@@ -10,6 +10,7 @@ audio_model = WhisperModel("base", compute_type="int8", device="cpu")
 text_model = SentenceTransformer('all-MiniLM-L6-v2')
 corpus_embeddings = torch.load('corpus_embeddings.pt')
 model_type = "whisper"
 def speech_to_text(upload_audio):
     """
@@ -29,7 +30,7 @@ def voice_detect(audio, recongnize_text=""):
     """
     Transcribe audio using whisper model.
     """
-    # time.sleep(1)
     if len(recongnize_text) !=0:
         count_state = int(recongnize_text[0])
         recongnize_text = recongnize_text[1:]
@@ -39,7 +40,7 @@ def voice_detect(audio, recongnize_text=""):
     threshold = 0.8
     detect_greeting = 0
     text = speech_to_text(audio)
-    if text == "ご視聴ありがとうございました" or text == "ご視聴ありがとうございました。":
         text = ""
     recongnize_text = recongnize_text + " " + text
     query_embedding = text_model.encode(text, convert_to_tensor=True)
@@ -55,18 +56,25 @@ def voice_detect(audio, recongnize_text=""):
     recongnize_state = str(count_state + detect_greeting) + recongnize_text
     return  recongnize_text, recongnize_state, count_state
-demo = gr.Interface(
-    title= "Greeting detection demo app 🙇",
-    fn=voice_detect,
-    inputs=[
-        gr.Audio(source="microphone", type="filepath", streaming=True),
-        "state",
-    ],
-    outputs=[
-        gr.Textbox(label="Predicted"),
-        "state",
-        gr.Number(label="Greeting count"),
-    ],
-    live=True)
 demo.launch(debug=True)

 text_model = SentenceTransformer('all-MiniLM-L6-v2')
 corpus_embeddings = torch.load('corpus_embeddings.pt')
 model_type = "whisper"
+title= "Greeting detection demo app"
 def speech_to_text(upload_audio):
     """
     """
     Transcribe audio using whisper model.
     """
+    # time.sleep(2)
     if len(recongnize_text) !=0:
         count_state = int(recongnize_text[0])
         recongnize_text = recongnize_text[1:]
     threshold = 0.8
     detect_greeting = 0
     text = speech_to_text(audio)
+    if "ご視聴ありがとうございました" in text:
         text = ""
     recongnize_text = recongnize_text + " " + text
     query_embedding = text_model.encode(text, convert_to_tensor=True)
     recongnize_state = str(count_state + detect_greeting) + recongnize_text
     return  recongnize_text, recongnize_state, count_state
+def clear():
+    return None, None, None
+demo = gr.Blocks(title=title)
+with demo:
+    gr.Markdown('''
+            <div>
+            <h1 style='text-align: center'>挨拶カウンター</h1>
+            </div>
+        ''')
+    with gr.Row():
+        with gr.Column():
+            audio_source = gr.Audio(source="microphone", type="filepath", streaming=True)
+            state = gr.State(value="")
+        with gr.Column():
+            greeting_count = gr.Number(label="挨拶回数")
+    with gr.Row():
+        text_output = gr.Textbox(label="認識されたテキスト")
+    audio_source.stream(voice_detect, inputs=[audio_source, state], outputs=[text_output, state, greeting_count])
 demo.launch(debug=True)