Spaces:

prithivMLmods
/

Vision-to-VibeVoice-en

Running on Zero

update app + inference check passed ✅

by prithivMLmods - opened 8 days ago

←

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import os
 import sys
 import time
 import copy
 import random
@@ -7,9 +8,9 @@ import torch
 import spaces
 import requests
 import subprocess
-import importlib.util
 import gradio as gr
 from PIL import Image
 from threading import Thread
 from typing import Iterable, Optional, Tuple, List
@@ -32,7 +33,9 @@ check_and_install_package("transformers", "transformers", "transformers==4.57.3"
 print("Done!")
 from transformers import (
-    Qwen3VLForConditionalGeneration,
     AutoProcessor,
     TextIteratorStreamer,
 )
@@ -135,11 +138,11 @@ css = """
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 print(f"Using Main Device: {device}")
-QWEN_VL_MODEL_ID = "Qwen/Qwen3-VL-8B-Instruct"
 print(f"Loading OCR Model: {QWEN_VL_MODEL_ID}...")
 qwen_processor = AutoProcessor.from_pretrained(QWEN_VL_MODEL_ID, trust_remote_code=True)
-qwen_model = Qwen3VLForConditionalGeneration.from_pretrained(
     QWEN_VL_MODEL_ID,
     attn_implementation="flash_attention_2",
     trust_remote_code=True,
@@ -362,7 +365,7 @@ with gr.Blocks() as demo:
             text_output = gr.Textbox(
                 label="Extracted Text (Editable)",
                 interactive=True,
-                lines=10,
             )
             audio_output = gr.Audio(

 import os
 import sys
+import cv2
 import time
 import copy
 import random
 import spaces
 import requests
 import subprocess
 import gradio as gr
 from PIL import Image
+import importlib.util
 from threading import Thread
 from typing import Iterable, Optional, Tuple, List
 print("Done!")
 from transformers import (
+    Qwen2_5_VLForConditionalGeneration,
+    AutoModelForImageTextToText,
+    AutoModelForCausalLM,
     AutoProcessor,
     TextIteratorStreamer,
 )
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 print(f"Using Main Device: {device}")
+QWEN_VL_MODEL_ID = "Qwen/Qwen2.5-VL-7B-Instruct"
 print(f"Loading OCR Model: {QWEN_VL_MODEL_ID}...")
 qwen_processor = AutoProcessor.from_pretrained(QWEN_VL_MODEL_ID, trust_remote_code=True)
+qwen_model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
     QWEN_VL_MODEL_ID,
     attn_implementation="flash_attention_2",
     trust_remote_code=True,
             text_output = gr.Textbox(
                 label="Extracted Text (Editable)",
                 interactive=True,
+                lines=14,
             )
             audio_output = gr.Audio(