Spaces:

AIDC-AI
/

Marco-MT-Algharb

Running on Zero

App Files Files Community

怀羽 commited on Oct 20

Commit

423e6fa

1 Parent(s): a67e7e4

update zeroGPU

Browse files

Files changed (2) hide show

app.py +67 -108
requirements.txt +4 -1

app.py CHANGED Viewed

@@ -1,78 +1,57 @@
 import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
-import sys
 import os
 # --------------------------------------------------------------------------
-# 1. 配置和加载模型 (在应用启动时执行一次)
 # --------------------------------------------------------------------------
-# 确保这里是你的本地模型路径
-# model_id = "/mnt/workspace/wanghao/model_saved/Marco-MT-WMT"
 model_id = "AIDC-AI/Marco-MT-Algharb"
-# 将模型目录添加到 Python 路径 (修复 Qwen3ForCausalLM 导入问题)
-if os.path.isdir(model_id):
-    sys.path.insert(0, model_id)
-    print(f"已将模型目录添加到 sys.path: {model_id}")
-print(f"正在加载 Tokenizer: {model_id}...")
-tokenizer = None
 model = None
-device = "cuda"
 try:
     tokenizer = AutoTokenizer.from_pretrained(
         model_id,
         trust_remote_code=True
     )
     print("Tokenizer 加载成功!")
-except Exception as e:
-    print(f"Tokenizer 加载失败: {e}")
-if tokenizer:
-    print(f"正在加载模型: {model_id}...")
-    try:
-        model = AutoModelForCausalLM.from_pretrained(
-            model_id,
-            trust_remote_code=True
-        ).to(device).eval()
-        print("模型加载成功!")
-    except Exception as e:
-        print(f"模型加载失败: {e}")
-        model = None
-else:
-    print("因 Tokenizer 加载失败，跳过模型加载。")
-    model = None
-# --- ★★★ 关键修复: 正确设置 Qwen 的停止 Token ★★★ ---
-if tokenizer:
-    # 1. 获取 <|im_end|> 的 ID (通常是 151645)
     im_end_id = tokenizer.convert_tokens_to_ids("<|im_end|>")
-    # 2. 获取 <|endoftext|> 的 ID (通常是 151643)
     eot_id = tokenizer.eos_token_id
     print(f"设置停止 IDs: <|im_end|_id={im_end_id}, <|endoftext|_id={eot_id}")
-    # 3. 创建 GenerationConfig
     generation_config = GenerationConfig(
         do_sample=False,
         max_new_tokens=512,
-        # 关键(1): 告诉 generate() 遇到 *这两个* token 中的任何一个都要停止
         eos_token_id=[im_end_id, eot_id],
-        # 关键(2): 告诉 generate() 在批处理(batching)时使用哪个 token 进行填充
-        # (我们使用 <|endoftext|>)
         pad_token_id=eot_id
     )
-else:
-    # 备用配置，以防 tokenizer 加载失败
-    generation_config = GenerationConfig(
-        do_sample=False,
-        max_new_tokens=512
-    )
 # 语言代码到全名的映射 (保持不变)
 source_lang_name_map = {
@@ -95,15 +74,40 @@ target_lang_name_map = {
     "sr_latin": "serbian",
     "de": "german",
 }
 # --------------------------------------------------------------------------
 # 2. 定义核心翻译函数 (修改版)
 # --------------------------------------------------------------------------
 def translate(source_text, source_lang_code, target_lang_code):
     """
-    接收用户输入并返回翻译结果 (使用 Transformers)
     """
-    if model is None or tokenizer is None:
-        return "错误：模型或 Tokenizer 未能成功加载，请检查 Space 日志。"
     # 简单的输入验证
     if not source_text or not source_text.strip():
@@ -112,41 +116,27 @@ def translate(source_text, source_lang_code, target_lang_code):
     source_language_name = source_lang_name_map.get(source_lang_code, "the source language")
     target_language_name = target_lang_name_map.get(target_lang_code, "the target language")
-    # 构建与 vLLM 版本相同的提示
     prompt = (
         f"Human: Please translate the following text into {target_language_name}: \n"
         f"{source_text}<|im_end|>\n"
         f"Assistant:"
     )
-    print("--- Prompt ---")
-    print(prompt)
-    print("--------------")
     try:
-        # 1. 编码 (Tokenize)
-        # CausalLM 需要将 "Human: ... Assistant:" 整个作为输入
-        inputs = tokenizer(prompt, return_tensors="pt")
-        # 2. 将输入张量移动到模型所在的设备
-        # (当使用 device_map="auto" 时, model.device 指向第一个设备)
-        inputs = inputs.to(model.device)
-        # 3. 生成 (Generate)
-        with torch.no_grad(): # 推理时不需要计算梯度
             outputs = model.generate(
                 **inputs,
                 generation_config=generation_config
             )
-        # 4. 解码 (Decode)
-        # outputs[0] 包含了 "input_ids + generated_ids"
-        # 我们需要从 "input_ids" 之后开始解码
         input_length = inputs.input_ids.shape[1]
         generated_ids = outputs[0][input_length:]
         generated_text = tokenizer.decode(generated_ids, skip_special_tokens=True).strip()
         return generated_text
     except Exception as e:
         print(f"翻译过程中出错: {e}")
         return f"翻译时发生错误: {e}"
@@ -157,57 +147,26 @@ def translate(source_text, source_lang_code, target_lang_code):
 # <--- 定义自定义 CSS 样式 --->
 css = """
-/* --- 1. 整体背景 (改为更高级的浅灰蓝渐变) --- */
-.gradio-container {
-    /* 新的背景: 一个更清晰、更现代的浅灰蓝色渐变 */
-    background: linear-gradient(135deg, #F5F7FA 0%, #E8EBEE 100%);
-    padding: 20px !important;
-    /* 新增: 设置全局字体为"正常"的系统默认字体 */
-    font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol";
-}
-/* --- 2. 标题 (保持不变, 它将继承上面的新字体) --- */
-.app-title {
-    font-size: 32px;
-    font-weight: 600;
-    text-align: center;
-    color: #333333;
-    margin-bottom: 5px;
-    padding-top: 10px;
-}
-.app-subtitle {
-    text-align: center;
-    font-size: 18px;
-    color: #555555;
-    margin-bottom: 20px;
-}
-/* --- 3. "悬浮卡片" 效果 (保持不变, 新背景将使其更突出) --- */
-.gradio-group {
-    border-radius: 20px !important;
-    box-shadow: 0 10px 30px rgba(0,0,0,0.07) !important;
-    border: 0 !important;
-    background: white;
-}
-/* --- 4. 增大文本框 (保持不变) --- */
 .gradio-textbox {
     min-height: 300px !important;
 }
 """
-# <--- 修复: 在这里加回被删除的 choices 定义 ---
 source_lang_choices = [(name.capitalize(), code) for code, name in source_lang_name_map.items()]
 target_lang_choices = [(name.capitalize(), code) for code, name in target_lang_name_map.items()]
-# <--- 修改 2: 使用 gr.Blocks 并保持主题 --->
 with gr.Blocks(
-    theme=gr.themes.Soft(primary_hue="amber", secondary_hue="amber"), # 保持 "amber" 主题
     css=css,
 ) as demo:
     # --- 标题 ---
     gr.HTML(f"""
     <div class='app-title'>Marco-MT-Algharb</div>
@@ -264,7 +223,7 @@ with gr.Blocks(
         inputs=[source_text_tb, source_lang_dd, target_lang_dd]
     )
-    # --- (新位置) 支持的语向卡片 ---
     gr.HTML(f"""
     <div style="color: #444; font-size: 16px; margin-top: 30px; padding: 20px 25px; background-color: #FFFFFF; border-radius: 15px; max-width: 900px; margin-left: auto; margin-right: auto; box-shadow: 0 4px 20px rgba(0,0,0,0.05);">

+# app.py (为 Hugging Face ZeroGPU 修改)
 import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
 import os
+import sys
 # --------------------------------------------------------------------------
+# 1. 配置 (在应用启动时执行)
 # --------------------------------------------------------------------------
+# !! 重要的模型 ID (从 HF Hub 加载)
 model_id = "AIDC-AI/Marco-MT-Algharb"
+# --- ZeroGPU 修改 1:
+# 在启动时 *只* 定义全局变量为 None
+# 大模型将在第一个请求到来时被加载
+# ---
 model = None
+tokenizer = None
+generation_config = None
+print("ZeroGPU 启动脚本开始...")
+print(f"准备从 {model_id} 加载 Tokenizer...")
+# Tokenizer 很小, 可以在启动时加载
+# ★★★ 提醒: 这仍然需要你已在 Space settings 中设置 HF_TOKEN 密钥 ★★★
 try:
     tokenizer = AutoTokenizer.from_pretrained(
         model_id,
         trust_remote_code=True
     )
     print("Tokenizer 加载成功!")
+    # --- ZeroGPU 修改 2:
+    # Tokenizer 加载成功后, *立即* 定义 GenerationConfig
+    # (这解决了你之前关于 Qwen3 停止 token 的问题)
+    # ---
     im_end_id = tokenizer.convert_tokens_to_ids("<|im_end|>")
     eot_id = tokenizer.eos_token_id
     print(f"设置停止 IDs: <|im_end|_id={im_end_id}, <|endoftext|_id={eot_id}")
     generation_config = GenerationConfig(
         do_sample=False,
         max_new_tokens=512,
         eos_token_id=[im_end_id, eot_id],
         pad_token_id=eot_id
     )
+    print("GenerationConfig 配置成功。")
+except Exception as e:
+    print(f"Tokenizer 加载失败: {e}")
+    print("!! 严重错误: 如果这是 Gated Repo 问题, 请确保 HF_TOKEN 密钥已设置并重启 Space。")
 # 语言代码到全名的映射 (保持不变)
 source_lang_name_map = {
     "sr_latin": "serbian",
     "de": "german",
 }
 # --------------------------------------------------------------------------
 # 2. 定义核心翻译函数 (修改版)
 # --------------------------------------------------------------------------
 def translate(source_text, source_lang_code, target_lang_code):
     """
+    接收用户输入并返回翻译结果
+    (ZeroGPU: 在首次调用时加载模型)
     """
+    global model # ★★★ 关键: 引用全局 'model' 变量
+    # --- ZeroGPU 修改 3: 首次调用时加载模型 ---
+    if model is None:
+        if tokenizer is None:
+            return "错误：Tokenizer 未能成功加载，无法继续。请检查启动日志。"
+        print("--- 首次请求 ---")
+        print("检测到模型未加载。正在加载模型到 ZeroGPU (Nvidia H200)...")
+        try:
+            # 这一步会触发 ZeroGPU 分配 H200
+            model = AutoModelForCausalLM.from_pretrained(
+                model_id,
+                torch_dtype="auto",
+                device_map="auto",    # 'auto' 将会检测到 H200
+                trust_remote_code=True
+            )
+            model.eval()
+            print("模型已成功加载到 GPU!")
+        except Exception as e:
+            print(f"在首次加载时模型失败: {e}")
+            return f"错误：模型在加载到 GPU 时失败: {e}"
+    # -----------------------------------------
+    # (从这里开始, 代码与之前版本相同)
     # 简单的输入验证
     if not source_text or not source_text.strip():
     source_language_name = source_lang_name_map.get(source_lang_code, "the source language")
     target_language_name = target_lang_name_map.get(target_lang_code, "the target language")
     prompt = (
         f"Human: Please translate the following text into {target_language_name}: \n"
         f"{source_text}<|im_end|>\n"
         f"Assistant:"
     )
     try:
+        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+        with torch.no_grad():
             outputs = model.generate(
                 **inputs,
                 generation_config=generation_config
             )
         input_length = inputs.input_ids.shape[1]
         generated_ids = outputs[0][input_length:]
         generated_text = tokenizer.decode(generated_ids, skip_special_tokens=True).strip()
         return generated_text
     except Exception as e:
         print(f"翻译过程中出错: {e}")
         return f"翻译时发生错误: {e}"
 # <--- 定义自定义 CSS 样式 --->
 css = """
+/* ... 你的所有 CSS 样式 ... */
 .gradio-textbox {
     min-height: 300px !important;
 }
 """
+# <--- 修复: choices 定义 ---
 source_lang_choices = [(name.capitalize(), code) for code, name in source_lang_name_map.items()]
 target_lang_choices = [(name.capitalize(), code) for code, name in target_lang_name_map.items()]
+# <--- 使用 gr.Blocks 并保持主题 --->
 with gr.Blocks(
+    theme=gr.themes.Soft(primary_hue="amber", secondary_hue="amber"),
     css=css,
 ) as demo:
+    # ... (你所有的 Gradio 布局代码, gr.HTML, gr.Row, gr.Group 等...)
+    # ... (这部分不需要任何修改)
     # --- 标题 ---
     gr.HTML(f"""
     <div class='app-title'>Marco-MT-Algharb</div>
         inputs=[source_text_tb, source_lang_dd, target_lang_dd]
     )
+    # --- 支持的语向卡片 ---
     gr.HTML(f"""
     <div style="color: #444; font-size: 16px; margin-top: 30px; padding: 20px 25px; background-color: #FFFFFF; border-radius: 15px; max-width: 900px; margin-left: auto; margin-right: auto; box-shadow: 0 4px 20px rgba(0,0,0,0.05);">

requirements.txt CHANGED Viewed

@@ -1,3 +1,6 @@
 Transformers==4.55.0
 gradio==5.49.1
-tomli

 Transformers==4.55.0
 gradio==5.49.1
+tomli
+accelerate
+bitsandbytes
+sentencepiece