Spaces:

alon-albalak
/

collaborative-decoding

Sleeping

Alon Albalak commited on Nov 7

Commit

fdc1169

1 Parent(s): 6cef7dd

fix minor bug

Files changed (1) hide show

src/models/llm_manager.py CHANGED Viewed

@@ -78,8 +78,8 @@ class LLMManager:
         with torch.no_grad():
             outputs = self.model.generate(
-                inputs.input_ids,
-                attention_mask=inputs.attention_mask,
                 max_new_tokens=1000,
                 do_sample=True,
                 top_p=0.95,
@@ -90,6 +90,6 @@ class LLMManager:
         # Move output back to CPU and decode
         outputs = outputs.cpu()
-        full_response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
         assistant_part = full_response.split("Assistant: ")[-1]
         return assistant_part

         with torch.no_grad():
             outputs = self.model.generate(
+                inputs['input_ids'],
+                attention_mask=inputs['attention_mask'],
                 max_new_tokens=1000,
                 do_sample=True,
                 top_p=0.95,
         # Move output back to CPU and decode
         outputs = outputs.cpu()
+        full_response = self.tokenizer.decode(outputs[0].cpu(), skip_special_tokens=True)
         assistant_part = full_response.split("Assistant: ")[-1]
         return assistant_part