Fix multi-token character decoding for Qwen2 (legacy gen)

turboderp · turboderp · commit f1adff947291 · 2024-09-29T00:15:05.000+02:00
diff --git a/exllamav2/generator/streaming.py b/exllamav2/generator/streaming.py
@@ -582,12 +582,12 @@ def _stream(self, ban_tokens: list[str] | None = None) -> (str, bool, torch.Tens
 
         # Hold text if it contains an incomplete character
 
-        if self.held_text.endswith("�") and not self.held_text.endswith("�����"):
+        if 1 <= self.held_text.count("�") < 5:
             test_decode = self.tokenizer.decode(
                 self.held_tokens,
-                decode_special_tokens=self.decode_special_tokens
+                decode_special_tokens = self.decode_special_tokens
             )[0]
-            if not test_decode.endswith("�"):
+            if not "�" in test_decode:
                 self.held_text = test_decode
             else:
                 return "", False, self.no_tokens, self.no_probs, self.no_ptokens, self.no_pprobs, self.no_logits, None