Small fix and update tests (#9370)

sjrl · web-flow · commit 9f2c0679d4ef · 2025-05-12T22:02:26.000+02:00
diff --git a/haystack/components/generators/chat/hugging_face_api.py b/haystack/components/generators/chat/hugging_face_api.py
@@ -401,6 +401,7 @@ def _run_streaming(
 
         generated_text = ""
         first_chunk_time = None
+        meta: Dict[str, Any] = {}
 
         for chunk in api_output:
             # n is unused, so the API always returns only one choice
@@ -412,8 +413,6 @@ def _run_streaming(
             generated_text += text
 
             finish_reason = choice.finish_reason
-
-            meta: Dict[str, Any] = {}
             if finish_reason:
                 meta["finish_reason"] = finish_reason
 
@@ -426,15 +425,13 @@ def _run_streaming(
         meta.update(
             {
                 "model": self._client.model,
-                "finish_reason": finish_reason,
                 "index": 0,
                 "usage": {"prompt_tokens": 0, "completion_tokens": 0},  # not available in streaming
                 "completion_start_time": first_chunk_time,
             }
         )
 
         message = ChatMessage.from_assistant(text=generated_text, meta=meta)
-
         return {"replies": [message]}
 
     def _run_non_streaming(
@@ -485,6 +482,7 @@ async def _run_streaming_async(
 
         generated_text = ""
         first_chunk_time = None
+        meta: Dict[str, Any] = {}
 
         async for chunk in api_output:
             choice = chunk.choices[0]
@@ -493,8 +491,6 @@ async def _run_streaming_async(
             generated_text += text
 
             finish_reason = choice.finish_reason
-
-            meta: Dict[str, Any] = {}
             if finish_reason:
                 meta["finish_reason"] = finish_reason
 
@@ -507,7 +503,6 @@ async def _run_streaming_async(
         meta.update(
             {
                 "model": self._async_client.model,
-                "finish_reason": finish_reason,
                 "index": 0,
                 "usage": {"prompt_tokens": 0, "completion_tokens": 0},
                 "completion_start_time": first_chunk_time,
diff --git a/test/components/generators/chat/test_hugging_face_api.py b/test/components/generators/chat/test_hugging_face_api.py
@@ -671,9 +671,15 @@ def test_live_run_serverless(self):
         assert isinstance(response["replies"], list)
         assert len(response["replies"]) > 0
         assert [isinstance(reply, ChatMessage) for reply in response["replies"]]
-        assert "usage" in response["replies"][0].meta
-        assert "prompt_tokens" in response["replies"][0].meta["usage"]
-        assert "completion_tokens" in response["replies"][0].meta["usage"]
+        assert response["replies"][0].text is not None
+        meta = response["replies"][0].meta
+        assert "usage" in meta
+        assert "prompt_tokens" in meta["usage"]
+        assert meta["usage"]["prompt_tokens"] > 0
+        assert "completion_tokens" in meta["usage"]
+        assert meta["usage"]["completion_tokens"] > 0
+        assert meta["model"] == "microsoft/Phi-3.5-mini-instruct"
+        assert meta["finish_reason"] is not None
 
     @pytest.mark.integration
     @pytest.mark.slow
@@ -701,13 +707,18 @@ def test_live_run_serverless_streaming(self):
         assert isinstance(response["replies"], list)
         assert len(response["replies"]) > 0
         assert [isinstance(reply, ChatMessage) for reply in response["replies"]]
+        assert response["replies"][0].text is not None
 
         response_meta = response["replies"][0].meta
         assert "completion_start_time" in response_meta
         assert datetime.fromisoformat(response_meta["completion_start_time"]) <= datetime.now()
         assert "usage" in response_meta
         assert "prompt_tokens" in response_meta["usage"]
+        assert response_meta["usage"]["prompt_tokens"] == 0
         assert "completion_tokens" in response_meta["usage"]
+        assert response_meta["usage"]["completion_tokens"] == 0
+        assert response_meta["model"] == "microsoft/Phi-3.5-mini-instruct"
+        assert response_meta["finish_reason"] is not None
 
     @pytest.mark.integration
     @pytest.mark.slow
@@ -926,9 +937,16 @@ async def test_live_run_async_serverless(self):
             assert isinstance(response["replies"], list)
             assert len(response["replies"]) > 0
             assert [isinstance(reply, ChatMessage) for reply in response["replies"]]
-            assert "usage" in response["replies"][0].meta
-            assert "prompt_tokens" in response["replies"][0].meta["usage"]
-            assert "completion_tokens" in response["replies"][0].meta["usage"]
+            assert response["replies"][0].text is not None
+
+            meta = response["replies"][0].meta
+            assert "usage" in meta
+            assert "prompt_tokens" in meta["usage"]
+            assert meta["usage"]["prompt_tokens"] > 0
+            assert "completion_tokens" in meta["usage"]
+            assert meta["usage"]["completion_tokens"] > 0
+            assert meta["model"] == "microsoft/Phi-3.5-mini-instruct"
+            assert meta["finish_reason"] is not None
         finally:
             await generator._async_client.close()