added AsyncLM

itay-verkh-lightricks · itay-verkh-lightricks · commit d631c84452d0 · 2025-01-01T12:24:19.000Z
diff --git a/dspy/clients/__init__.py b/dspy/clients/__init__.py
@@ -1,4 +1,5 @@
 from dspy.clients.lm import LM
+from dspy.clients.async_lm import AsyncLM
 from dspy.clients.provider import Provider, TrainingJob
 from dspy.clients.base_lm import BaseLM, inspect_history
 from dspy.clients.embedding import Embedder
@@ -37,6 +38,7 @@ def disable_litellm_logging():
 
 __all__ = [
     "LM",
+    "AsyncLM",
     "Provider",
     "TrainingJob",
     "BaseLM",
diff --git a/dspy/clients/async_lm.py b/dspy/clients/async_lm.py
@@ -0,0 +1,137 @@
+import os
+import uuid
+from datetime import datetime
+from typing import Dict, Any, Awaitable, cast
+
+from anyio.streams.memory import MemoryObjectSendStream
+from litellm.types.router import RetryPolicy
+
+import litellm
+
+import dspy
+from dspy.clients.lm import request_cache, LM
+from dspy.utils import with_callbacks
+
+
+class AsyncLM(LM):
+    @with_callbacks
+    def __call__(self, prompt=None, messages=None, **kwargs) -> Awaitable:
+        async def _async_call(prompt, messages, **kwargs):
+            # Build the request.
+            cache = kwargs.pop("cache", self.cache)
+            messages = messages or [{"role": "user", "content": prompt}]
+            kwargs = {**self.kwargs, **kwargs}
+
+            # Make the request and handle LRU & disk caching.
+            if self.model_type == "chat":
+                completion = cached_litellm_completion if cache else litellm_acompletion
+            else:
+                completion = cached_litellm_text_completion if cache else litellm_text_acompletion
+
+            response = await completion(
+                request=dict(model=self.model, messages=messages, **kwargs),
+                num_retries=self.num_retries,
+            )
+            outputs = [c.message.content if hasattr(c, "message") else c["text"] for c in response["choices"]]
+            self._log_entry(prompt, messages, kwargs, response, outputs)
+            return outputs
+
+        return _async_call(prompt, messages, **kwargs)
+
+@request_cache(maxsize=None)
+async def cached_litellm_completion(request: Dict[str, Any], num_retries: int):
+    return await litellm_acompletion(
+        request,
+        cache={"no-cache": False, "no-store": False},
+        num_retries=num_retries,
+    )
+
+
+async def litellm_acompletion(request: Dict[str, Any], num_retries: int, cache={"no-cache": True, "no-store": True}):
+    retry_kwargs = dict(
+        retry_policy=_get_litellm_retry_policy(num_retries),
+        # In LiteLLM version 1.55.3 (the first version that supports retry_policy as an argument
+        # to completion()), the default value of max_retries is non-zero for certain providers, and
+        # max_retries is stacked on top of the retry_policy. To avoid this, we set max_retries=0
+        max_retries=0,
+    )
+
+    stream = dspy.settings.send_stream
+    if stream is None:
+        return await litellm.acompletion(
+            cache=cache,
+            **retry_kwargs,
+            **request,
+        )
+
+    # The stream is already opened, and will be closed by the caller.
+    stream = cast(MemoryObjectSendStream, stream)
+
+    async def stream_completion():
+        response = await litellm.acompletion(
+            cache=cache,
+            stream=True,
+            **retry_kwargs,
+            **request,
+        )
+        chunks = []
+        async for chunk in response:
+            chunks.append(chunk)
+            await stream.send(chunk)
+        return litellm.stream_chunk_builder(chunks)
+
+    return await stream_completion()
+
+
+@request_cache(maxsize=None)
+async def cached_litellm_text_completion(request: Dict[str, Any], num_retries: int):
+    return await litellm_text_acompletion(
+        request,
+        num_retries=num_retries,
+        cache={"no-cache": False, "no-store": False},
+    )
+
+
+async def litellm_text_acompletion(request: Dict[str, Any], num_retries: int, cache={"no-cache": True, "no-store": True}):
+    # Extract the provider and model from the model string.
+    # TODO: Not all the models are in the format of "provider/model"
+    model = request.pop("model").split("/", 1)
+    provider, model = model[0] if len(model) > 1 else "openai", model[-1]
+
+    # Use the API key and base from the request, or from the environment.
+    api_key = request.pop("api_key", None) or os.getenv(f"{provider}_API_KEY")
+    api_base = request.pop("api_base", None) or os.getenv(f"{provider}_API_BASE")
+
+    # Build the prompt from the messages.
+    prompt = "\n\n".join([x["content"] for x in request.pop("messages")] + ["BEGIN RESPONSE:"])
+
+    return await litellm.atext_completion(
+        cache=cache,
+        model=f"text-completion-openai/{model}",
+        api_key=api_key,
+        api_base=api_base,
+        prompt=prompt,
+        num_retries=num_retries,
+        **request,
+    )
+
+def _get_litellm_retry_policy(num_retries: int) -> RetryPolicy:
+    """
+    Get a LiteLLM retry policy for retrying requests when transient API errors occur.
+    Args:
+        num_retries: The number of times to retry a request if it fails transiently due to
+                     network error, rate limiting, etc. Requests are retried with exponential
+                     backoff.
+    Returns:
+        A LiteLLM RetryPolicy instance.
+    """
+    return RetryPolicy(
+        TimeoutErrorRetries=num_retries,
+        RateLimitErrorRetries=num_retries,
+        InternalServerErrorRetries=num_retries,
+        ContentPolicyViolationErrorRetries=num_retries,
+        # We don't retry on errors that are unlikely to be transient
+        # (e.g. bad request, invalid auth credentials)
+        BadRequestErrorRetries=0,
+        AuthenticationErrorRetries=0,
+    )
diff --git a/dspy/clients/lm.py b/dspy/clients/lm.py
@@ -113,6 +113,10 @@ def __call__(self, prompt=None, messages=None, **kwargs):
         else:
             outputs = [c.message.content if hasattr(c, "message") else c["text"] for c in response["choices"]]
 
+        self._log_entry(prompt, messages, kwargs, response, outputs)
+        return outputs
+
+    def _log_entry(self, prompt, messages, kwargs, response, outputs):
         # Logging, with removed api key & where `cost` is None on cache hit.
         kwargs = {k: v for k, v in kwargs.items() if not k.startswith("api_")}
         entry = dict(prompt=prompt, messages=messages, kwargs=kwargs, response=response)
@@ -129,8 +133,6 @@ def __call__(self, prompt=None, messages=None, **kwargs):
         self.history.append(entry)
         self.update_global_history(entry)
 
-        return outputs
-
     def launch(self, launch_kwargs: Optional[Dict[str, Any]] = None):
         launch_kwargs = launch_kwargs or self.launch_kwargs
         self.provider.launch(self.model, launch_kwargs)
diff --git a/pyproject.toml b/pyproject.toml
@@ -72,7 +72,7 @@ docs = [
     "sphinx-reredirects>=0.1.2",
     "sphinx-automodapi==0.16.0",
 ]
-dev = ["pytest>=6.2.5"]
+dev = ["pytest>=6.2.5", "pytest-asyncio>=0.25.0"]
 fastembed = ["fastembed>=0.2.0"]
 
 [project.urls]
@@ -152,6 +152,7 @@ ipykernel = "^6.29.4"
 semver = "^3.0.2"
 pillow = "^10.1.0"
 litellm = { version = "^1.51.0", extras = ["proxy"] }
+pytest-asyncio = "^0.25.0"
 
 [tool.poetry.extras]
 chromadb = ["chromadb"]
diff --git a/requirements-dev.txt b/requirements-dev.txt
@@ -4,6 +4,7 @@ litellm[proxy]==1.53.7
 pillow==10.4.0
 pre-commit==3.7.0
 pytest==8.3.3
+pytest-asyncio==0.25.0
 pytest-env==1.1.3
 pytest-mock==3.12.0
 ruff==0.3.0
diff --git a/tests/clients/test_lm.py b/tests/clients/test_lm.py
@@ -29,6 +29,20 @@ def test_chat_lms_can_be_queried(litellm_test_server):
     assert azure_openai_lm("azure openai query") == expected_response
 
 
+@pytest.mark.asyncio
+async def test_async_chat_lms_can_be_queried(litellm_test_server):
+    api_base, _ = litellm_test_server
+    expected_response = ["Hi!"]
+
+    openai_lm = dspy.AsyncLM(
+        model="openai/dspy-test-model",
+        api_base=api_base,
+        api_key="fakekey",
+        model_type="chat",
+    )
+    assert await openai_lm("openai query") == expected_response
+
+
 def test_text_lms_can_be_queried(litellm_test_server):
     api_base, _ = litellm_test_server
     expected_response = ["Hi!"]
@@ -50,6 +64,20 @@ def test_text_lms_can_be_queried(litellm_test_server):
     assert azure_openai_lm("azure openai query") == expected_response
 
 
+@pytest.mark.asyncio
+async def test_async_text_lms_can_be_queried(litellm_test_server):
+    api_base, _ = litellm_test_server
+    expected_response = ["Hi!"]
+
+    openai_lm = dspy.AsyncLM(
+        model="openai/dspy-test-model",
+        api_base=api_base,
+        api_key="fakekey",
+        model_type="text",
+    )
+    assert await openai_lm("openai query") == expected_response
+
+
 def test_lm_calls_support_callables(litellm_test_server):
     api_base, _ = litellm_test_server