[Bugfix] Add reset prefix cache for online serving (#22726)

Signed-off-by: iAmir97 <Amir.balwel@embeddedllm.com> Signed-off-by: iAmir97 <71513472+iAmir97@users.noreply.github.com> Co-authored-by: iAmir97 <Amir.balwel@embeddedllm.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
2025-10-20 14:53:52 +08:00 · 2025-08-14 18:04:18 +07:00
parent f4efda821d
commit 7655dc3e45
2 changed files with 2 additions and 0 deletions
--- a/vllm/engine/async_llm_engine.py
+++ b/vllm/engine/async_llm_engine.py
@ -1092,6 +1092,7 @@ class AsyncLLMEngine(EngineClient):
        self.engine.reset_prefix_cache(device)

    async def sleep(self, level: int = 1) -> None:
+        await self.reset_prefix_cache()
        self.engine.sleep(level)

    async def wake_up(self, tags: Optional[list[str]] = None) -> None:
--- a/vllm/v1/engine/async_llm.py
+++ b/vllm/v1/engine/async_llm.py
@ -576,6 +576,7 @@ class AsyncLLM(EngineClient):
        await self.engine_core.reset_prefix_cache_async()

    async def sleep(self, level: int = 1) -> None:
+        await self.reset_prefix_cache()
        await self.engine_core.sleep_async(level)

    async def wake_up(self, tags: Optional[list[str]] = None) -> None: