[Bugfix] Disable prefix caching by default for benchmark (#18771)

Signed-off-by: cascade812 <cascade812@outlook.com>
2025-10-20 14:53:52 +08:00 · 2025-05-27 17:18:09 -07:00
parent e56f44d9ec
commit 51e98e4ffd
1 changed files with 1 additions and 1 deletions
--- a/vllm/benchmarks/latency.py
+++ b/vllm/benchmarks/latency.py
@ -82,7 +82,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
    parser = EngineArgs.add_cli_args(parser)
    # V1 enables prefix caching by default which skews the latency
    # numbers. We need to disable prefix caching by default.
-    parser.set_defaults(enable_prefix_caching=True)
+    parser.set_defaults(enable_prefix_caching=False)


 def main(args: argparse.Namespace):