[BugFix] Fix cascade attention - RuntimeError: scheduler_metadata must have shape (metadata_size) (#17283)

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>
2025-10-20 14:53:52 +08:00 · 2025-04-28 16:55:50 -04:00
parent 2c89cd96a8
commit cc5befbced
1 changed files with 1 additions and 1 deletions
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@ -372,7 +372,7 @@ class FlashAttentionMetadataBuilder:
            suffix_kv_lens = torch.from_numpy(suffix_kv_lens).to(
                self.runner.device)
            prefix_scheduler_metadata = schedule(
-                batch_size=num_reqs,
+                batch_size=1,
                cu_query_lens=cu_prefix_query_lens,
                max_query_len=num_actual_tokens,
                seqlens=prefix_kv_lens,