vllm-dev

Author	SHA1	Message	Date
Cyrus Leung	6fd45e7b8a	[CI/Build] Use vLLM client's user agent to fetch images (#23561 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-25 19:34:12 -07:00
Michael Goin	906e461ed6	[CI Fix] Pin deepep and pplx tags in tools/ep_kernels/, gate multigpu tests (#23568 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-08-25 18:29:00 -07:00
Xin Yang	8a3cd90af5	[Kernel] Add fused grouped_topk kernel for MoE (#23274 ) Signed-off-by: Xin Yang <xyangx@amazon.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-08-25 11:47:52 -07:00
22quinn	2a167b2eeb	[test][RL] Add sleep level 2 test and fix reload with sleep mode (#23521 ) Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>	2025-08-26 00:25:52 +08:00
Driss Guessous	e0329ed4b4	Updates to Flex + VLLm integration (#21416 ) Signed-off-by: drisspg <drisspguessous@gmail.com>	2025-08-25 09:32:42 -04:00
Cyrus Leung	6879cd80ae	[Refactor] Pass `tokenizer` explicitly instead of binding to prompt update (#23542 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-25 06:31:57 -07:00
Ayush Satyam	5c4b6e66fe	[Attention] Unify mamba and attention backend selection (#23171 ) Signed-off-by: Ayush Satyam <ayushsatyam146@gmail.com>	2025-08-25 09:09:36 +00:00
Breno Baldas Skuk	0cb7b065c3	Feature/benchmark/random mm data/images (#23119 ) Signed-off-by: breno.skuk <breno.skuk@hcompany.ai>	2025-08-25 01:28:35 -07:00
Chenguang Zheng	d765cf01fe	[Core][Multimodal] Track encode cache entries by mm_hash and enable embedding sharing between requests (#22711 ) Signed-off-by: knlnguyen1802 <knlnguyen1802@gmail.com> Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: knlnguyen1802 <knlnguyen1802@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-08-25 00:41:17 -07:00
Cyrus Leung	712d0f88d8	[Refactor] Dynamic `target` and `content` for prompt updates (#23411 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-24 23:39:58 -07:00
LIYIFAN_liyifan	c9abb10489	[Bugfix] Fix Dense module loading for sentence-transformers embedding models (simplified V2) (#23408 ) Signed-off-by: FFFfff1FFFfff <yifanli0919@gmail.com>	2025-08-25 05:39:24 +00:00
Noam Gat	39971db3aa	Frontend: Adding LM Format Enforcer support to V1 engine (#22564 ) Signed-off-by: Noam Gat <noamgat@gmail.com> Co-authored-by: Russell Bryant <rbryant@redhat.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-08-24 19:31:22 -07:00
汪志鹏	416f05929a	[New Model]Donut model (#23229 ) Signed-off-by: 汪志鹏 <wangzhipeng628@gmail.com>	2025-08-24 12:52:24 +00:00
TeeKen Lau	5e021b4981	(Misc): add missing test for zero truncation size. (#23457 ) Signed-off-by: teekenl <teekenlau@gmail.com>	2025-08-24 18:12:47 +08:00
czhu-cohere	e76e233540	[kernel] Support W4A8 on Hopper (#23198 ) Signed-off-by: czhu-cohere <conway.zhu@cohere.com>	2025-08-24 06:18:04 +00:00
Aziz	d9a55204ba	fix(tests): Correct unreachable assertion in truncation test (#23425 ) Signed-off-by: AzizCode92 <azizbenothman76@gmail.com>	2025-08-23 05:23:54 +00:00
elvischenv	24d0c9e6ed	[NVIDIA][torch.compile] Support Flashinfer TRTLLM FP8-q/kv NVFP4-out Attention Kernel (#22703 ) Signed-off-by: elvischenv <219235043+elvischenv@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2025-08-22 22:09:05 +00:00
Ilya Markov	0313cf854d	[PERF] PyTorch Symmetric Memory All-Reduce (#20759 ) Signed-off-by: ilmarkov <imarkov@redhat.com> Signed-off-by: ilmarkov <markovilya197@gmail.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: ilmarkov <imarkov@redhat.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-08-22 15:39:08 -06:00
Isotr0py	32d2b4064f	[Model] Add Ovis2.5 PP support (#23405 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-22 17:46:34 +00:00
Yong Hoon Shin	b6d7d34fc6	Add unit tests for batched guided and non-guided requests (#23389 ) Signed-off-by: Yong Hoon Shin <yhshin@meta.com>	2025-08-22 10:31:24 -07:00
Aziz	341923b982	fix(tests): Ensure reliable CUDA cache clearing in MoE test (#23416 ) Signed-off-by: AzizCode92 <azizbenothman76@gmail.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-08-22 17:20:59 +00:00
Jee Jee Li	285178b3b8	[V0 Deprecation] Remove V0 LoRA test (#23418 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-08-22 09:56:51 +00:00
Flora Feng	53415653ff	[P/D][Nixl] Make kv cache register compatible with hybrid memory allocator (#23079 ) Signed-off-by: sfeng33 <4florafeng@gmail.com>	2025-08-21 22:30:48 -07:00
Chen Zhang	17373dcd93	[Attention] Refactor AttentionMetadata Preparation for Encoder-only Models (#23154 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-08-22 05:05:59 +00:00
Bin Jia	5964069367	[New Model] Add Seed-Oss model (#23241 ) Signed-off-by: jiabin.00 <jiabin.00@bytedance.com> Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-08-22 04:58:10 +00:00
Arjun Reddy	111692bb8c	[CI] Add end-to-end V1 min_tokens test coverage (#22495 ) Signed-off-by: Arjun Reddy <189282188+arjunbreddy22@users.noreply.github.com> Co-authored-by: Arjun Reddy <189282188+arjunbreddy22@users.noreply.github.com>	2025-08-21 22:04:07 -06:00
Isotr0py	3ac849665d	[CI/Build] Skip Idefics3 and SmolVLM generation test again (#23356 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-22 03:39:46 +00:00
Cyrus Leung	8896eb72eb	[Deprecation] Remove `prompt_token_ids` arg fallback in `LLM.generate` and `LLM.embed` (#18800 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-22 10:56:57 +08:00
Matthew Bonanni	19fe1a0510	[Kernel] Add FP8 support with FlashMLA backend (#22668 ) Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com>	2025-08-22 02:26:32 +00:00
22quinn	480bdf5a7b	[Core] Support custom executor qualname (#23314 ) Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>	2025-08-22 09:40:54 +08:00
Kebe	5368f76855	[Feature][Responses API] Support logprobs(non-stream) (#23319 ) Signed-off-by: Kebe <mail@kebe7jun.com>	2025-08-21 23:09:16 +00:00
Michael Goin	3bbe11cc13	[Perf] Small optimizations for silu_mul_fp8_quant_deep_gemm (#23265 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-08-21 17:56:15 -04:00
Pavani Majety	1d353b6352	[Core] Always use tensor cores for Flashinfer Decode Wrapper (#23214 ) Signed-off-by: Pavani Majety <pmajety@nvidia.com>	2025-08-21 16:02:11 -04:00
Lain	f8ce022948	add tg-mxfp4-moe-test (#22540 ) Signed-off-by: siyuanf <siyuanf@nvidia.com> Signed-off-by: Siyuan Fu <siyuanf@nvidia.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-08-21 17:05:47 +00:00
Paul Pak	2e2000f352	[Model] Add LFM2 architecture (#22845 ) Signed-off-by: Paul Pak <paulpak58@gmail.com>	2025-08-21 09:35:07 +02:00
22quinn	f571ff8eb6	[Sampler] Support returning final logprobs (#22387 ) Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com> Co-authored-by: Nick Hill <nhill@redhat.com> Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-08-20 21:28:32 -07:00
杨奇(yann qi)	655a09f653	[Model][VLM] Support R-4B Model (#23246 ) Signed-off-by: yannqi <yannqi@qq.com> Signed-off-by: 杨奇(yann qi) <51905299+yannqi@users.noreply.github.com> Signed-off-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: yannqiyang <yannqiyang@tencent.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-08-21 04:08:52 +00:00
Asaf Joseph Gardin	3663870c72	[V1][Mamba1] - Full CUDA and Piecewise CUDA Graphs Support (#23035 ) Signed-off-by: asafg <asafg@ai21.com> Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com> Co-authored-by: asafg <asafg@ai21.com>	2025-08-20 20:08:51 -07:00
Cyrus Leung	2461d9e562	[CI/Build] Split out mm processor tests (#23260 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-20 20:05:20 -07:00
Li, Jiang	7be5d113d8	[CPU] Refactor CPU W8A8 scaled_mm (#23071 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-08-21 09:34:24 +08:00
Matthew Bonanni	10cc12ba66	Feature/mla tests (#23195 ) Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-08-20 21:46:47 +00:00
bigmoyan	582bbe6bd7	[Fix] correct tool_id for kimi-k2 when use tool_choice=required (#21259 ) Co-authored-by: wangzhengtao <wangzhengtao@msh.team>	2025-08-20 12:59:54 -07:00
Michael Goin	0cdbf5e61c	[Kernel/Quant] Remove the original marlin format and qqq (#23204 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-08-20 15:13:36 -04:00
Yong Hoon Shin	dfd2382039	[torch.compile] Support conditional torch.compile per module (#22269 ) Signed-off-by: Yong Hoon Shin <yhshin@meta.com>	2025-08-20 16:52:59 +00:00
Woosuk Kwon	d6d13bd49e	[Misc] Add max_seq_len to CommonAttentionMetadata (#23216 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-08-20 09:05:29 -07:00
shixianc	b17109beea	[Kernel] CUTLASS MoE FP8: Integrate cuda moe permute/unpermute (#23045 ) Signed-off-by: Shixian Cui <shixian@amazon.com>	2025-08-20 10:35:26 -04:00
Cyrus Leung	4449235843	[Bugfix] Ensure correctness of HCXVision processing (#23254 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-20 14:19:30 +00:00
rongfu.leng	38217877aa	[Fix] fix offline env use local mode path (#22526 ) Signed-off-by: rongfu.leng <rongfu.leng@daocloud.io>	2025-08-20 13:34:49 +00:00
xyxinyang	7cd17e22d7	[Model][V1] Support Ernie MTP (#22169 ) Signed-off-by: zhouchong <zhouchong03@baidu.com> Co-authored-by: zhouchong <zhouchong03@baidu.com>	2025-08-20 20:41:55 +08:00
Cyrus Leung	68fcd3fa73	[Bugfix] Ensure correctness of Cohere2Vision processing (#23245 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-20 11:09:18 +00:00

1 2 3 4 5 ...

2760 Commits