vllm-dev

Author	SHA1	Message	Date
Roger Wang	749be00a98	[Core][Multimodal] Allow passing `multi_modal_uuids` as multimodal identifiers. (#23394 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2025-08-30 18:01:22 -07:00
Ning Xie	5490d633ce	[UT] fix unify_kv_cache_configs when kv cache config needs sort (#23843 )	2025-08-30 11:22:14 +00:00
Jee Jee Li	628d00cd7b	[Bugfix] Fix test_lora_resolvers.py (#23984 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-08-30 11:16:11 +00:00
Roger Wang	ee52a32705	[CI] Move testing image from remote URL to S3 (#23980 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2025-08-29 21:41:25 -07:00
dubejf	5b31cb1781	[Bugfix] Fix --config arg expansion called from api_server.py (#23944 ) Signed-off-by: Jean-Francois Dube <dubejf+gh@gmail.com> Co-authored-by: Jean-Francois Dube <dubejf+gh@gmail.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-08-29 21:36:39 -07:00
Roger Wang	d660c98c1b	[CI] Fix unavailable image remote URL (#23966 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2025-08-29 15:40:04 -07:00
Yong Hoon Shin	8c3e199998	Revert gemma3n fast prefill changes (#23897 ) Signed-off-by: Yong Hoon Shin <yhshin@meta.com>	2025-08-29 12:16:57 -07:00
22quinn	4d7fe40fc0	[RL][BugFix] Fix missing tokenizer error for token-in-token-out (#23904 ) Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-08-30 01:09:55 +08:00
Nick Hill	d90d8eb674	[BugFix] Async scheduling and PP compatibility with DP (#23770 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-08-29 08:17:27 -07:00
EduardDurech	1cf3753b90	[MODEL] `Apertus` and `XIELU` (#23068 ) Signed-off-by: EduardDurech <39579228+EduardDurech@users.noreply.github.com> Co-authored-by: AllenHaoHuang <allenhuangdd@gmail.com>	2025-08-29 20:29:18 +08:00
Adit Chawdhary	4f7cde7272	Adds `json_count_leaves` utility function (#23899 ) Signed-off-by: aditchawdhary <aditxy@hotmail.com>	2025-08-29 05:28:13 -07:00
Huy Do	67c14906aa	Update PyTorch to 2.8.0 (#20358 ) Signed-off-by: Huy Do <huydhn@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-08-29 18:57:35 +08:00
Flora Feng	69f46359dd	[Multimodal] Consolidate mm inputs into MultiModalFeatureSpec (#23779 ) Signed-off-by: sfeng33 <4florafeng@gmail.com>	2025-08-29 18:36:57 +08:00
wang.yuqi	d9e00dbd1f	[Performance] V1 Classify Models E2E Performance Optimization (#23541 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-08-29 03:12:32 -07:00
Maximilien de Bayser	2554b27baa	[V0 Deprecation] Remove pooling model support in V0 (#23434 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: Max de Bayser <mbayser@br.ibm.com> Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-08-29 00:04:02 -07:00
Jee Jee Li	b4f9e9631c	[CI/Build] Clean up LoRA test (#23890 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-08-28 23:28:35 -07:00
Isotr0py	98ac0cb32d	[Bugfix] Use `ReplicatedLinear` for SequenceClassification head (#23836 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-29 04:41:20 +00:00
Russell Bryant	c8b3b299c9	[tests] Improve speed and reliability of test_transcription_api_correctness (#23854 ) Signed-off-by: Russell Bryant <rbryant@redhat.com>	2025-08-29 04:25:33 +00:00
Woosuk Kwon	b668055a11	[V0 Deprecation] Remove V0 Samplers test (#23862 )	2025-08-28 18:05:52 -07:00
Yong Hoon Shin	cb293f6a79	[V1] Enable prefill optimization for Gemma3n (#22628 ) Signed-off-by: Yong Hoon Shin <yhshin@meta.com>	2025-08-28 14:54:30 -07:00
elvischenv	16a45b3a28	[NVIDIA] Support SiluMul + NVFP4 quant fusion (#23671 ) Signed-off-by: jindih <jindih@nvidia.com> Signed-off-by: elvischenv <219235043+elvischenv@users.noreply.github.com> Co-authored-by: jindih <jindih@nvidia.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Luka Govedic <lgovedic@redhat.com>	2025-08-28 19:36:50 +00:00
wang.yuqi	11a7fafaa8	[New Model]: Support GteNewModelForSequenceClassification (#23524 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-08-28 15:36:42 +08:00
yzds	186aced5ff	[Kernel] cuda kernels for upcoming decode context parallel feature (#23791 ) Co-authored-by: hongchao <hongchao@msh.team>	2025-08-28 15:29:11 +08:00
Jiangyun Zhu	c07a73317d	[CI] enable idefics3 and fuyu-8b test in multimodal test (#23790 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-08-28 14:51:24 +08:00
Kyle Sayers	22feac8e95	[Transform] [Quantization] Add transforms to compressed tensors (#22486 )	2025-08-28 02:43:48 -04:00
Hanchenli	5da4f5d857	[Bugfix] Fix for V1 priority scheduling crashes at preemption (#23713 ) Signed-off-by: Hanchenli <lihanc2002@gmail.com>	2025-08-28 00:44:52 +00:00
Asaf Joseph Gardin	853c371fc3	[V1][Mamba] - Enable V1 by default for Mamba Models (#23650 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-08-27 20:53:30 +00:00
Nick Hill	3ce8285d6d	[LogitsProcs] Deduplicate built-in LP implementation logic (#23362 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-08-27 23:11:33 +08:00
Isotr0py	841490434a	[Model] Enable native HF format InternVL support (#23742 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-27 14:45:17 +00:00
Wentao Ye	3af47c3cc6	[Feature] Add Hopper DeepGEMM E8M0 for DeepSeekV3.1 scale_fmt (#23666 ) Signed-off-by: yewentao256 <zhyanwentao@126.com> Signed-off-by: youkaichao <youkaichao@gmail.com> Co-authored-by: youkaichao <youkaichao@gmail.com>	2025-08-27 14:09:08 +00:00
tc-mb	9d30de4469	[model] Support MiniCPM-V 4.5 (#23586 ) Signed-off-by: tc-mb <caitianchi@modelbest.cn> Signed-off-by: Xin Yang <xyangx@amazon.com> Signed-off-by: Abatom <abzhonghua@gmail.com> Signed-off-by: chzhang <chaojun.zhang@intel.com> Signed-off-by: Pate Motter <patemotter@google.com> Signed-off-by: Terrencezzj <terrence@cohere.ai> Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai> Signed-off-by: simon-mo <simon.mo@hey.com> Signed-off-by: mgoin <mgoin64@gmail.com> Signed-off-by: Siyuan Fu <siyuanf@nvidia.com> Signed-off-by: siyuanf <siyuanf@nvidia.com> Signed-off-by: Weiliang Liu <weiliangl@nvidia.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Signed-off-by: Zijing Liu <liuzijing2014@gmail.com> Signed-off-by: Zijing Liu <liuzijing2014@users.noreply.github.com> Signed-off-by: jiabin.00 <jiabin.00@bytedance.com> Signed-off-by: zjy0516 <riverclouds.zhu@qq.com> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Signed-off-by: tc-mb <157115220+tc-mb@users.noreply.github.com> Signed-off-by: Roger Wang <hey@rogerw.me> Signed-off-by: Roger Wang <hey@rogerw.io> Signed-off-by: Huy Do <huydhn@gmail.com> Signed-off-by: Matúš Námešný <matus.namesny@ameria.com> Signed-off-by: Guillaume Calmettes <gcalmettes@scaleway.com> Signed-off-by: Chen Zhang <zhangch99@outlook.com> Signed-off-by: oye93 <en.ouyang93@outlook.com> Signed-off-by: Julien Lin <jullin@nvidia.com> Signed-off-by: Didier Durand <durand.didier@gmail.com> Signed-off-by: Tianyu Li <tianyu.li@arm.com> Signed-off-by: Hongxia Yang <hongxia.yang@amd.com> Signed-off-by: Yuekai Zhang <zhangyuekai@foxmail.com> Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com> Signed-off-by: jiang1.li <jiang1.li@intel.com> Signed-off-by: Zerohertz <ohg3417@gmail.com> Signed-off-by: Hyogeun Oh (오효근) <ohg3417@gmail.com> Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Signed-off-by: Russell Bryant <rbryant@redhat.com> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: Huzaifa Sidhpurwala <huzaifas@redhat.com> Signed-off-by: Federico <65908512+coval3nte@users.noreply.github.com> Signed-off-by: Zixuan Zhang <zixuanzhang@bytedance.com> Signed-off-by: wuhang <wuhang6@huawei.com> Signed-off-by: czhu-cohere <conway.zhu@cohere.com> Signed-off-by: Wei Wei <wwei6@meta.com> Signed-off-by: Yiheng Xu <charlesyihengxu@gmail.com> Signed-off-by: Chenheli Hua <huachenheli@outlook.com> Signed-off-by: wangyafeng <wangyafeng@baidu.com> Co-authored-by: Xin Yang <105740670+xyang16@users.noreply.github.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com> Co-authored-by: Zhonghua Deng <abzhonghua@gmail.com> Co-authored-by: Chaojun Zhang <chaojun.zhang@intel.com> Co-authored-by: Pate Motter <p@temotter.com> Co-authored-by: Terrence Zhao <32208165+Terrencezzj@users.noreply.github.com> Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Co-authored-by: Simon Mo <simon.mo@hey.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: weiliang <weiliangl@nvidia.com> Co-authored-by: Siyuan Fu <siyuanf@nvidia.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk> Co-authored-by: Copilot <198982749+Copilot@users.noreply.github.com> Co-authored-by: ProExpertProg <11367180+ProExpertProg@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: Zijing Liu <liuzijing2014@users.noreply.github.com> Co-authored-by: Bin Jia <45593998+FoolPlayer@users.noreply.github.com> Co-authored-by: Jiangyun Zhu <riverclouds.zhu@qq.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Raghavan <oneraghavan@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.io> Co-authored-by: Roger Wang <hey@rogerw.me> Co-authored-by: knlnguyen1802 <knlnguyen1802@gmail.com> Co-authored-by: Huy Do <huydhn@gmail.com> Co-authored-by: Matúš Námešný <matus@namesny.com> Co-authored-by: Guillaume Calmettes <gcalmettes@scaleway.com> Co-authored-by: Chen Zhang <zhangch99@outlook.com> Co-authored-by: En Ouyang <en.ouyang93@outlook.com> Co-authored-by: Li, Jiang <jiang1.li@intel.com> Co-authored-by: nvjullin <jullin@nvidia.com> Co-authored-by: Didier Durand <2927957+didier-durand@users.noreply.github.com> Co-authored-by: TianyuLi0 <116711075+TianyuLi0@users.noreply.github.com> Co-authored-by: Hongxia Yang <62075498+hongxiayang@users.noreply.github.com> Co-authored-by: Yuekai Zhang <zhangyuekai@foxmail.com> Co-authored-by: vllmellm <vllm.ellm@embeddedllm.com> Co-authored-by: Hyogeun Oh (오효근) <ohg3417@gmail.com> Co-authored-by: Thomas Parnell <tpa@zurich.ibm.com> Co-authored-by: Russell Bryant <rbryant@redhat.com> Co-authored-by: Lukas Geiger <lukas.geiger94@gmail.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Huzaifa Sidhpurwala <huzaifas@redhat.com> Co-authored-by: Federico <65908512+coval3nte@users.noreply.github.com> Co-authored-by: zixuanzhang226 <zixuanzhang@bytedance.com> Co-authored-by: wuhang <wuhang6@huawei.com> Co-authored-by: yzds <41983536+youzhedian@users.noreply.github.com> Co-authored-by: hongchao <hongchao@msh.team> Co-authored-by: czhu-cohere <conway.zhu@cohere.com> Co-authored-by: Wei <weiweinpu@gmail.com> Co-authored-by: Yiheng Xu <charlesyihengxu@gmail.com> Co-authored-by: Aaron Pham <contact@aarnphm.xyz> Co-authored-by: Chenheli Hua <huachenheli@outlook.com> Co-authored-by: CSWYF3634076 <58356743+CSWYF3634076@users.noreply.github.com>	2025-08-27 05:38:00 -07:00
Jee Jee Li	e03940762b	[CI/Build] Reduce LoRA layer test cases (#23721 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-08-27 10:59:35 +00:00
Cyrus Leung	91e382c935	[CI/Build] Remove redundant register in model init tests (#23715 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-27 08:11:15 +00:00
Cyrus Leung	69244e67e6	[Core] Use key-only cache for `BaseMultiModalProcessor` (#23018 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-27 14:19:13 +08:00
rongfu.leng	8dbf6ed7be	[Bugfix] fix when config.yaml config value is list parse error (#23528 ) Signed-off-by: rongfu.leng <rongfu.leng@daocloud.io>	2025-08-27 05:54:39 +00:00
Jee Jee Li	9de25c294b	[CI/Build] Remove redundant LoRA model tests (#23706 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-08-27 05:51:50 +00:00
Chen Zhang	142ac08030	[Frontend] Optimize beam search performance by limiting concurrency (#23599 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-08-27 04:59:14 +00:00
CSWYF3634076	644d57d531	[Model] Add Ernie4.5 VL Model Support (#22514 ) Signed-off-by: wangyafeng <wangyafeng@baidu.com>	2025-08-26 21:02:55 -07:00
Yiheng Xu	786835807b	[Bugfix]: Qwen3 Coder Tool Parser (#23099 ) Signed-off-by: Yiheng Xu <charlesyihengxu@gmail.com> Co-authored-by: Aaron Pham <contact@aarnphm.xyz>	2025-08-26 19:58:32 -07:00
Chen Zhang	eb1995167e	[gpt-oss] Enable unit test for response API harmony integration (#23533 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-08-26 18:23:26 -07:00
czhu-cohere	2c2b140ae8	[quantization] use channel scales for w4a8 + misc fixes (#23570 ) Signed-off-by: czhu-cohere <conway.zhu@cohere.com>	2025-08-26 18:23:23 -07:00
Isotr0py	9816b81f5f	[Model] Enable video support for InternVL3.5 models (#23658 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-26 19:46:52 +00:00
Jiangyun Zhu	c37c0af990	[Misc] Fix comments in `tests/kernels/quantization` (#23675 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-08-26 19:31:20 +00:00
Cyrus Leung	9715f7bb0f	[Bugfix] Fix incorrect original shape in hashing (#23672 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: Lukas Geiger <lukas.geiger94@gmail.com>	2025-08-26 19:01:25 +00:00
nvjullin	f66673a39d	[Kernel] Added flashinfer fp8 per-tensor gemms (#22895 ) Signed-off-by: Julien Lin <jullin@nvidia.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-08-26 06:54:04 -07:00
Chen Zhang	2b4fc9bd9b	Support FlashAttention Backend for Hybrid SSM Models (#23299 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-08-26 12:41:52 +00:00
Guillaume Calmettes	ebd5a77bb5	feat: add usage to TranscriptionResponse (text and json response_format) (#23576 ) Signed-off-by: Guillaume Calmettes <gcalmettes@scaleway.com>	2025-08-26 05:26:26 -07:00
Roger Wang	b5d34af328	[Bugfix] Fix scheduling when repeated images in one request (#23544 ) Signed-off-by: Roger Wang <hey@rogerw.me> Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: Roger Wang <hey@rogerw.me> Co-authored-by: knlnguyen1802 <knlnguyen1802@gmail.com>	2025-08-26 09:46:28 +00:00
Bin Jia	959783fb99	[fix] fix seed-oss-parser (#23560 ) Signed-off-by: jiabin.00 <jiabin.00@bytedance.com>	2025-08-25 23:16:36 -07:00
Cyrus Leung	ce0e9dbd43	[CI/Build] Fix typo in #23561 (#23616 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-25 23:13:03 -07:00

1 2 3 4 5 ...

2760 Commits