Fix qwen-omni processor text only mode (#40336)

* Fix qwen-omni processor text only mode * remove try except --------- Co-authored-by: yuekaiz <yuekaiz@mgmt1-login.cm.cluster>
2025-10-20 17:13:56 +08:00 · 2025-08-21 17:57:32 +08:00
parent c99ed492c7
commit 022af24fcc
1 changed files with 11 additions and 10 deletions
--- a/src/transformers/models/qwen2_5_omni/processing_qwen2_5_omni.py
+++ b/src/transformers/models/qwen2_5_omni/processing_qwen2_5_omni.py
@ -195,16 +195,17 @@ class Qwen2_5OmniProcessor(ProcessorMixin):
        if not isinstance(text, list):
            text = [text]

-        text = self.replace_multimodal_special_tokens(
-            text,
-            audio_lengths,
-            image_grid_thw,
-            video_grid_thw,
-            video_second_per_grid=video_second_per_grid,
-            use_audio_in_video=use_audio_in_video,
-            position_id_per_seconds=position_id_per_seconds,
-            seconds_per_chunk=seconds_per_chunk,
-        )
+        if images is not None or videos is not None or audio is not None:
+            text = self.replace_multimodal_special_tokens(
+                text,
+                audio_lengths,
+                image_grid_thw,
+                video_grid_thw,
+                video_second_per_grid=video_second_per_grid,
+                use_audio_in_video=use_audio_in_video,
+                position_id_per_seconds=position_id_per_seconds,
+                seconds_per_chunk=seconds_per_chunk,
+            )

        texts_inputs = self.tokenizer(text, **output_kwargs["text_kwargs"])