Fix missing fast tokenizer/image_processor in whisper/qwen2.5-omni processor (huggingface#39244)

Isotr0py · rjgleaton · commit 4a0bcc840df1 · 2025-07-17T16:11:00.000Z
* fix missing fast tokenizer in whisper processor

Signed-off-by: Isotr0py &lt;2037008807@qq.com&gt;

* fix processor test

Signed-off-by: Isotr0py &lt;2037008807@qq.com&gt;

* fix qwen2.5 omni processor

Signed-off-by: Isotr0py &lt;2037008807@qq.com&gt;

---------

Signed-off-by: Isotr0py &lt;2037008807@qq.com&gt;
diff --git a/src/transformers/models/qwen2_5_omni/processing_qwen2_5_omni.py b/src/transformers/models/qwen2_5_omni/processing_qwen2_5_omni.py
@@ -93,8 +93,8 @@ class Qwen2_5OmniProcessor(ProcessorMixin):
     """
 
     attributes = ["image_processor", "video_processor", "feature_extractor", "tokenizer"]
-    image_processor_class = "Qwen2VLImageProcessor"
-    video_processor_class = "Qwen2VLVideoProcessor"
+    image_processor_class = "AutoImageProcessor"
+    video_processor_class = "AutoVideoProcessor"
     feature_extractor_class = "WhisperFeatureExtractor"
     tokenizer_class = ("Qwen2Tokenizer", "Qwen2TokenizerFast")
 
diff --git a/src/transformers/models/whisper/processing_whisper.py b/src/transformers/models/whisper/processing_whisper.py
@@ -35,7 +35,7 @@ class WhisperProcessor(ProcessorMixin):
     """
 
     feature_extractor_class = "WhisperFeatureExtractor"
-    tokenizer_class = "WhisperTokenizer"
+    tokenizer_class = ("WhisperTokenizer", "WhisperTokenizerFast")
 
     def __init__(self, feature_extractor, tokenizer):
         super().__init__(feature_extractor, tokenizer)
diff --git a/tests/models/whisper/test_processor_whisper.py b/tests/models/whisper/test_processor_whisper.py
@@ -19,7 +19,7 @@
 import numpy as np
 import pytest
 
-from transformers import WhisperTokenizer, is_speech_available
+from transformers import WhisperTokenizer, WhisperTokenizerFast, is_speech_available
 from transformers.testing_utils import require_sentencepiece, require_torch, require_torchaudio
 
 from .test_feature_extraction_whisper import floats_list
@@ -60,7 +60,7 @@ def test_save_load_pretrained_default(self):
         processor = WhisperProcessor.from_pretrained(self.tmpdirname)
 
         self.assertEqual(processor.tokenizer.get_vocab(), tokenizer.get_vocab())
-        self.assertIsInstance(processor.tokenizer, WhisperTokenizer)
+        self.assertIsInstance(processor.tokenizer, WhisperTokenizerFast)
 
         self.assertEqual(processor.feature_extractor.to_json_string(), feature_extractor.to_json_string())
         self.assertIsInstance(processor.feature_extractor, WhisperFeatureExtractor)
@@ -77,7 +77,7 @@ def test_save_load_pretrained_additional_features(self):
         )
 
         self.assertEqual(processor.tokenizer.get_vocab(), tokenizer_add_kwargs.get_vocab())
-        self.assertIsInstance(processor.tokenizer, WhisperTokenizer)
+        self.assertIsInstance(processor.tokenizer, WhisperTokenizerFast)
 
         self.assertEqual(processor.feature_extractor.to_json_string(), feature_extractor_add_kwargs.to_json_string())
         self.assertIsInstance(processor.feature_extractor, WhisperFeatureExtractor)