Updating example files in Llama4 (#530)

mohiso22 · web-flow · commit dee5a5addae1 · 2025-08-07T09:23:34.000+05:30
Signed-off-by: Mohit Soni &lt;quic_mohisoni@quicinc.com&gt;
diff --git a/QEfficient/transformers/models/llama4/modeling_llama4.py b/QEfficient/transformers/models/llama4/modeling_llama4.py
@@ -929,14 +929,6 @@ def get_specializations(
         )
         vision_size = num_features_per_tile * max_num_tiles
 
-        downsample_ratio = int(round(1.0 / (self.config.vision_config.pixel_shuffle_ratio**2)))
-        num_features_per_tile = int(
-            (img_size // self.config.vision_config.patch_size)
-            * (img_size // self.config.vision_config.patch_size)
-            // downsample_ratio
-        )
-        vision_size = num_features_per_tile * max_num_tiles
-
         vision = [
             {
                 "batch_size": batch_size,
diff --git a/QEfficient/transformers/models/modeling_auto.py b/QEfficient/transformers/models/modeling_auto.py
@@ -866,10 +866,6 @@ def kv_offload_generate(
         chunk_inputs = lang_inputs.copy()
         prefill_start = perf_counter()
 
-        # Prepare inputs for prefill
-        chunk_inputs = lang_inputs.copy()
-        prefill_start = perf_counter()
-
         # Run prefill
         chunk_inputs = lang_inputs.copy()
         for i in range(num_chunks):
diff --git a/examples/llama4_example.py b/examples/llama4_example.py
@@ -7,7 +7,7 @@
 
 import torch
 import transformers
-from transformers import AutoConfig, AutoModelForImageTextToText, AutoProcessor, TextStreamer
+from transformers import AutoConfig, AutoProcessor, TextStreamer
 
 from QEfficient import QEFFAutoModelForImageTextToText
 
@@ -17,14 +17,12 @@
 config.text_config.num_hidden_layers = 4
 config.vision_config.num_hidden_layers = 2
 
-model = AutoModelForImageTextToText.from_pretrained(model_id, attn_implementation="eager", config=config)
-model.eval()
-tokenizer = transformers.AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
+qeff_model = QEFFAutoModelForImageTextToText.from_pretrained(
+    model_id, attn_implementation="eager", kv_offload=True, config=config
+)
+tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
 processor = AutoProcessor.from_pretrained(model_id)
 
-### For running the model in single QPC approach use kv_offload=False. For Dual QPC approach use kv_offload=True ###
-qeff_model = QEFFAutoModelForImageTextToText(model, kv_offload=True)
-
 ### use skip_vision=Ture, if want to run only text, ow false ###
 skip_vision = True
 
diff --git a/examples/llama4_multi_image_example.py b/examples/llama4_multi_image_example.py
@@ -7,7 +7,7 @@
 
 import torch
 import transformers
-from transformers import AutoConfig, AutoModelForImageTextToText, AutoProcessor, TextStreamer
+from transformers import AutoConfig, AutoProcessor, TextStreamer
 
 from QEfficient import QEFFAutoModelForImageTextToText
 
@@ -17,14 +17,12 @@
 config.text_config.num_hidden_layers = 4
 config.vision_config.num_hidden_layers = 2
 
-model = AutoModelForImageTextToText.from_pretrained(model_id, attn_implementation="eager", config=config)
-model.eval()
-tokenizer = transformers.AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
+qeff_model = QEFFAutoModelForImageTextToText.from_pretrained(
+    model_id, attn_implementation="eager", kv_offload=True, config=config
+)
+tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
 processor = AutoProcessor.from_pretrained(model_id)
 
-### For running the model in single QPC approach use kv_offload=False. For Dual QPC approach use kv_offload=True ###
-qeff_model = QEFFAutoModelForImageTextToText(model, kv_offload=True)
-
 ### For multi-image, the value of max_num_tiles should be the sum of the num_tiles values across all the images ###
 qeff_model.compile(
     prefill_seq_len=128,

Original file line number	Diff line number	Diff line change
`@@ -929,14 +929,6 @@ def get_specializations(`
`929`	`929`	`)`
`930`	`930`	`vision_size = num_features_per_tile * max_num_tiles`
`931`	`931`
`932`		`- downsample_ratio = int(round(1.0 / (self.config.vision_config.pixel_shuffle_ratio**2)))`
`933`		`- num_features_per_tile = int(`
`934`		`- (img_size // self.config.vision_config.patch_size)`
`935`		`- * (img_size // self.config.vision_config.patch_size)`
`936`		`- // downsample_ratio`
`937`		`- )`
`938`		`- vision_size = num_features_per_tile * max_num_tiles`
`939`		`-`
`940`	`932`	`vision = [`
`941`	`933`	`{`
`942`	`934`	`"batch_size": batch_size,`