vllm-project · kzawora-intel · Oct 27, 2025 · Oct 23, 2025 · Oct 27, 2025
@@ -168,7 +168,6 @@ def create_weights(
 
         group_size = self.quant_config.group_size if self.quant_config.group_size != -1 else input_size
         scale_and_zero_size = input_size // group_size
-        scale_and_zero_input_dim = None
 
         qweight = PackedvLLMParameter(data=torch.empty(
             input_size_per_partition // self.quant_config.pack_factor,
@@ -205,20 +204,12 @@ def create_weights(
             ),
             "weight_loader": weight_loader
         }
-        if scale_and_zero_input_dim is None:
-            scales = ChannelQuantScaleParameter(output_dim=1, **weight_scale_args)
-            qzeros = PackedColumnParameter(output_dim=1,
-                                           packed_dim=1,
-                                           packed_factor=self.quant_config.pack_factor,
-                                           **qzeros_args)
 
-        else:
-            scales = GroupQuantScaleParameter(output_dim=1, input_dim=0, **weight_scale_args)
-            qzeros = PackedvLLMParameter(input_dim=0,
-                                         output_dim=1,
-                                         packed_dim=1,
-                                         packed_factor=self.quant_config.pack_factor,
-                                         **qzeros_args)
+        scales = ChannelQuantScaleParameter(output_dim=1, **weight_scale_args)
+        qzeros = PackedColumnParameter(output_dim=1,
+                                       packed_dim=1,
+                                       packed_factor=self.quant_config.pack_factor,
+                                       **qzeros_args)
 
         qzeros.pack_factor = self.quant_config.pack_factor
 

@@ -4310,20 +4310,16 @@ def copy_kv_blocks(
 
     i = 0
     global hpu_buffer
-    use_hpu_buffer = False
     for layer_name in src_kv_caches:
         key_cache = src_kv_caches[layer_name][0]
         value_cache = src_kv_caches[layer_name][1]
 
-        if direction == "d2h" and use_hpu_buffer:
-            hpu_buffer[i][0] = key_cache.index_select(0, src_slot_mapping)
-            hpu_buffer[i][1] = value_cache.index_select(0, src_slot_mapping)
-        else:
-            #import remote_pdb;remote_pdb.set_trace()
-            dst_kv_caches[layer_name][0].index_put_((dst_slot_mapping, ),
-                                                    key_cache.index_select(0, src_slot_mapping).to(target_device))
-            dst_kv_caches[layer_name][1].index_put_((dst_slot_mapping, ),
-                                                    value_cache.index_select(0, src_slot_mapping).to(target_device))
+        dst_kv_caches[layer_name][0].index_put_((dst_slot_mapping, ),
+                                                key_cache.index_select(0, src_slot_mapping).to(target_device))
+        dst_kv_caches[layer_name][1].index_put_((dst_slot_mapping, ),
+                                                value_cache.index_select(0, src_slot_mapping).to(target_device))
+        if direction == "d2h":
+            dst_kv_caches[layer_name] = dst_kv_caches[layer_name].unflatten(1, (-1, block_size))
 
         i = i + 1