update

a-r-r-o-w · a-r-r-o-w · commit acd86ed69936 · 2025-06-16T22:59:40.000+02:00
diff --git a/tests/quantization/bnb/test_4bit.py b/tests/quantization/bnb/test_4bit.py
@@ -45,6 +45,7 @@
     require_peft_backend,
     require_torch,
     require_torch_accelerator,
+    require_torch_version_greater,
     require_transformers_version_greater,
     slow,
     torch_device,
@@ -860,7 +861,7 @@ def test_fp4_double_safe(self):
         self.test_serialization(quant_type="fp4", double_quant=True, safe_serialization=True)
 
 
-# @require_torch_version_greater("2.7.1")
+@require_torch_version_greater("2.7.1")
 class Bnb4BitCompileTests(QuantCompileTests):
     quantization_config = PipelineQuantizationConfig(
         quant_backend="bitsandbytes_8bit",
diff --git a/tests/quantization/test_torch_compile_utils.py b/tests/quantization/test_torch_compile_utils.py
@@ -74,7 +74,6 @@ def _test_torch_compile_with_group_offload_leaf(
             "onload_device": torch.device("cuda"),
             "offload_device": torch.device("cpu"),
             "offload_type": "leaf_level",
-            "num_blocks_per_group": 1,
             "use_stream": use_stream,
         }
         pipe.transformer.enable_group_offload(**group_offload_kwargs)
diff --git a/tests/quantization/torchao/test_torchao.py b/tests/quantization/torchao/test_torchao.py
@@ -670,7 +670,7 @@ def test_torch_compile_with_group_offload_leaf(self):
         # weight.tensor_impl.{data,scale,zero_point}.device will be cpu
 
         # For use_stream=True:
-        # # NotImplementedError: AffineQuantizedTensor dispatch: attempting to run unimplemented operator/function: func=<OpOverload(op='aten.is_pinned', overload='default')>, types=(<class 'torchao.dtypes.affine_quantized_tensor.AffineQuantizedTensor'>,), arg_types=(<class 'torchao.dtypes.affine_quantized_tensor.AffineQuantizedTensor'>,), kwarg_types={}
+        # NotImplementedError: AffineQuantizedTensor dispatch: attempting to run unimplemented operator/function: func=<OpOverload(op='aten.is_pinned', overload='default')>, types=(<class 'torchao.dtypes.affine_quantized_tensor.AffineQuantizedTensor'>,), arg_types=(<class 'torchao.dtypes.affine_quantized_tensor.AffineQuantizedTensor'>,), kwarg_types={}
         super()._test_torch_compile_with_group_offload_leaf(quantization_config=self.quantization_config)
 
 

Original file line number	Diff line number	Diff line change
`@@ -74,7 +74,6 @@ def _test_torch_compile_with_group_offload_leaf(`
`74`	`74`	`"onload_device": torch.device("cuda"),`
`75`	`75`	`"offload_device": torch.device("cpu"),`
`76`	`76`	`"offload_type": "leaf_level",`
`77`		`- "num_blocks_per_group": 1,`
`78`	`77`	`"use_stream": use_stream,`
`79`	`78`	`}`
`80`	`79`	`pipe.transformer.enable_group_offload(**group_offload_kwargs)`