reset_quantization_status

kylesayrs · kylesayrs · commit 5b3e5ebdd5ae · 2025-04-21T16:23:10.000-04:00
Signed-off-by: Kyle Sayers &lt;kylesayrs@gmail.com&gt;
diff --git a/src/llmcompressor/modifiers/quantization/calibration.py b/src/llmcompressor/modifiers/quantization/calibration.py
@@ -26,6 +26,7 @@
     "initialize_quantized_kv_cache",
     "freeze_module_quantization",
     "apply_calibration_status",
+    "reset_quantization_status",
 ]
 
 
@@ -246,3 +247,9 @@ def freeze_module_quantization(module: Module):
         delattr(module, "kv_cache")
 
     module.quantization_status = QuantizationStatus.FROZEN
+
+
+def reset_quantization_status(model: Module):
+    for module in model.modules():
+        if hasattr(module, "quantization_status"):
+            delattr(module, "quantization_status")
diff --git a/src/llmcompressor/modifiers/quantization/quantization/mixin.py b/src/llmcompressor/modifiers/quantization/quantization/mixin.py
@@ -20,6 +20,7 @@
     calibrate_output_hook,
     initialize_observer,
     initialize_quantized_kv_cache,
+    reset_quantization_status,
 )
 from llmcompressor.modifiers.utils.hooks import HooksMixin
 
@@ -106,8 +107,11 @@ def attach_scheme_and_observers(self, model: torch.nn.Module):
         Apply this modifier as a quantization config to the model. Attach observers
         according to the schemes attached to each module
         """
+        reset_quantization_status(model)  # reset any previously applied qconfigs
+
         config = self.resolve_quantization_config()
         apply_quantization_config(model, config)
+
         model.apply(self._initialize_observers)
 
     def register_calibration_hooks(self, model: torch.nn.Module):