vllm-project · dsikka · Aug 29, 2025 · Aug 29, 2025 · Aug 29, 2025 · Aug 29, 2025
diff --git a/src/llmcompressor/transformers/compression/quantization_format.py b/src/llmcompressor/transformers/compression/quantization_format.py
diff --git a/src/llmcompressor/transformers/sparsification/compressed_tensors_utils.py b/src/llmcompressor/transformers/sparsification/compressed_tensors_utils.py
@@ -12,14 +12,15 @@
     has_offloaded_params,
     register_offload_parameter,
 )
+from compressed_tensors.config import (
+    CompressionFormat,
+    infer_and_set_per_module_quantization_format,
+)
 from loguru import logger
 from transformers import PreTrainedModel
 
 from llmcompressor.core import active_session
 from llmcompressor.pytorch.model_load.helpers import copy_python_files_from_model_cache
-from llmcompressor.transformers.compression.quantization_format import (
-    infer_and_set_per_module_quantization_format,
-)
 from llmcompressor.transformers.compression.sparsity_metadata_config import (
     SparsityConfigMetadata,
 )
@@ -227,21 +228,21 @@ def get_model_compressor(
                 SparsityConfigMetadata.infer_sparsity_structure(model)
             )
 
-    quantization_format: Optional[List[str]] = (
-        infer_and_set_per_module_quantization_format(
-            model=model,
-            quantization_format=quantization_format,
-            save_compressed=save_compressed,
-            sparsity_structure=None
-            if sparsity_config is None
-            else sparsity_config.sparsity_structure,
+    if not save_compressed:
+        quantization_format = CompressionFormat.dense.value
+
+    if quantization_format is None and save_compressed:
+        quantization_format: Optional[List[str]] = (
+            infer_and_set_per_module_quantization_format(
+                model=model,
+                sparsity_structure=None
+                if sparsity_config is None
+                else sparsity_config.sparsity_structure,
+            )
         )
-    )
 
     return ModelCompressor.from_pretrained_model(
-        model,
-        sparsity_config=sparsity_config,
-        quantization_format=quantization_format,
+        model, sparsity_config=sparsity_config, quantization_format=quantization_format
     )
 
 

diff --git a/tests/llmcompressor/transformers/compression/test_infer_quant_format.py b/tests/llmcompressor/transformers/compression/test_infer_quant_format.py