Fix FP-Quant quantization fallback CPU dispatch. (#41619)

* fp_quant fix * Update quantizer_fp_quant.py
2025-10-20 09:03:53 +08:00 · 2025-10-16 14:41:01 +03:00
parent af2a66ced9
commit 67fae90519
2 changed files with 6 additions and 2 deletions
--- a/src/transformers/quantizers/quantizer_fp_quant.py
+++ b/src/transformers/quantizers/quantizer_fp_quant.py
@ -97,6 +97,10 @@ class FPQuantHfQuantizer(HfQuantizer):
    ):
        module, _ = get_module_from_name(model, param_name)

+        if target_device == "cpu" and param_name.endswith("weight"):
+            # Works agains hard-coded missing key dispatch to CPU
+            return
+
        # The module holds either:
        #  * `weight` when `store_master_weights=True`
        #  * `qweight` and `scales` when `store_master_weights=False` and `pseudoquantization=False`
--- a/tests/quantization/fp_quant_integration/test_fp_quant.py
+++ b/tests/quantization/fp_quant_integration/test_fp_quant.py
@ -160,14 +160,14 @@ class FPQuantNVFP4PseudoquantTest(FPQuantBaseTest):
 class FPQuantMXFP4Test(FPQuantBaseTest):
    @classmethod
    def getQuantizationConfig(cls):
-        return FPQuantConfig(forward_dtype="nvfp4", pseudoquantization=False)
+        return FPQuantConfig(forward_dtype="mxfp4", pseudoquantization=False)


@require_qutlass
 class FPQuantMXFP4GS128Test(FPQuantBaseTest):
    @classmethod
    def getQuantizationConfig(cls):
-        return FPQuantConfig(forward_dtype="nvfp4", pseudoquantization=False, hadamard_group_size=128)
+        return FPQuantConfig(forward_dtype="mxfp4", pseudoquantization=False, hadamard_group_size=128)


@require_qutlass