[Bugfix] Enable loading FP8 checkpoints for gpt_bigcode models (#5460)

Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
2025-10-20 14:53:52 +08:00 · 2024-06-14 22:28:11 +02:00
parent 6e2527a7cb
commit e2afb03c92
1 changed files with 7 additions and 1 deletions
--- a/vllm/model_executor/models/gpt_bigcode.py
+++ b/vllm/model_executor/models/gpt_bigcode.py
@ -299,4 +299,10 @@ class GPTBigCodeForCausalLM(nn.Module):
            param = params_dict[name]
            weight_loader = getattr(param, "weight_loader",
                                    default_weight_loader)
-            weight_loader(param, loaded_weight)
+            # TODO (@robertgshaw2-neuralmagic): move to fp8 linear method
+            if "c_attn.input_scale" in name or "c_attn.weight_scale" in name:
+                weight_loader(param, loaded_weight, 'q')
+                weight_loader(param, loaded_weight, 'k')
+                weight_loader(param, loaded_weight, 'v')
+            else:
+                weight_loader(param, loaded_weight)