[llama4] Change expert_bias and tokens_per_expert to non-persistent buffer (#1403)

wwwjn · web-flow · commit f062d48ba779 · 2025-07-16T12:34:11.000-07:00
As titled. Tested on llama4 debugging model (dp=8, ep=2): <img width="1188" height="226" alt="Screenshot 2025-07-15 at 8 05 12 PM" src="https://github.com/user-attachments/assets/24a1bf87-b038-481e-b40b-96e2123c96fc" />
diff --git a/torchtitan/experiments/llama4/model/moe.py b/torchtitan/experiments/llama4/model/moe.py
@@ -249,12 +249,10 @@ def __init__(self, model_args: TransformerModelArgs):
             self.register_buffer(
                 "expert_bias",
                 torch.zeros(num_experts, dtype=torch.float32),
-                persistent=True,
             )
             self.register_buffer(
                 "tokens_per_expert",
                 torch.zeros(num_experts, dtype=torch.float32),
-                persistent=True,
             )
         else:
             self.expert_bias = None
diff --git a/torchtitan/models/deepseek_v3/model/moe.py b/torchtitan/models/deepseek_v3/model/moe.py
@@ -290,12 +290,10 @@ def __init__(self, model_args: DeepSeekV3ModelArgs):
             self.register_buffer(
                 "expert_bias",
                 torch.zeros(num_experts, dtype=torch.float32),
-                persistent=True,
             )
             self.register_buffer(
                 "tokens_per_expert",
                 torch.zeros(num_experts, dtype=torch.float32),
-                persistent=True,
             )
         else:
             self.expert_bias = None

Original file line number	Diff line number	Diff line change
`@@ -249,12 +249,10 @@ def __init__(self, model_args: TransformerModelArgs):`
`249`	`249`	`self.register_buffer(`
`250`	`250`	`"expert_bias",`
`251`	`251`	`torch.zeros(num_experts, dtype=torch.float32),`
`252`		`- persistent=True,`
`253`	`252`	`)`
`254`	`253`	`self.register_buffer(`
`255`	`254`	`"tokens_per_expert",`
`256`	`255`	`torch.zeros(num_experts, dtype=torch.float32),`
`257`		`- persistent=True,`
`258`	`256`	`)`
`259`	`257`	`else:`
`260`	`258`	`self.expert_bias = None`
Original file line number	Diff line number	Diff line change
`@@ -290,12 +290,10 @@ def __init__(self, model_args: DeepSeekV3ModelArgs):`
`290`	`290`	`self.register_buffer(`
`291`	`291`	`"expert_bias",`
`292`	`292`	`torch.zeros(num_experts, dtype=torch.float32),`
`293`		`- persistent=True,`
`294`	`293`	`)`
`295`	`294`	`self.register_buffer(`
`296`	`295`	`"tokens_per_expert",`
`297`	`296`	`torch.zeros(num_experts, dtype=torch.float32),`
`298`		`- persistent=True,`
`299`	`297`	`)`
`300`	`298`	`else:`
`301`	`299`	`self.expert_bias = None`