[Feature] 为 FusedMoE 添加 hidden_size 显式参数支持 (#7361)

zhoutianzi666 · web-flow · commit 73bd4ab318df · 2026-04-13T20:24:58.000+08:00
[Feature] 为 FusedMoE 添加 hidden_size 显式参数支持
diff --git a/fastdeploy/model_executor/layers/moe/moe.py b/fastdeploy/model_executor/layers/moe/moe.py
@@ -153,6 +153,7 @@ class FusedMoE(nn.Layer):
     def __init__(
         self,
         fd_config,
+        hidden_size: int = -1,
         reduce_results: bool = True,
         renormalize: bool = False,
         moe_intermediate_size: int = -1,
@@ -204,7 +205,7 @@ def __init__(
             self.tp_size == 1 and self.ep_size > 1
         ), "MoE only support parallelism on TP or EP dimension."
 
-        self.hidden_size = fd_config.model_config.hidden_size
+        self.hidden_size = hidden_size
         self.num_experts = num_experts
 
         self.num_local_experts = self.num_experts // self.ep_size
diff --git a/fastdeploy/model_executor/models/deepseek_v3.py b/fastdeploy/model_executor/models/deepseek_v3.py
@@ -167,6 +167,7 @@ def __init__(self, fd_config: FDConfig, layer_id: int, prefix: str) -> None:
 
         self.experts = FusedMoE(
             fd_config=fd_config,
+            hidden_size=fd_config.model_config.hidden_size,
             reduce_results=False,
             renormalize=self.norm_topk_prob,
             moe_intermediate_size=fd_config.model_config.moe_intermediate_size,
diff --git a/fastdeploy/model_executor/models/ernie4_5_moe.py b/fastdeploy/model_executor/models/ernie4_5_moe.py
@@ -210,6 +210,7 @@ def __init__(
 
         self.experts = FusedMoE(
             fd_config=fd_config,
+            hidden_size=fd_config.model_config.hidden_size,
             moe_intermediate_size=fd_config.model_config.moe_intermediate_size,
             num_experts=fd_config.model_config.moe_num_experts,
             top_k=fd_config.model_config.moe_k,
diff --git a/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py b/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py
@@ -148,6 +148,7 @@ def __init__(
         )
         self.experts = FusedMoE(
             fd_config=fd_config,
+            hidden_size=fd_config.model_config.hidden_size,
             reduce_results=False,
             moe_intermediate_size=moe_intermediate_size,
             num_experts=num_experts,
diff --git a/fastdeploy/model_executor/models/glm4_moe.py b/fastdeploy/model_executor/models/glm4_moe.py
@@ -169,6 +169,7 @@ def __init__(
 
         self.experts = FusedMoE(
             fd_config,
+            hidden_size=fd_config.model_config.hidden_size,
             reduce_results=not self.merge_ffn_tp,
             renormalize=self.norm_topk_prob,
             moe_intermediate_size=fd_config.model_config.moe_intermediate_size,
diff --git a/fastdeploy/model_executor/models/gpt_oss.py b/fastdeploy/model_executor/models/gpt_oss.py
@@ -114,6 +114,7 @@ def __init__(self, fd_config: FDConfig, layer_id: int, prefix: str = ""):
 
         self.experts = FusedMoE(
             fd_config=fd_config,
+            hidden_size=fd_config.model_config.hidden_size,
             moe_intermediate_size=fd_config.model_config.intermediate_size,
             num_experts=num_local_experts,
             top_k=fd_config.model_config.num_experts_per_tok,
diff --git a/fastdeploy/model_executor/models/qwen3moe.py b/fastdeploy/model_executor/models/qwen3moe.py
@@ -63,6 +63,7 @@ def __init__(
         }
         self.experts = FusedMoE(
             fd_config,
+            hidden_size=fd_config.model_config.hidden_size,
             moe_intermediate_size=fd_config.model_config.moe_intermediate_size,
             num_experts=fd_config.model_config.num_experts,
             top_k=fd_config.model_config.num_experts_per_tok,
diff --git a/tests/layers/test_fusedmoe.py b/tests/layers/test_fusedmoe.py
@@ -509,6 +509,7 @@ def __init__(
 
         self.fused_moe = FusedMoE(
             fd_config=self.fd_config,
+            hidden_size=self.fd_config.model_config.hidden_size,
             moe_intermediate_size=self.fd_config.model_config.moe_intermediate_size,
             num_experts=self.fd_config.model_config.moe_num_experts,
             top_k=self.fd_config.model_config.moe_k,
diff --git a/tests/layers/test_nvfp4_fusedmoe.py b/tests/layers/test_nvfp4_fusedmoe.py
@@ -516,6 +516,7 @@ def __init__(
 
         self.fused_moe = FusedMoE(
             fd_config=self.fd_config,
+            hidden_size=self.fd_config.model_config.hidden_size,
             moe_intermediate_size=self.fd_config.model_config.moe_intermediate_size,
             num_experts=self.fd_config.model_config.moe_num_experts,
             top_k=self.fd_config.model_config.moe_k,
diff --git a/tests/layers/test_w4a8_moe.py b/tests/layers/test_w4a8_moe.py
@@ -110,6 +110,7 @@ def __init__(
 
         self.fused_moe = FusedMoE(
             fd_config=self.fd_config,
+            hidden_size=self.fd_config.model_config.hidden_size,
             moe_intermediate_size=self.fd_config.model_config.moe_intermediate_size,
             num_experts=self.fd_config.model_config.moe_num_experts,
             top_k=self.fd_config.model_config.moe_k,
diff --git a/tests/layers/test_w4afp8_moe.py b/tests/layers/test_w4afp8_moe.py
@@ -96,6 +96,7 @@ def __init__(
 
         self.fused_moe = FusedMoE(
             fd_config=self.fd_config,
+            hidden_size=self.fd_config.model_config.hidden_size,
             moe_intermediate_size=self.fd_config.model_config.moe_intermediate_size,
             num_experts=self.fd_config.model_config.moe_num_experts,
             top_k=self.fd_config.model_config.moe_k,

Original file line number	Diff line number	Diff line change
`@@ -148,6 +148,7 @@ def __init__(`
`148`	`148`	`)`
`149`	`149`	`self.experts = FusedMoE(`
`150`	`150`	`fd_config=fd_config,`
	`151`	`+ hidden_size=fd_config.model_config.hidden_size,`
`151`	`152`	`reduce_results=False,`
`152`	`153`	`moe_intermediate_size=moe_intermediate_size,`
`153`	`154`	`num_experts=num_experts,`
Original file line number	Diff line number	Diff line change
`@@ -63,6 +63,7 @@ def __init__(`
`63`	`63`	`}`
`64`	`64`	`self.experts = FusedMoE(`
`65`	`65`	`fd_config,`
	`66`	`+ hidden_size=fd_config.model_config.hidden_size,`
`66`	`67`	`moe_intermediate_size=fd_config.model_config.moe_intermediate_size,`
`67`	`68`	`num_experts=fd_config.model_config.num_experts,`
`68`	`69`	`top_k=fd_config.model_config.num_experts_per_tok,`