Merge pull request #3351 from AI-Hypercomputer:chengnuojin-fix-ring-tp

Google-ML-Automation · Google-ML-Automation · commit e2f6b0e43bdf · 2026-03-09T11:22:03.000-07:00
PiperOrigin-RevId: 880950918
diff --git a/src/maxtext/layers/moe.py b/src/maxtext/layers/moe.py
@@ -1318,7 +1318,7 @@ def get_active_sharding_axes(pspec_dim_axes, tensor_dim_index):
         )
 
         # Sum up the partial outputs across the expert shards.
-        output = jnp.reshape(output, (-1, sequence_length, self.config.emb_dim))
+        output = jnp.reshape(output, (-1, sequence_length, self.config.emb_dim // self.get_tensor_parallelism_size()))
         output = jax.lax.psum_scatter(output, self._expert_parallelism_name, scatter_dimension=0, tiled=True)
 
       else:
diff --git a/tests/unit/moe_test.py b/tests/unit/moe_test.py
@@ -569,6 +569,39 @@ def test_megablox_expert_parallelism(self):
       actual_output, _, _ = self.get_moe_output(variables, hidden_states, cfg, mesh)
       self.assertTrue(jax.numpy.allclose(expected_output, actual_output, rtol=1e-02, atol=1e-02, equal_nan=False))
 
+  @pytest.mark.tpu_only
+  def test_ring_of_expert_and_tensor_parallelism(self):
+    cfg = pyconfig.initialize(
+        [None, get_test_config_path()],
+        run_name="moe_block_ring_ep_tp_test",
+        enable_checkpointing=False,
+        model_name="mixtral-8x7b",
+        dtype="bfloat16",
+        megablox=True,
+        sparse_matmul=True,
+        per_device_batch_size=4,  # TODO(b/450900273): sharding error if pdbs=1
+        ici_expert_parallelism=2,
+        use_ring_of_experts=True,
+        ici_tensor_parallelism=2,
+        max_target_length=128,
+    )
+
+    rng = jax.random.PRNGKey(2345)
+    rng_model, rng_hidden_states = jax.random.split(rng)
+    device_count = jax.device_count()
+    hidden_states = jax.random.uniform(
+        rng_hidden_states,
+        (int(cfg.per_device_batch_size) * device_count, cfg.max_target_length, cfg.base_emb_dim),
+        dtype=cfg.dtype,
+    )
+
+    devices_array = maxtext_utils.create_device_mesh(cfg)
+    mesh = Mesh(devices_array, cfg.mesh_axes)
+    with nn_partitioning.axis_rules(cfg.logical_axis_rules):
+      variables, expected_output = self.get_expected_output(rng_model, hidden_states, cfg, mesh)
+      actual_output, _, _ = self.get_moe_output(variables, hidden_states, cfg, mesh)
+      self.assertTrue(jax.numpy.allclose(expected_output, actual_output, rtol=1e-02, atol=1e-02, equal_nan=False))
+
   @pytest.mark.tpu_only
   def test_moe_fsdp_two_stage_parallelism_tpu_only(self):
     cfg = pyconfig.initialize(

Original file line number	Diff line number	Diff line change
`@@ -1318,7 +1318,7 @@ def get_active_sharding_axes(pspec_dim_axes, tensor_dim_index):`
`1318`	`1318`	`)`
`1319`	`1319`
`1320`	`1320`	`# Sum up the partial outputs across the expert shards.`
`1321`		`- output = jnp.reshape(output, (-1, sequence_length, self.config.emb_dim))`
	`1321`	`+ output = jnp.reshape(output, (-1, sequence_length, self.config.emb_dim // self.get_tensor_parallelism_size()))`
`1322`	`1322`	`output = jax.lax.psum_scatter(output, self._expert_parallelism_name, scatter_dimension=0, tiled=True)`
`1323`	`1323`
`1324`	`1324`	`else:`