AI-Hypercomputer
diff --git a/‎src/maxtext/layers/moe.py‎
Lines changed: 1 addition & 0 deletions b/‎src/maxtext/layers/moe.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/maxtext/layers/pipeline.py‎
Lines changed: 1 addition & 0 deletions b/‎src/maxtext/layers/pipeline.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/maxtext/models/deepseek.py‎
Lines changed: 9 additions & 6 deletions b/‎src/maxtext/models/deepseek.py‎
Lines changed: 9 additions & 6 deletions
diff --git a/‎src/maxtext/models/llama2.py‎
Lines changed: 1 addition & 0 deletions b/‎src/maxtext/models/llama2.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/maxtext/utils/sharding.py‎
Lines changed: 55 additions & 12 deletions b/‎src/maxtext/utils/sharding.py‎
Lines changed: 55 additions & 12 deletions
diff --git a/‎src/maxtext/utils/vocabulary_tiling.py‎
Lines changed: 4 additions & 1 deletion b/‎src/maxtext/utils/vocabulary_tiling.py‎
Lines changed: 4 additions & 1 deletion
@@ -459,6 +459,7 @@ def _maybe_shard_with_logical(self, inputs, logical_name):
         mesh=self.mesh,
         shard_mode=self.config.shard_mode,
         debug_sharding=self.config.debug_sharding,
+        extra_stack_level=1,
     )
 
   def _logical_to_mesh_axes(self, logical_name):
 
@@ -133,6 +133,7 @@ def _maybe_shard_with_logical(self, inputs, logical_axes):
         mesh=self.mesh,
         rules=self.config.logical_axis_rules,
         debug_sharding=self.config.debug_sharding,
+        extra_stack_level=1,
     )
 
   def _maybe_shard_with_name(self, inputs, sharding_name):
 
@@ -184,16 +184,20 @@ def with_logical_constraint(self, x):
         mesh=self.mesh,
         shard_mode=self.config.shard_mode,
         debug_sharding=self.config.debug_sharding,
+        extra_stack_level=1,
     )
 
   def dropout_op(self, x, deterministic):
-    return self.with_logical_constraint(self.dropout(x, deterministic=deterministic))
+    dropout = self.dropout(x, deterministic=deterministic)
+    return self.with_logical_constraint(dropout)
 
   def pre_attention_norm_op(self, x):
-    return self.with_logical_constraint(self.pre_self_attention_layer_norm(x))
+    pre_attention_norm = self.pre_self_attention_layer_norm(x)
+    return self.with_logical_constraint(pre_attention_norm)
 
   def post_attention_norm_op(self, x):
-    return self.with_logical_constraint(self.post_self_attention_layer_norm(x))
+    post_attention_norm = self.post_self_attention_layer_norm(x)
+    return self.with_logical_constraint(post_attention_norm)
 
   def attention_op(
       self,
@@ -332,9 +336,8 @@ def __init__(
     )
 
   def mlp_op(self, x, deterministic):
-    return self.with_logical_constraint(
-        self.mlp(x, deterministic, intermediate_sharding=self.mlp_intermediate_sharding, out_sharding=self.out_sharding)
-    )
+    mlp = self.mlp(x, deterministic, intermediate_sharding=self.mlp_intermediate_sharding, out_sharding=self.out_sharding)
+    return self.with_logical_constraint(mlp)
 
   def __call__(
       self,
 
@@ -133,6 +133,7 @@ def __init__(
         mesh=self.mesh,
         shard_mode=config.shard_mode,
         debug_sharding=config.debug_sharding,
+        extra_stack_level=1,
     )
 
   def __call__(
 
@@ -29,9 +29,11 @@
 from maxtext.utils import max_logging
 from maxtext.utils import max_utils
 
+import inspect  # for debugging only
+from pathlib import Path
 
 _LOGGED_ACTIVATION_SHARDINGS = set()
-_LOGGED_LOGICAL_AXES = set()
+_ACTIVATION_SHARDINGS_DUMP = []
 
 
 def get_input_data_sharding(config, mesh):
@@ -45,51 +47,92 @@ def get_input_data_sharding(config, mesh):
   return data_sharding
 
 
-def maybe_shard_with_name(inputs, named_sharding, shard_mode, debug_sharding=False, extra_stack_level=0):
+def _get_sharding_desc(inputs, extra_stack_level):
+  """Get the inputs sharding description using inspect module"""
+  frame = inspect.currentframe()
+  # Traverse back extra_stack_level times:
+  for _ in range(1 + extra_stack_level):
+    if frame is not None:
+      frame = frame.f_back
+  if frame is not None:
+    callers_local_vars = frame.f_locals.items()
+
+    x = [var_name for var_name, var_val in callers_local_vars if var_val is inputs]
+    if len(x) > 0:
+      caller_path_full = inspect.stack()[1 + extra_stack_level].filename
+      # Use pathlib.Path to easily extract just the filename from the full path.
+      caller_filename = Path(caller_path_full).name
+      return f"{caller_filename[:-3]}/{x[0]}"
+  return "Unknown"
+
+
+def maybe_shard_with_name(
+    inputs, named_sharding, shard_mode, debug_sharding=False, extra_stack_level=0, sharding_desc="", logical_axes=None
+):
   """
   In auto shardmode, this function hints inputs follow given named_sharding.
   In explicit shardmode, this function enforces inputs following named_sharding.
+  sharding_desc is description of inputs of upper layer(s) of caller (with the form of <filename>/<variable>).
+   It is used as key in log/dump files when debug_sharding==true
   """
   if inputs is None:
     return None
   if (
       debug_sharding and isinstance(inputs, Tracer) and isinstance(named_sharding, NamedSharding)
   ):  # only print pspec for JitTracer
+    if not sharding_desc:
+      sharding_desc = _get_sharding_desc(inputs, extra_stack_level + 1)
+
+    if not logical_axes:
+      logical_axes = "Unknown"
+    elif isinstance(logical_axes, list):
+      logical_axes = tuple(logical_axes)
+
     pspec = remove_size_one_mesh_axis(getattr(named_sharding, "spec"), getattr(named_sharding, "mesh"))
-    log_key = (str(jax.typeof(inputs)), tuple(pspec), extra_stack_level)
+    log_key = (sharding_desc, str(jax.typeof(inputs)), tuple(pspec), extra_stack_level)
     if log_key not in _LOGGED_ACTIVATION_SHARDINGS:
-      max_logging.info(f"Physical: {log_key[0]:.<80} {log_key[1]}.", stacklevel=3 + extra_stack_level)
+      max_logging.info(f"{sharding_desc} Logical: {log_key[1]:.<60} {logical_axes}.", stacklevel=3 + extra_stack_level)
+      max_logging.info(f"{sharding_desc} Physical: {log_key[1]:.<60} {log_key[2]}.", stacklevel=3 + extra_stack_level)
       _LOGGED_ACTIVATION_SHARDINGS.add(log_key)
+
+      _ACTIVATION_SHARDINGS_DUMP.append(
+          {
+              f"{sharding_desc}: {log_key[1]}": {
+                  "logic_axes": f"{logical_axes}",
+                  "PartitionSpec": f"P{log_key[2]}",
+              }
+          }
+      )
   if shard_mode == ShardMode.EXPLICIT:
     return reshard(inputs, named_sharding)
   else:
     return jax.lax.with_sharding_constraint(inputs, named_sharding)
 
 
 def maybe_shard_with_logical(
-    inputs, logical_axes, mesh, shard_mode, rules=None, debug_sharding=False, extra_stack_level=0
+    inputs, logical_axes, mesh, shard_mode, rules=None, debug_sharding=False, extra_stack_level=0, sharding_desc=""
 ):
   """
   A wrapper of maybe_shard_with_name when logical axes are inputs
+  sharding_desc is description of inputs of upper layer(s) of caller (with the form of <filename>/<variable>).
+   It is used as key in log/dump files when debug_sharding==true
   """
   if inputs is None:
     return None
 
-  named_sharding = create_sharding(mesh, logical_axes, rules=rules)
-
-  if debug_sharding and isinstance(inputs, Tracer):
-    log_key = (str(jax.typeof(inputs)), tuple(logical_axes), extra_stack_level)
+  if debug_sharding and not sharding_desc:
+    sharding_desc = _get_sharding_desc(inputs, extra_stack_level + 1)
 
-    if log_key not in _LOGGED_LOGICAL_AXES:
-      max_logging.info(f"Logical:  {log_key[0]:.<60} {log_key[1]}", stacklevel=3 + extra_stack_level)
-      _LOGGED_LOGICAL_AXES.add(log_key)
+  named_sharding = create_sharding(mesh, logical_axes, rules=rules)
 
   return maybe_shard_with_name(
       inputs,
       named_sharding,
       shard_mode,
       debug_sharding=debug_sharding,
       extra_stack_level=extra_stack_level + 1,
+      sharding_desc=sharding_desc,
+      logical_axes=logical_axes,
   )
 
 
 
@@ -89,7 +89,10 @@ def vocab_tiling_linen_loss(
   )
 
   _maybe_shard_with_name = functools.partial(
-      maybe_shard_with_name, shard_mode=config.shard_mode, debug_sharding=config.debug_sharding
+      maybe_shard_with_name,
+      shard_mode=config.shard_mode,
+      debug_sharding=config.debug_sharding,
+      extra_stack_level=1,
   )
 
   def _reshape(inputs, out_shape, out_sharding):
Original file line number	Diff line number	Diff line change
`@@ -459,6 +459,7 @@ def _maybe_shard_with_logical(self, inputs, logical_name):`
`459`	`459`	`mesh=self.mesh,`
`460`	`460`	`shard_mode=self.config.shard_mode,`
`461`	`461`	`debug_sharding=self.config.debug_sharding,`
	`462`	`+ extra_stack_level=1,`
`462`	`463`	`)`
`463`	`464`
`464`	`465`	`def _logical_to_mesh_axes(self, logical_name):`
Original file line number	Diff line number	Diff line change
`@@ -133,6 +133,7 @@ def _maybe_shard_with_logical(self, inputs, logical_axes):`
`133`	`133`	`mesh=self.mesh,`
`134`	`134`	`rules=self.config.logical_axis_rules,`
`135`	`135`	`debug_sharding=self.config.debug_sharding,`
	`136`	`+ extra_stack_level=1,`
`136`	`137`	`)`
`137`	`138`
`138`	`139`	`def _maybe_shard_with_name(self, inputs, sharding_name):`
Original file line number	Diff line number	Diff line change
`@@ -133,6 +133,7 @@ def __init__(`
`133`	`133`	`mesh=self.mesh,`
`134`	`134`	`shard_mode=config.shard_mode,`
`135`	`135`	`debug_sharding=config.debug_sharding,`
	`136`	`+ extra_stack_level=1,`
`136`	`137`	`)`
`137`	`138`
`138`	`139`	`def __call__(`
Original file line number	Diff line number	Diff line change
`@@ -89,7 +89,10 @@ def vocab_tiling_linen_loss(`
`89`	`89`	`)`
`90`	`90`
`91`	`91`	`_maybe_shard_with_name = functools.partial(`
`92`		`- maybe_shard_with_name, shard_mode=config.shard_mode, debug_sharding=config.debug_sharding`
	`92`	`+ maybe_shard_with_name,`
	`93`	`+ shard_mode=config.shard_mode,`
	`94`	`+ debug_sharding=config.debug_sharding,`
	`95`	`+ extra_stack_level=1,`
`93`	`96`	`)`
`94`	`97`
`95`	`98`	`def _reshape(inputs, out_shape, out_sharding):`