feat(ltx2): add attention specs to text connector and pass them

Perseus14 · Perseus14 · commit 7ff54d46433e · 2026-04-30T16:44:06.000Z
diff --git a/src/maxdiffusion/models/ltx2/logical_sharding_ltx2.py b/src/maxdiffusion/models/ltx2/logical_sharding_ltx2.py
@@ -68,6 +68,12 @@ class TextConnectorShardingSpecs:
   net_0_bias: tuple = ("mlp",)
   net_2_kernel: tuple = ("mlp", None)
   net_2_bias: tuple = (None,)
+  # Attention specs (defaulting to trillium/safe defaults)
+  qkv_kernel: tuple = ("embed", "heads")
+  out_kernel: tuple = ("heads", "embed")
+  out_bias: tuple = ("embed",)
+  qkv_bias: tuple = ("heads",)
+  norm_scale: tuple = ("norm",)
 
 
 @dataclass
@@ -95,7 +101,11 @@ class VAEShardingSpecs:
             use_batched_text_encoder=True,
             text_encoder_kernel=(None, "embed"),
         ),
-        "text_connector": TextConnectorShardingSpecs(),
+        "text_connector": TextConnectorShardingSpecs(
+            qkv_kernel=(None, "heads"),
+            out_kernel=("heads", None),
+            out_bias=(None,),
+        ),
         "vae": VAEShardingSpecs(vae_conv_kernel=("batch", None, None, None)),
     },
     "trillium": {
diff --git a/src/maxdiffusion/models/ltx2/text_encoders/embeddings_connector_ltx2.py b/src/maxdiffusion/models/ltx2/text_encoders/embeddings_connector_ltx2.py
@@ -49,6 +49,7 @@ def __init__(
         attention_kernel=attention_kernel,
         mesh=mesh,
         rngs=rngs,
+        sharding_specs=sharding_specs,
     )
     self.ff = NNXSimpleFeedForward(rngs=rngs, dim=dim, dim_out=dim, activation_fn="gelu_tanh", sharding_specs=sharding_specs)
     self.norm1 = nnx.RMSNorm(dim, epsilon=1e-6, dtype=jnp.float32, param_dtype=jnp.float32, use_scale=False, rngs=rngs)

Original file line number	Diff line number	Diff line change
`@@ -49,6 +49,7 @@ def __init__(`
`49`	`49`	`attention_kernel=attention_kernel,`
`50`	`50`	`mesh=mesh,`
`51`	`51`	`rngs=rngs,`
	`52`	`+ sharding_specs=sharding_specs,`
`52`	`53`	`)`
`53`	`54`	`self.ff = NNXSimpleFeedForward(rngs=rngs, dim=dim, dim_out=dim, activation_fn="gelu_tanh", sharding_specs=sharding_specs)`
`54`	`55`	`self.norm1 = nnx.RMSNorm(dim, epsilon=1e-6, dtype=jnp.float32, param_dtype=jnp.float32, use_scale=False, rngs=rngs)`