fix and ltx2 backward compatibility

prishajain1 · prishajain1 · commit b83a1ab2105b · 2026-04-09T23:18:31.000+05:30
diff --git a/src/maxdiffusion/models/ltx2/ltx2_3_utils.py b/src/maxdiffusion/models/ltx2/ltx2_3_utils.py
@@ -39,6 +39,9 @@
     "audio_linear.bias": "audio_text_proj_in.bias",
     "video_linear.weight": "video_text_proj_in.kernel",
     "video_linear.bias": "video_text_proj_in.bias",
+}
+
+LTX_2_3_ONLY_RENAME_DICT = {
     "video_embeddings_connector": "video_connector",
     "audio_embeddings_connector": "audio_connector",
 }
@@ -50,6 +53,7 @@ def load_connectors_weights(
     hf_download: bool = True,
     subfolder: str = "",
     filename: str = None,
+    is_ltx2_3: bool = False,
 ):
   device = jax.local_devices(backend=device)[0]
 
@@ -69,6 +73,10 @@ def load_connectors_weights(
       for replace_key, rename_to in LTX_2_3_CONNECTORS_KEYS_RENAME_DICT.items():
         flax_key_str = flax_key_str.replace(replace_key, rename_to)
 
+      if is_ltx2_3:
+        for replace_key, rename_to in LTX_2_3_ONLY_RENAME_DICT.items():
+          flax_key_str = flax_key_str.replace(replace_key, rename_to)
+
       segments = flax_key_str.split(".")
       
       # Only extract digit if it immediately follows 'stacked_blocks'
diff --git a/src/maxdiffusion/models/ltx2/text_encoders/text_encoders_ltx2.py b/src/maxdiffusion/models/ltx2/text_encoders/text_encoders_ltx2.py
@@ -73,69 +73,135 @@ def __init__(
 
     self.per_modality_projections = per_modality_projections
 
-    self.feature_extractor = LTX2GemmaFeatureExtractor(
-        input_dim=input_dim,
-        output_dim=caption_channels,
-        dtype=dtype,
-        rngs=rngs,
-        per_modality_projections=per_modality_projections,
-        use_bias=proj_bias,
-        video_output_dim=v_dim,
-        audio_output_dim=a_dim,
-    )
-
-    # Two independent connectors
-    self.video_embeddings_connector = Embeddings1DConnector(
-        input_dim=v_dim,
-        heads=video_connector_num_attention_heads,
-        head_dim=video_connector_attention_head_dim,
-        layers=video_connector_num_layers,
-        num_learnable_registers=video_connector_num_learnable_registers,
-        rope_type=rope_type,
-        theta=rope_theta,
-        base_seq_len=connector_rope_base_seq_len,
-        double_precision=rope_double_precision,
-        attention_kernel=attention_kernel,
-        mesh=mesh,
-        rngs=rngs,
-        gated_attn=video_gated_attn,
-    )
-
-    self.audio_embeddings_connector = Embeddings1DConnector(
-        input_dim=a_dim,
-        heads=audio_connector_num_attention_heads,
-        head_dim=audio_connector_attention_head_dim,
-        layers=audio_connector_num_layers,
-        num_learnable_registers=audio_connector_num_learnable_registers,
-        rope_type=rope_type,
-        theta=rope_theta,
-        base_seq_len=connector_rope_base_seq_len,
-        double_precision=rope_double_precision,
-        attention_kernel=attention_kernel,
-        mesh=mesh,
-        rngs=rngs,
-        gated_attn=audio_gated_attn,
-    )
+    if per_modality_projections:
+      self.video_text_proj_in = nnx.Linear(
+          in_features=input_dim, out_features=v_dim, use_bias=proj_bias, rngs=rngs
+      )
+      self.audio_text_proj_in = nnx.Linear(
+          in_features=input_dim, out_features=a_dim, use_bias=proj_bias, rngs=rngs
+      )
+
+      self.video_connector = Embeddings1DConnector(
+          input_dim=v_dim,
+          heads=video_connector_num_attention_heads,
+          head_dim=video_connector_attention_head_dim,
+          layers=video_connector_num_layers,
+          num_learnable_registers=video_connector_num_learnable_registers,
+          rope_type=rope_type,
+          theta=rope_theta,
+          base_seq_len=connector_rope_base_seq_len,
+          double_precision=rope_double_precision,
+          attention_kernel=attention_kernel,
+          mesh=mesh,
+          rngs=rngs,
+          gated_attn=video_gated_attn,
+      )
+      self.audio_connector = Embeddings1DConnector(
+          input_dim=a_dim,
+          heads=audio_connector_num_attention_heads,
+          head_dim=audio_connector_attention_head_dim,
+          layers=audio_connector_num_layers,
+          num_learnable_registers=audio_connector_num_learnable_registers,
+          rope_type=rope_type,
+          theta=rope_theta,
+          base_seq_len=connector_rope_base_seq_len,
+          double_precision=rope_double_precision,
+          attention_kernel=attention_kernel,
+          mesh=mesh,
+          rngs=rngs,
+          gated_attn=audio_gated_attn,
+      )
+    else:
+      self.feature_extractor = LTX2GemmaFeatureExtractor(
+          input_dim=input_dim,
+          output_dim=caption_channels,
+          dtype=dtype,
+          rngs=rngs,
+          per_modality_projections=per_modality_projections,
+          use_bias=proj_bias,
+          video_output_dim=v_dim,
+          audio_output_dim=a_dim,
+      )
+
+      # Two independent connectors
+      self.video_embeddings_connector = Embeddings1DConnector(
+          input_dim=v_dim,
+          heads=video_connector_num_attention_heads,
+          head_dim=video_connector_attention_head_dim,
+          layers=video_connector_num_layers,
+          num_learnable_registers=video_connector_num_learnable_registers,
+          rope_type=rope_type,
+          theta=rope_theta,
+          base_seq_len=connector_rope_base_seq_len,
+          double_precision=rope_double_precision,
+          attention_kernel=attention_kernel,
+          mesh=mesh,
+          rngs=rngs,
+          gated_attn=video_gated_attn,
+      )
+      self.audio_embeddings_connector = Embeddings1DConnector(
+          input_dim=a_dim,
+          heads=audio_connector_num_attention_heads,
+          head_dim=audio_connector_attention_head_dim,
+          layers=audio_connector_num_layers,
+          num_learnable_registers=audio_connector_num_learnable_registers,
+          rope_type=rope_type,
+          theta=rope_theta,
+          base_seq_len=connector_rope_base_seq_len,
+          double_precision=rope_double_precision,
+          attention_kernel=attention_kernel,
+          mesh=mesh,
+          rngs=rngs,
+          gated_attn=audio_gated_attn,
+      )
 
   def __call__(
       self,
       hidden_states: Union[Tuple[Array, ...], List[Array]],
       attention_mask: Array,
-  ) -> Tuple[Array, Array]:
+  ) -> Tuple[Array, Array, Array]:
     """
     Returns:
         (video_embeds, audio_embeds, new_attention_mask)
     """
     with jax.named_scope("Text Encoder Forward"):
-      # 1. Shared Feature Extraction
-      features = self.feature_extractor(hidden_states, attention_mask)
-
-      # 2. Parallel Connection
       if self.per_modality_projections:
-        video_features, audio_features = features
-        video_embeds, new_attention_mask = self.video_embeddings_connector(video_features, attention_mask)
-        audio_embeds, _ = self.audio_embeddings_connector(audio_features, attention_mask)
+        # 1. Stack Hidden States if needed
+        if isinstance(hidden_states, (tuple, list)):
+          x = jnp.stack(hidden_states, axis=-1)
+        else:
+          x = hidden_states
+
+        b, l, d, k = x.shape
+        
+        # 2. Per-token RMS norm
+        variance = jnp.mean(x**2, axis=2, keepdims=True)
+        norm_text_encoder_hidden_states = x * jax.lax.rsqrt(variance + 1e-6)
+
+        norm_text_encoder_hidden_states = norm_text_encoder_hidden_states.reshape(b, l, -1)
+
+        bool_mask = (attention_mask > 0.5).astype(jnp.float32)[..., None]
+        norm_text_encoder_hidden_states = norm_text_encoder_hidden_states * bool_mask
+
+        # 3. Rescale norms
+        # Using self.caption_channels if available, or fallback to config or 3840
+        cap_channels = getattr(self, "caption_channels", getattr(self.config, "caption_channels", 3840))
+        
+        video_scale_factor = jnp.sqrt(self.video_connector.dim / cap_channels)
+        video_norm_text_emb = norm_text_encoder_hidden_states * video_scale_factor
+        audio_scale_factor = jnp.sqrt(self.audio_connector.dim / cap_channels)
+        audio_norm_text_emb = norm_text_encoder_hidden_states * audio_scale_factor
+
+        video_text_emb_proj = self.video_text_proj_in(video_norm_text_emb)
+        audio_text_emb_proj = self.audio_text_proj_in(audio_norm_text_emb)
+
+        video_embeds, new_attention_mask = self.video_connector(video_text_emb_proj, attention_mask)
+        audio_embeds, _ = self.audio_connector(audio_text_emb_proj, attention_mask)
       else:
+        # 1. Shared Feature Extraction
+        features = self.feature_extractor(hidden_states, attention_mask)
+
+        # 2. Parallel Connection
         video_embeds, new_attention_mask = self.video_embeddings_connector(features, attention_mask)
         audio_embeds, _ = self.audio_embeddings_connector(features, attention_mask)
 
diff --git a/src/maxdiffusion/pipelines/ltx2/ltx2_pipeline.py b/src/maxdiffusion/pipelines/ltx2/ltx2_pipeline.py
@@ -379,11 +379,15 @@ def create_model(rngs: nnx.Rngs, config: HyperParameters):
     logical_state_spec = nnx.get_partition_spec(state)
     logical_state_sharding = nn.logical_to_mesh_sharding(logical_state_spec, mesh, config.logical_axis_rules)
     logical_state_sharding = dict(nnx.to_flat_state(logical_state_sharding))
-    params = state.to_pure_dict()
-    state = dict(nnx.to_flat_state(state))
-
     filename = "ltx-2.3-22b-dev.safetensors" if getattr(config, "model_name", "") == "ltx2.3" else None
-    params = load_connectors_weights(config.pretrained_model_name_or_path, params, "cpu", subfolder="", filename=filename)
+    params = load_connectors_weights(
+        config.pretrained_model_name_or_path,
+        params,
+        "cpu",
+        subfolder="",
+        filename=filename,
+        is_ltx2_3=(getattr(config, "model_name", "") == "ltx2.3"),
+    )
     if hasattr(config, "weights_dtype"):
       params = jax.tree_util.tree_map(lambda x: x.astype(config.weights_dtype), params)