backward compatibility for ltx2

prishajain1 · prishajain1 · commit fcb5074f584c · 2026-04-11T23:19:55.000+05:30
diff --git a/src/maxdiffusion/configs/ltx2_video.yml b/src/maxdiffusion/configs/ltx2_video.yml
@@ -36,6 +36,8 @@ height: 512
 width: 768
 decode_timestep: 0.05
 decode_noise_scale: 0.025
+# Matches historical MaxDiffusion LTX-2 default when using generate_ltx2 (Diffusers uses 0.0).
+noise_scale: 1.0
 num_frames: 121
 quantization: "int8"
 seed: 10
diff --git a/src/maxdiffusion/generate_ltx2.py b/src/maxdiffusion/generate_ltx2.py
@@ -20,6 +20,7 @@
 import subprocess
 from maxdiffusion.checkpointing.ltx2_checkpointer import LTX2Checkpointer
 from maxdiffusion import pyconfig, max_logging, max_utils
+from maxdiffusion.common_types import LTX2_3
 from absl import app
 from google.cloud import storage
 from google.api_core.exceptions import GoogleAPIError
@@ -85,6 +86,12 @@ def call_pipeline(config, pipeline, prompt, negative_prompt):
   generator = jax.random.key(config.seed) if hasattr(config, "seed") else jax.random.key(0)
   guidance_scale = config.guidance_scale if hasattr(config, "guidance_scale") else 3.0
 
+  _noise_missing = object()
+  _noise = getattr(config, "noise_scale", _noise_missing)
+  if _noise is _noise_missing or _noise is None:
+    # Legacy LTX-2 default; LTX-2.3 aligns with Diffusers (0.0). YAML may override either.
+    _noise = 0.0 if getattr(config, "model_name", "") == LTX2_3 else 1.0
+
   out = pipeline(
       prompt=prompt,
       negative_prompt=negative_prompt,
@@ -106,7 +113,7 @@ def call_pipeline(config, pipeline, prompt, negative_prompt):
       modality_scale=getattr(config, "modality_scale", 1.0),
       audio_modality_scale=getattr(config, "audio_modality_scale", None),
       use_cross_timestep=getattr(config, "use_cross_timestep", None),
-      noise_scale=getattr(config, "noise_scale", 0.0),
+      noise_scale=_noise,
       dtype=jnp.bfloat16 if getattr(config, "activations_dtype", "bfloat16") == "bfloat16" else jnp.float32,
   )
   return out
diff --git a/src/maxdiffusion/pipelines/ltx2/ltx2_pipeline.py b/src/maxdiffusion/pipelines/ltx2/ltx2_pipeline.py
@@ -1260,7 +1260,7 @@ def __call__(
       audio_guidance_rescale: Optional[float] = None,
       audio_stg_scale: Optional[float] = None,
       audio_modality_scale: Optional[float] = None,
-      noise_scale: float = 0.0,
+      noise_scale: float = 1.0,
       num_videos_per_prompt: Optional[int] = 1,
       generator: Optional[jax.Array] = None,
       latents: Optional[jax.Array] = None,
@@ -1299,7 +1299,11 @@ def __call__(
 
     do_cfg = (guidance_scale > 1.0) or (audio_guidance_scale > 1.0)
     do_stg_effective = (stg_scale > 0.0) or (audio_stg_scale > 0.0)
-    do_modality_effective = (modality_scale > 1.0) or (audio_modality_scale > 1.0)
+    # Modality-isolation fused stacks match Diffusers LTX-2.3; LTX-2.0 weights/config ignore extra modality rows.
+    model_is_ltx2_3 = getattr(self.config, "model_name", "") == "ltx2.3"
+    do_modality_effective = model_is_ltx2_3 and (
+        (modality_scale > 1.0) or (audio_modality_scale > 1.0)
+    )
 
     # 2. Encode inputs (Text)
     prompt_embeds, prompt_attention_mask, negative_prompt_embeds, negative_prompt_attention_mask = self.encode_prompt(