vocoder+ rope type fix

prishajain1 · prishajain1 · commit 753ae2c88d30 · 2026-04-10T22:16:16.000+05:30
diff --git a/src/maxdiffusion/pipelines/ltx2/ltx2_pipeline.py b/src/maxdiffusion/pipelines/ltx2/ltx2_pipeline.py
@@ -132,6 +132,9 @@ def create_model(rngs: nnx.Rngs, ltx2_config: dict):
   else:
     ltx2_config = LTX2VideoTransformer3DModel.load_config(config.pretrained_model_name_or_path, subfolder=subfolder)
 
+  # Align RoPE type with connectors
+  ltx2_config["rope_type"] = "split"
+
   if ltx2_config.get("activation_fn") == "gelu-approximate":
     ltx2_config["activation_fn"] = "gelu"
 
@@ -1725,7 +1728,7 @@ def convert_to_vel(lat, x0):
     generated_mel_spectrograms = self.audio_vae.decode(audio_latents, return_dict=False)[0]
 
     # Audio VAE outputs (B, T, F, C), Vocoder expects (B, Channels, Time, MelBins)
-    generated_mel_spectrograms = generated_mel_spectrograms.transpose(0, 3, 1, 2)
+    generated_mel_spectrograms = generated_mel_spectrograms.transpose(0, 3, 2, 1)
     audio = self.vocoder(generated_mel_spectrograms)
 
     # Convert audio to numpy