test vae load

prishajain1 · prishajain1 · commit 4a3bf4f5a40b · 2026-03-02T18:50:43.000+05:30
diff --git a/src/maxdiffusion/models/ltx2/ltx2_utils.py b/src/maxdiffusion/models/ltx2/ltx2_utils.py
@@ -315,6 +315,10 @@ def load_vae_weights(
           pt_tuple_key = tuple(pt_list)
 
           flax_key, flax_tensor = rename_key_and_reshape_tensor(pt_tuple_key, tensor, random_flax_state_dict)
+          
+          if flax_key in [("latents_mean",), ("latents_std",)]:
+              flax_key = flax_key + ("value",)
+              
           flax_key = _tuple_str_to_int(flax_key)
           
           flax_key_str = [str(x) for x in flax_key]
@@ -545,6 +549,9 @@ def load_audio_vae_weights(
                 flax_key_parts.append(part)
         
         flax_key = tuple(flax_key_parts)
+        
+        if flax_key in [("latents_mean",), ("latents_std",)]:
+            flax_key = flax_key + ("value",)
              
         if "up_stages" in flax_key:
              try:
diff --git a/src/maxdiffusion/pipelines/ltx2/ltx2_pipeline.py b/src/maxdiffusion/pipelines/ltx2/ltx2_pipeline.py
@@ -1144,9 +1144,6 @@ def __call__(
       )
       audio_num_frames = round(duration_s * audio_latents_per_second)
 
-      # Pad audio sequence length to cleanly divide block sizes for Pallas flash attention on TPUs
-      audio_num_frames = ((audio_num_frames + 127) // 128) * 128
-
       audio_latents = self.prepare_audio_latents(
           batch_size=batch_size,
           num_channels_latents=audio_channels,
diff --git a/test_vae_load.py b/test_vae_load.py
@@ -0,0 +1,12 @@
+import jax
+import sys
+import maxdiffusion.pyconfig as pyconfig
+from maxdiffusion.pipelines.ltx2.ltx2_pipeline import LTX2Pipeline
+
+argv = ["", "src/maxdiffusion/configs/ltx2_video.yml"]
+pyconfig.initialize(argv)
+
+pipeline = LTX2Pipeline.from_pretrained(pyconfig.config, vae_only=True)
+print("latents_mean:", pipeline.vae.latents_mean.value[:10])
+print("latents_std:", pipeline.vae.latents_std.value[:10])
+print("audio_latents_mean:", pipeline.audio_vae.latents_mean.value[:10])

Original file line number	Diff line number	Diff line change
`@@ -1144,9 +1144,6 @@ def __call__(`
`1144`	`1144`	`)`
`1145`	`1145`	`audio_num_frames = round(duration_s * audio_latents_per_second)`
`1146`	`1146`
`1147`		`- # Pad audio sequence length to cleanly divide block sizes for Pallas flash attention on TPUs`
`1148`		`- audio_num_frames = ((audio_num_frames + 127) // 128) * 128`
`1149`		`-`
`1150`	`1147`	`audio_latents = self.prepare_audio_latents(`
`1151`	`1148`	`batch_size=batch_size,`
`1152`	`1149`	`num_channels_latents=audio_channels,`