audio frames padded to nearest multiple of 128

prishajain1 · prishajain1 · commit 1f2e44b5e733 · 2026-03-02T11:23:25.000+05:30
diff --git a/src/maxdiffusion/maxdiffusion_utils.py b/src/maxdiffusion/maxdiffusion_utils.py
@@ -297,6 +297,7 @@ def get_dummy_ltx2_inputs(config, pipeline, batch_size):
       pipeline.audio_sampling_rate / pipeline.audio_hop_length / float(pipeline.audio_vae_temporal_compression_ratio)
   )
   audio_num_frames = round(duration_s * audio_latents_per_second)
+  audio_num_frames = ((audio_num_frames + 127) // 128) * 128
 
   hidden_states = pipeline.prepare_latents(
       batch_size,
diff --git a/src/maxdiffusion/pipelines/ltx2/ltx2_pipeline.py b/src/maxdiffusion/pipelines/ltx2/ltx2_pipeline.py
@@ -1145,6 +1145,9 @@ def __call__(
       )
       audio_num_frames = round(duration_s * audio_latents_per_second)
 
+      # Pad audio sequence length to cleanly divide block sizes for Pallas flash attention on TPUs
+      audio_num_frames = ((audio_num_frames + 127) // 128) * 128
+
       audio_latents = self.prepare_audio_latents(
           batch_size=batch_size,
           num_channels_latents=audio_channels,

Original file line number	Diff line number	Diff line change
`@@ -297,6 +297,7 @@ def get_dummy_ltx2_inputs(config, pipeline, batch_size):`
`297`	`297`	`pipeline.audio_sampling_rate / pipeline.audio_hop_length / float(pipeline.audio_vae_temporal_compression_ratio)`
`298`	`298`	`)`
`299`	`299`	`audio_num_frames = round(duration_s * audio_latents_per_second)`
	`300`	`+ audio_num_frames = ((audio_num_frames + 127) // 128) * 128`
`300`	`301`
`301`	`302`	`hidden_states = pipeline.prepare_latents(`
`302`	`303`	`batch_size,`
Original file line number	Diff line number	Diff line change
`@@ -1145,6 +1145,9 @@ def __call__(`
`1145`	`1145`	`)`
`1146`	`1146`	`audio_num_frames = round(duration_s * audio_latents_per_second)`
`1147`	`1147`
	`1148`	`+ # Pad audio sequence length to cleanly divide block sizes for Pallas flash attention on TPUs`
	`1149`	`+ audio_num_frames = ((audio_num_frames + 127) // 128) * 128`
	`1150`	`+`
`1148`	`1151`	`audio_latents = self.prepare_audio_latents(`
`1149`	`1152`	`batch_size=batch_size,`
`1150`	`1153`	`num_channels_latents=audio_channels,`