some debug added to understand key_seq_len

prishajain1 · prishajain1 · commit a1f291c15593 · 2026-01-11T13:26:43.000+05:30
diff --git a/src/maxdiffusion/models/attention_flax.py b/src/maxdiffusion/models/attention_flax.py
@@ -285,6 +285,8 @@ def wrap_flash_attention(query, key, value):
 
     block_kv = max(*block_kv_sizes)
     key, _, key_seq_len = _pad_data_for_flash(key, heads, block_kv)
+    print("Key seq len")
+    print(key_seq_len)
     value, _, _ = _pad_data_for_flash(value, heads, block_kv)
 
     mask = splash_attention_mask.FullMask(_shape=(query.shape[2], key.shape[2]))