Optimize batch loading and metrics writing, replace PositionalSharding with NamedSharding (#186)

coolkp · hx89 · commit 4a588c4b8e10 · 2025-07-15T12:15:39.000-07:00
* fix profiling

* Use torch cpu, async write to tensorboard, script to convert latents to tfrecord, batch iterator for tfrecord cached, namedsharding instead of positional sharding

Signed-off-by: Kunjan &lt;kunjanp@google.com&gt;

* Replace positional sharding with named sharding

Signed-off-by: Kunjan &lt;kunjanp@google.com&gt;

* Formatting

Signed-off-by: Kunjan &lt;kunjanp@google.com&gt;

* Formatting

Signed-off-by: Kunjan &lt;kunjanp@google.com&gt;

* Fallback to regular tfrecord iterator for datasets without all the processed features

Signed-off-by: Kunjan &lt;kunjanp@google.com&gt;

* README update

---------

Signed-off-by: Kunjan &lt;kunjanp@google.com&gt;
diff --git a/src/maxdiffusion/generate_flux.py b/src/maxdiffusion/generate_flux.py
@@ -343,7 +343,7 @@ def run(config):
       config.t5xxl_model_name_or_path, max_length=config.max_sequence_length, use_fast=True
   )
 
-  encoders_sharding = NamedSharding(mesh, P())
+  encoders_sharding = NamedSharding(devices_array, P())
   partial_device_put_replicated = functools.partial(device_put_replicated, sharding=encoders_sharding)
   clip_text_encoder.params = jax.tree_util.tree_map(lambda x: x.astype(jnp.bfloat16), clip_text_encoder.params)
   clip_text_encoder.params = jax.tree_util.tree_map(partial_device_put_replicated, clip_text_encoder.params)
diff --git a/src/maxdiffusion/generate_flux_multi_res.py b/src/maxdiffusion/generate_flux_multi_res.py
@@ -381,7 +381,7 @@ def run(config):
       config.t5xxl_model_name_or_path, max_length=config.max_sequence_length, use_fast=True
   )
 
-  encoders_sharding = NamedSharding(mesh, P())
+  encoders_sharding = NamedSharding(devices_array, P())
   partial_device_put_replicated = functools.partial(device_put_replicated, sharding=encoders_sharding)
   clip_text_encoder.params = jax.tree_util.tree_map(lambda x: x.astype(jnp.bfloat16), clip_text_encoder.params)
   clip_text_encoder.params = jax.tree_util.tree_map(partial_device_put_replicated, clip_text_encoder.params)
diff --git a/src/maxdiffusion/pipelines/wan/wan_pipeline.py b/src/maxdiffusion/pipelines/wan/wan_pipeline.py
@@ -198,11 +198,7 @@ def load_vae(cls, devices_array: np.array, mesh: Mesh, rngs: nnx.Rngs, config: H
     # This replaces random params with the model.
     params = load_wan_vae(config.pretrained_model_name_or_path, params, "cpu")
     params = jax.tree_util.tree_map(lambda x: x.astype(config.weights_dtype), params)
-<<<<<<< HEAD
     params = jax.device_put(params, NamedSharding(mesh, P()))
-=======
-    params = jax.device_put(params, NamedSharding(devices_array, P()))
->>>>>>> f344ab0 (Optimize batch loading and metrics writing, replace PositionalSharding with NamedSharding (#186))
     wan_vae = nnx.merge(graphdef, params)
     p_create_sharded_logical_model = partial(create_sharded_logical_model, logical_axis_rules=config.logical_axis_rules)
     # Shard
@@ -403,7 +399,7 @@ def __call__(
             num_channels_latents=num_channel_latents,
         )
 
-      data_sharding = NamedSharding(self.mesh, P())
+      data_sharding = NamedSharding(self.devices_array, P())
       if len(prompt) % jax.device_count() == 0:
         data_sharding = jax.sharding.NamedSharding(self.mesh, P(*self.config.data_sharding))
 

Original file line number	Diff line number	Diff line change
`@@ -343,7 +343,7 @@ def run(config):`
`343`	`343`	`config.t5xxl_model_name_or_path, max_length=config.max_sequence_length, use_fast=True`
`344`	`344`	`)`
`345`	`345`
`346`		`- encoders_sharding = NamedSharding(mesh, P())`
	`346`	`+ encoders_sharding = NamedSharding(devices_array, P())`
`347`	`347`	`partial_device_put_replicated = functools.partial(device_put_replicated, sharding=encoders_sharding)`
`348`	`348`	`clip_text_encoder.params = jax.tree_util.tree_map(lambda x: x.astype(jnp.bfloat16), clip_text_encoder.params)`
`349`	`349`	`clip_text_encoder.params = jax.tree_util.tree_map(partial_device_put_replicated, clip_text_encoder.params)`
Original file line number	Diff line number	Diff line change
`@@ -381,7 +381,7 @@ def run(config):`
`381`	`381`	`config.t5xxl_model_name_or_path, max_length=config.max_sequence_length, use_fast=True`
`382`	`382`	`)`
`383`	`383`
`384`		`- encoders_sharding = NamedSharding(mesh, P())`
	`384`	`+ encoders_sharding = NamedSharding(devices_array, P())`
`385`	`385`	`partial_device_put_replicated = functools.partial(device_put_replicated, sharding=encoders_sharding)`
`386`	`386`	`clip_text_encoder.params = jax.tree_util.tree_map(lambda x: x.astype(jnp.bfloat16), clip_text_encoder.params)`
`387`	`387`	`clip_text_encoder.params = jax.tree_util.tree_map(partial_device_put_replicated, clip_text_encoder.params)`