AI-Hypercomputer
diff --git a/‎pytest.ini‎
Lines changed: 1 addition & 1 deletion b/‎pytest.ini‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/MaxText/configs/base.yml‎
Lines changed: 23 additions & 1 deletion b/‎src/MaxText/configs/base.yml‎
Lines changed: 23 additions & 1 deletion
diff --git a/‎src/MaxText/configs/models/qwen3-omni-30b-a3b.yml‎
Lines changed: 18 additions & 0 deletions b/‎src/MaxText/configs/models/qwen3-omni-30b-a3b.yml‎
Lines changed: 18 additions & 0 deletions
diff --git a/‎src/MaxText/configs/types.py‎
Lines changed: 26 additions & 0 deletions b/‎src/MaxText/configs/types.py‎
Lines changed: 26 additions & 0 deletions
diff --git a/‎src/MaxText/decode.py‎
Lines changed: 2 additions & 0 deletions b/‎src/MaxText/decode.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/MaxText/layers/decoders.py‎
Lines changed: 21 additions & 3 deletions b/‎src/MaxText/layers/decoders.py‎
Lines changed: 21 additions & 3 deletions
diff --git a/‎src/MaxText/layers/embeddings.py‎
Lines changed: 78 additions & 14 deletions b/‎src/MaxText/layers/embeddings.py‎
Lines changed: 78 additions & 14 deletions
diff --git a/‎src/MaxText/layers/encoders.py‎
Lines changed: 53 additions & 0 deletions b/‎src/MaxText/layers/encoders.py‎
Lines changed: 53 additions & 0 deletions
@@ -18,7 +18,7 @@ addopts =
     --ignore=tests/unit/moba_vs_reference_test.py
     --ignore=tests/unit/offline_engine_test.py
     --ignore=tests/unit/profiler_test.py
-    --ignore=tests/unit/qwen3_embedding_vs_reference_test.py
+    --ignore=tests/unit/qwen3_omni_layers_test.py
     --ignore=tests/unit/qwen3_next_vs_reference_test.py
 markers =
     tpu_only: marks tests to be run on TPUs only
 
@@ -942,7 +942,9 @@ temperature_tuning: False
 
 # Multimodal flags
 use_multimodal: False
+use_audio: False
 freeze_vision_encoder_params: True
+freeze_audio_encoder_params: True
 dtype_mm: "float32"  # Data type for multimodal model's vision encoder
 remat_policy_for_vit: "minimal"  # Remat policy for multimodal model's vision encoder. Check `remat_policy` for options.
 image_size_for_vit: 896 # Default for Gemma3, and should be overwritten by model's config
@@ -980,7 +982,27 @@ temporal_patch_size_for_vit: 2
 num_position_embeddings_for_vit: 1024
 deepstack_visual_indexes_for_vit: []
 
-# Subslice shape in the form of "x,y,z" when using pathways (single controller).
+### Audio encoder configs (Qwen3-OmniMoe)
+d_model_for_audio: 256
+encoder_attention_heads_for_audio: 4
+encoder_ffn_dim_for_audio: 512
+encoder_layers_for_audio: 2
+attention_dropout_for_audio: 0.0
+activation_dropout_for_audio: 0.0
+activation_function_for_audio: "gelu"
+num_mel_bins_for_audio: 128
+max_source_positions_for_audio: 1500
+scale_embedding_for_audio: True
+n_window_for_audio: 50
+n_window_infer_for_audio: 800
+conv_chunksize_for_audio: 500
+downsample_hidden_size_for_audio: 256
+output_dim_for_audio: 512
+num_conv_layers_for_audio: 3
+max_timescale_for_audio: 10000.0
+max_sample_len_for_audio: 10000
+
+# Subslice shape in the form of "x,y,z" when using pathways (single controller). 
 # Example: "8,8" to use a 8x8 subgrid (64 chips) of a full pod (16x16) of trillium.
 subslice_shape: ""
 
 
@@ -56,3 +56,21 @@ num_position_embeddings_for_vit: 2304
 deepstack_visual_indexes_for_vit: [8, 16, 24]
 
 use_multimodal: true
+use_audio: true
+# Audio Encoder Configuration (need to set use_audio=true to enable)
+# Based on https://github.com/huggingface/transformers/blob/main/src/transformers/models/qwen3_omni_moe/configuration_qwen3_omni_moe.py
+d_model_for_audio: 1280
+encoder_layers_for_audio: 32
+encoder_attention_heads_for_audio: 20
+encoder_ffn_dim_for_audio: 5120
+max_source_positions_for_audio: 1500
+num_mel_bins_for_audio: 128
+downsample_hidden_size_for_audio: 480
+output_dim_for_audio: 2048
+attention_dropout_for_audio: 0.0
+n_window_for_audio: 50
+n_window_infer_for_audio: 400
+conv_chunksize_for_audio: 500
+num_conv_layers_for_audio: 3
+max_timescale_for_audio: 10000.0
+max_sample_len_for_audio: 10000
@@ -1360,6 +1360,8 @@ class MultimodalGeneral(BaseModel):
 
   use_multimodal: bool = Field(False, description="Enable multimodal capabilities.")
   freeze_vision_encoder_params: bool = Field(True, description="Freeze the parameters of the vision encoder.")
+  freeze_audio_encoder_params: bool = Field(True, description="Freeze the parameters of the audio encoder.")
+  use_audio: bool = Field(False, description="Enable audio encoder for multimodal models.")
   image_size_for_vit: int = Field(896, description="Input image size for the Vision Transformer.")
   image_path: PathStr = Field("", description="Path to an image for decoding.")
   image_placeholder: str = Field("<|image|>", description="Placeholder string for images in text prompts.")
@@ -1408,6 +1410,29 @@ class VisionProjector(BaseModel):
   projector_dropout_for_vit: float = Field(0.0, description="Dropout rate for the vision projector.")
 
 
+class AudioEncoder(BaseModel):
+  """Configuration for the Audio Encoder in a multimodal model."""
+
+  d_model_for_audio: int = Field(256, description="Model dimension for the audio encoder.")
+  encoder_attention_heads_for_audio: int = Field(4, description="Number of attention heads in the audio encoder.")
+  encoder_ffn_dim_for_audio: int = Field(512, description="Feed-forward network dimension for the audio encoder.")
+  encoder_layers_for_audio: int = Field(2, description="Number of encoder layers for audio.")
+  attention_dropout_for_audio: float = Field(0.0, description="Attention dropout rate for audio encoder.")
+  activation_dropout_for_audio: float = Field(0.0, description="Activation dropout rate for audio encoder.")
+  activation_function_for_audio: str = Field("gelu", description="Activation function for audio encoder.")
+  num_mel_bins_for_audio: int = Field(128, description="Number of mel-frequency bins for audio input.")
+  max_source_positions_for_audio: int = Field(1500, description="Maximum source positions for audio encoder.")
+  scale_embedding_for_audio: bool = Field(True, description="Whether to scale embeddings in audio encoder.")
+  n_window_for_audio: int = Field(50, description="Window size for audio processing.")
+  n_window_infer_for_audio: int = Field(800, description="Window size for audio inference.")
+  conv_chunksize_for_audio: int = Field(500, description="Chunk size for convolutional layers in audio encoder.")
+  downsample_hidden_size_for_audio: int = Field(256, description="Hidden size for downsampling in audio encoder.")
+  output_dim_for_audio: int = Field(512, description="Output dimension for audio encoder.")
+  num_conv_layers_for_audio: int = Field(3, description="Number of convolutional layers in audio encoder.")
+  max_timescale_for_audio: float = Field(10000.0, description="Maximum timescale for audio positional encoding.")
+  max_sample_len_for_audio: int = Field(10000, description="Maximum sample length for audio input.")
+
+
 class Debug(BaseModel):
   """Configuration for debugging options."""
 
@@ -1722,6 +1747,7 @@ class MaxTextConfig(
     MultimodalGeneral,
     VisionTower,
     VisionProjector,
+    AudioEncoder,
     # Derived
     DerivedValues,
 ):
 
@@ -152,6 +152,8 @@ def main(argv: Sequence[str]) -> None:
           padded_tokens=tokens,
           images=processor_outputs.pixel_values if config.use_multimodal else None,
           image_masks=processor_outputs.pixel_mask if config.use_multimodal and "llama4" in config.model_name else None,
+          audio_values=processor_outputs.audio_values if config.use_audio else None,
+          audio_masks=processor_outputs.audio_mask if config.use_audio else None,
           true_length=true_length,
           rng=rng_prefill,
           slot=i,
 
@@ -563,6 +563,8 @@ def _apply_embedding(
       image_embeddings=None,
       bidirectional_mask=None,
       image_masks=None,
+      audio_embeddings=None,
+      audio_masks=None,
   ):
     """Applies token and positional embeddings to the input tokens."""
     cfg = self.config
@@ -581,19 +583,30 @@ def _apply_embedding(
       ]:
         y = multimodal_utils.merge_mm_embeddings(
             text_embeddings=y,
-            vision_embeddings=image_embeddings,
+            multimodal_embeddings=image_embeddings,
             mask=bidirectional_mask,
-            image_masks=image_masks,
+            token_masks=image_masks,
         )
       # TODO(hengtaoguo): Add support for other multimodal models such as Llama4, refactor if needed
       else:
         raise ValueError(f"Unsupported model_name for multimodal: {cfg.model_name}")
 
+    if audio_embeddings is not None and cfg.use_audio:
+      if cfg.model_name in ["qwen3-omni-30b-a3b"]:
+        y = multimodal_utils.merge_mm_embeddings(
+            text_embeddings=y,
+            multimodal_embeddings=audio_embeddings,
+            mask=audio_masks,
+            token_masks=None,
+        )
+      else:
+        raise ValueError(f"Unsupported model_name for audio: {cfg.model_name}")
+
     y = nn.Dropout(rate=cfg.dropout_rate, broadcast_dims=(-2,))(y, deterministic=deterministic)
     y = y.astype(cfg.dtype)
 
     if cfg.use_untrainable_positional_embedding:
-      y = positional_embedding_as_linen(embedding_dims=cfg.base_emb_dim)(y, decoder_positions)
+      y += positional_embedding_as_linen(embedding_dims=cfg.base_emb_dim)(y.shape[1], decoder_positions)
 
     if cfg.trainable_position_size > 0:
       y += embed_as_linen(
@@ -673,6 +686,7 @@ def apply_output_head(self, shared_embedding: nn.Module | nnx.Module, y, determi
 
     return logits
 
+  # TODO(aireenmei, Hengtaoguo): consolidate all multimodal inputs into a class as input to the encoder
   @nn.compact
   def __call__(
       self,
@@ -690,6 +704,8 @@ def __call__(
       image_masks: None | jnp.ndarray = None,
       kv_caches: list[jax.Array] | None = None,
       attention_metadata=None,
+      audio_embeddings: None | jnp.ndarray = None,
+      audio_masks: None | jnp.ndarray = None,
   ):
     cfg = self.config
     mesh = self.mesh
@@ -705,6 +721,8 @@ def __call__(
         image_embeddings,
         bidirectional_mask,
         image_masks,
+        audio_embeddings,
+        audio_masks,
     )
 
     policy = self.get_remat_policy()
 
@@ -898,50 +898,114 @@ def __call__(self, inputs: Array, position: None | Array = None) -> Array:
     return output
 
 
-def positional_embedding_as_linen(*, embedding_dims: int, max_wavelength: int = _MAX_WAVELENGTH):
+def positional_embedding_as_linen(
+    *,
+    embedding_dims: int,
+    max_wavelength: int = _MAX_WAVELENGTH,
+    cast_as_fprop_dtype: bool = False,
+    fprop_dtype: DType = jnp.bfloat16,
+):
   """Initializes the PositionalEmbedding module and returns it as a Linen module.
 
   Args:
     embedding_dims: The dimension of the embeddings.
     max_wavelength: The maximum wavelength for the sinusoidal positional embeddings.
+    cast_as_fprop_dtype: Whether to cast output to fprop_dtype.
+    fprop_dtype: The dtype of the output when cast_as_fprop_dtype is True.
   """
   return nnx_wrappers.to_linen(
       PositionalEmbedding,
       embedding_dims=embedding_dims,
       max_wavelength=max_wavelength,
+      cast_as_fprop_dtype=cast_as_fprop_dtype,
+      fprop_dtype=fprop_dtype,
       metadata_fn=variable_to_logically_partitioned,
   )
 
 
 @dataclasses.dataclass(repr=False)
 class PositionalEmbedding(nnx.Module):
-  """A layer that adds sinusoidal positional embeddings to the input."""
+  """Sinusoidal positional embeddings supporting both uniform and per-batch positions.
+
+  This module computes sinusoidal positional embeddings and supports two use cases:
+
+  1. Uniform positions across batch: All batch elements share the same position sequence.
+     Pass position as 1D array (seq_len,) or None for sequential [0,1,2,...].
+     Returns (seq_len, embedding_dims), caller broadcasts to batch.
+     Example: pos_emb = layer(seq_len)  # Sequential positions
+              pos_emb = layer(seq_len, position_1d)  # Custom 1D positions
+
+  2. Per-batch positions (packed sequences): Each batch element has different positions.
+     Pass position as 2D array (batch, seq_len).
+     Returns (batch, seq_len, embedding_dims).
+     Example: pos_emb = layer(seq_len, position_2d)
+
+  As a side effect, the uniform case is more efficient since sin/cos are computed once
+  and broadcasted, rather than per batch element.
+  """
 
   #: The dimension of the embeddings.
   embedding_dims: int
   #: The maximum wavelength for the sinusoidal positional embeddings.
   max_wavelength: int = _MAX_WAVELENGTH
-
+  #: Whether to cast output to fprop_dtype.
+  cast_as_fprop_dtype: bool = False
+  #: The dtype of the output when cast_as_fprop_dtype is True.
+  fprop_dtype: DType = jnp.bfloat16
   #: RNG state passed in by nnx.bridge.to_linen, not used in this module.
   rngs: nnx.Rngs = None  # Not used in PositionalEmbedding but passed in by nnx.bridge.to_linen
 
-  def __call__(
-      self,  # pytype: disable=signature-mismatch  # overriding-parameter-count-checks
-      input_embedding: jax.Array,
-      position: jax.Array,
-  ) -> jax.Array:
+  def _compute_embeddings(self, position: Array) -> Array:
+    """Compute sinusoidal embeddings for given positions.
+
+    Args:
+      position: Either (seq_len,) for efficient path or (batch, seq_len) for full path.
+
+    Returns:
+      Embeddings of shape (seq_len, embedding_dims) or (batch, seq_len, embedding_dims).
+    """
     num_timescales = self.embedding_dims // 2
     log_timescale_increment = jnp.log(float(self.max_wavelength)) / jnp.maximum(
         jnp.asarray(num_timescales, dtype=jnp.float32) - 1, 1
     )
     inv_timescales = jnp.exp(jnp.arange(num_timescales, dtype=jnp.float32) * -log_timescale_increment)
-    position = position[:, :, jnp.newaxis]
-    inv_timescales = inv_timescales[jnp.newaxis, jnp.newaxis, :]
-    scaled_time = position * inv_timescales
+
+    if position.ndim == 1:
+      # use the same position for the whole batch when position is (seq_len,)
+      scaled_time = position[:, jnp.newaxis] * inv_timescales[jnp.newaxis, :]
+    else:
+      # when position is (batch, seq_len)
+      position = position[:, :, jnp.newaxis]
+      inv_timescales = inv_timescales[jnp.newaxis, jnp.newaxis, :]
+      scaled_time = position * inv_timescales
+
     signal = jnp.concatenate([jnp.sin(scaled_time), jnp.cos(scaled_time)], axis=-1)
-    # signal = jnp.pad(signal, [[0, jnp.mod(self.embedding_dims, 2)]])
-    position_embedding = signal.astype(jnp.float32)
-    return input_embedding + position_embedding
+
+    if self.cast_as_fprop_dtype:
+      return signal.astype(self.fprop_dtype)
+    else:
+      return signal.astype(jnp.float32)
+
+  def __call__(
+      self,
+      seq_len: int,
+      position: Array | None = None,
+  ) -> Array:
+    """Compute positional embeddings.
+
+    Args:
+      seq_len: Sequence length for computing embeddings.
+      position: Optional position array. If None, uses sequential [0,1,2,...].
+        Shape can be (seq_len,) or (batch, seq_len) for packed sequences.
+
+    Returns:
+      Positional embeddings of shape (seq_len, embedding_dims) or
+      (batch, seq_len, embedding_dims) if position has batch dimension.
+    """
+    if position is None:
+      position = jnp.arange(seq_len, dtype=jnp.float32)
+
+    return self._compute_embeddings(position)
 
 
 def llama_vision_rotary_embedding_as_linen(
 
@@ -76,6 +76,43 @@ def __call__(self, input_images, deterministic=False):
     return embeddings
 
 
+class AudioEncoder(nnx.Module):
+  """Audio encoder to encode audio features into soft tokens."""
+
+  def __init__(self, config: Config, mesh: Mesh, *, rngs: nnx.Rngs):
+    self.config = config
+    self.mesh = mesh
+    self.rngs = rngs
+    self.encoder_name, self.projector_name = self._setup_audio_encoder_layers()
+
+  def _setup_audio_encoder_layers(self):
+    """Setup audio encoder layers specific to the model, instantiate NNX modules."""
+    if self.config.model_name in ["qwen3-omni-30b-a3b"]:
+      from MaxText.layers import qwen3  # pylint: disable=import-outside-toplevel
+
+      encoder_name = "Qwen3OmniAudioEncoder_0"
+      projector_name = "Qwen3OmniAudioProjector_0"
+      setattr(self, encoder_name, qwen3.Qwen3OmniAudioEncoder(config=self.config, mesh=self.mesh, rngs=self.rngs))
+      setattr(self, projector_name, qwen3.Qwen3OmniAudioProjector(config=self.config, rngs=self.rngs))
+      return encoder_name, projector_name
+    else:
+      raise ValueError(f"No AudioEncoder implemented for {self.config.model_name} yet")
+
+  def __call__(self, input_audio, deterministic=False):
+    # audio encoder output (includes convs + encoder, outputs before projector)
+    encoder = getattr(self, self.encoder_name)
+    embeddings = encoder(input_audio, deterministic=deterministic)
+
+    if self.config.freeze_audio_encoder_params:
+      embeddings = jax.lax.stop_gradient(embeddings)
+
+    # audio projector layer
+    projector = getattr(self, self.projector_name)
+    embeddings = projector(embeddings)
+
+    return embeddings
+
+
 def vision_encoder_as_linen(
     config: Config,
     mesh: Mesh,
@@ -90,3 +127,19 @@ def vision_encoder_as_linen(
       metadata_fn=initializers.variable_to_logically_partitioned,
   )
   return module
+
+
+def audio_encoder_as_linen(
+    config: Config,
+    mesh: Mesh,
+):
+  """Creates an AudioEncoder module."""
+  module = nnx_wrappers.to_linen(
+      AudioEncoder,
+      config=config,
+      mesh=mesh,
+      name="audio_encoder",
+      abstract_init=False,
+      metadata_fn=initializers.variable_to_logically_partitioned,
+  )
+  return module