Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

README.md +3 -1
config.json +62 -9
configuration_midashenglm.py +67 -13
generation_config.json +8 -0
model.safetensors.index.json +398 -398
modeling_midashenglm.py +258 -457

README.md CHANGED Viewed

@@ -52,7 +52,9 @@ TODO：以下由Qwen2.5-Omni-3B依赖，引入路径未知，需要去除
 >>> with torch.no_grad():
 ...     model_inputs = processor(text=text, audio=audio)
-...     output = model.generate(**model_inputs)
 >>> print(output)
 ["An engine is idling.'"]
 ```

 >>> with torch.no_grad():
 ...     model_inputs = processor(text=text, audio=audio)
+...     generation = model.generate(**model_inputs)
+...     output = processor.batch_decode(generation, skip_special_tokens=True)
 >>> print(output)
 ["An engine is idling.'"]
 ```

config.json CHANGED Viewed

@@ -2,11 +2,36 @@
   "architectures": [
     "DashengQwen25OmniModelInstruct"
   ],
-  "audio_encoder": "LemonstoreWrapper",
-  "audio_encoder_args": {
-    "model_name": "audiotransformer_huge.dasheng06b.10s",
-    "pretrained": false,
-    "target_length": 1008
   },
   "auto_map": {
     "AutoConfig": "configuration_midashenglm.MiAudioLLMHFConfig",
@@ -19,9 +44,37 @@
   "model_type": "miaudiollm",
   "resize_tokenizer": false,
   "subsample_factor": 5,
-  "text_model": "Qwen/Qwen2.5-Omni-3B",
-  "text_model_args": {},
   "torch_dtype": "float32",
-  "transformers_version": "4.52.0.dev0",
-  "use_encoderattention_mask": true
 }

   "architectures": [
     "DashengQwen25OmniModelInstruct"
   ],
+  "audio_encoder_config": {
+    "attn_drop_rate": 0.0,
+    "center": true,
+    "depth": 32,
+    "drop_path_rate": 0.0,
+    "drop_rate": 0.0,
+    "embed_dim": 1280,
+    "f_max": 8000.0,
+    "f_min": 0.0,
+    "hop_length": 160,
+    "init_values": null,
+    "input_channels": 1,
+    "mlp_ratio": 4.0,
+    "model_type": "miaudiollm_dasheng_encoder",
+    "n_fft": 512,
+    "n_mels": 64,
+    "num_heads": 16,
+    "outputdim": 527,
+    "patch_size": [
+      64,
+      4
+    ],
+    "patch_stride": [
+      64,
+      4
+    ],
+    "qkv_bias": true,
+    "sample_rate": 16000,
+    "target_length": 1008,
+    "win_length": 512
   },
   "auto_map": {
     "AutoConfig": "configuration_midashenglm.MiAudioLLMHFConfig",
   "model_type": "miaudiollm",
   "resize_tokenizer": false,
   "subsample_factor": 5,
+  "text_model_config": {
+    "_attn_implementation_autoset": true,
+    "attention_dropout": 0.0,
+    "hidden_act": "silu",
+    "hidden_size": 2048,
+    "init_std": 0.02,
+    "initializer_range": 0.02,
+    "intermediate_size": 11008,
+    "max_position_embeddings": 32768,
+    "max_window_layers": 70,
+    "model_type": "qwen2_5_omni_text",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 36,
+    "num_key_value_heads": 2,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": {
+      "mrope_section": [
+        16,
+        24,
+        24
+      ],
+      "rope_type": "default",
+      "type": "default"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": 32768,
+    "torch_dtype": "bfloat16",
+    "use_cache": true,
+    "use_sliding_window": false,
+    "vocab_size": 152064
+  },
   "torch_dtype": "float32",
+  "transformers_version": "4.52.0.dev0"
 }

configuration_midashenglm.py CHANGED Viewed

@@ -1,6 +1,64 @@
-from typing import Literal
 from transformers import PretrainedConfig
 class MiAudioLLMHFConfig(PretrainedConfig):
@@ -9,25 +67,21 @@ class MiAudioLLMHFConfig(PretrainedConfig):
     def __init__(
         self,
         model: str = "DashengQwen2ModelInstruct",
-        audio_encoder="LemonstoreWrapper",
-        audio_encoder_args=dict(
-            model_name="audiotransformer_base.dasheng.10s", pretrained=True
-        ),
-        text_model="Qwen/Qwen2.5-0.5B-Instruct",
-        text_model_args=dict(),
         freeze: Literal["audio", "text"] | str | None = None,
         lora: Literal["encoder", "decoder"] | None = None,
         subsample_factor: int = 5,
-        use_encoderattention_mask: bool = True,
         **kwargs,
     ):
         self.model = model
-        self.audio_encoder = audio_encoder
-        self.audio_encoder_args = audio_encoder_args
-        self.text_model = text_model
-        self.text_model_args = text_model_args
         self.freeze = freeze
         self.lora = lora
         self.subsample_factor = subsample_factor
-        self.use_encoderattention_mask = use_encoderattention_mask
         super().__init__(**kwargs)

+from ast import Dict
+from typing import Literal, Tuple, Union
 from transformers import PretrainedConfig
+from transformers.models.qwen2_5_omni.configuration_qwen2_5_omni import (
+    Qwen2_5OmniTextConfig,
+)
+class DashengConfig(PretrainedConfig):
+    model_type = "miaudiollm_dasheng_encoder"
+    def __init__(
+        self,
+        embed_dim: int = 768,
+        outputdim: int = 527,
+        patch_size: Union[int, Tuple[int, int]] = 16,
+        patch_stride: Union[int, Tuple[int, int]] = 16,
+        input_channels: int = 1,
+        target_length: int = 1012,
+        depth: int = 12,
+        num_heads: int = 12,
+        mlp_ratio: float = 4.0,
+        qkv_bias: bool = True,
+        init_values: float | None = None,
+        drop_rate: float = 0.0,
+        attn_drop_rate: float = 0.0,
+        drop_path_rate: float = 0.0,
+        f_min: float = 0.0,
+        f_max: float = 8000.0,
+        center: bool = True,
+        win_length: int = 512,
+        hop_length: int = 160,
+        sample_rate: int = 16000,
+        n_fft: int = 512,
+        n_mels: int = 64,
+        **kwargs,
+    ):
+        self.embed_dim = embed_dim
+        self.outputdim = outputdim
+        self.patch_size = patch_size
+        self.patch_stride = patch_stride
+        self.input_channels = input_channels
+        self.target_length = target_length
+        self.depth = depth
+        self.num_heads = num_heads
+        self.mlp_ratio = mlp_ratio
+        self.qkv_bias = qkv_bias
+        self.init_values = init_values
+        self.drop_rate = drop_rate
+        self.attn_drop_rate = attn_drop_rate
+        self.drop_path_rate = drop_path_rate
+        self.f_min = f_min
+        self.f_max = f_max
+        self.center = center
+        self.win_length = win_length
+        self.hop_length = hop_length
+        self.sample_rate = sample_rate
+        self.n_fft = n_fft
+        self.n_mels = n_mels
+        super().__init__(**kwargs)
 class MiAudioLLMHFConfig(PretrainedConfig):
     def __init__(
         self,
         model: str = "DashengQwen2ModelInstruct",
+        audio_encoder_config: Dict = {},
         freeze: Literal["audio", "text"] | str | None = None,
         lora: Literal["encoder", "decoder"] | None = None,
         subsample_factor: int = 5,
+        text_model_config: Dict = None,
         **kwargs,
     ):
         self.model = model
+        self.audio_encoder_config = DashengConfig(**audio_encoder_config)
         self.freeze = freeze
         self.lora = lora
         self.subsample_factor = subsample_factor
+        self.text_model_config = (
+            Qwen2_5OmniTextConfig(**text_model_config)
+            if text_model_config
+            else Qwen2_5OmniTextConfig()
+        )
         super().__init__(**kwargs)

generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "eos_token_id": [
+    151643,
+    151645
+  ],
+  "pad_token_id": 151643,
+  "transformers_version": "4.52.0.dev0"
+}

model.safetensors.index.json CHANGED Viewed

@@ -1,405 +1,405 @@
 {
   "metadata": {
-    "total_size": 9383791884
   },
   "weight_map": {
-    "audio_encoder.model.blocks.0.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.0.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.0.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.0.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.0.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.0.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.0.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.0.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.1.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.10.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.11.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.12.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.13.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.14.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.15.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.16.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.17.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.18.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.19.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.2.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.20.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.21.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.22.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.23.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.24.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.25.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.26.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.27.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.28.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.29.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.3.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.30.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.31.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.4.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.5.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.6.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.7.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.8.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.attn.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.attn.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.attn.qkv.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.attn.qkv.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.norm1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.norm1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.norm2.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.blocks.9.norm2.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.freq_pos_embed": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.front_end.0.mel_scale.fb": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.front_end.0.spectrogram.window": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.init_bn.1.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.init_bn.1.num_batches_tracked": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.init_bn.1.running_mean": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.init_bn.1.running_var": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.init_bn.1.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.norm.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.norm.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.patch_embed.proj.bias": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.patch_embed.proj.weight": "model-00001-of-00002.safetensors",
-    "audio_encoder.model.time_pos_embed": "model-00001-of-00002.safetensors",
     "audio_projector.net.0.bias": "model-00002-of-00002.safetensors",
     "audio_projector.net.0.weight": "model-00002-of-00002.safetensors",
     "audio_projector.net.2.bias": "model-00002-of-00002.safetensors",

 {
   "metadata": {
+    "total_size": 9385880844
   },
   "weight_map": {
+    "audio_encoder.blocks.0.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.0.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.0.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.0.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.0.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.0.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.0.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.0.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.1.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.10.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.11.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.12.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.13.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.14.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.15.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.16.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.17.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.18.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.19.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.2.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.20.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.21.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.22.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.23.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.24.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.25.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.26.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.27.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.28.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.29.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.3.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.30.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.31.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.4.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.5.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.6.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.7.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.8.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.norm1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.norm1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.norm2.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.blocks.9.norm2.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.freq_pos_embed": "model-00001-of-00002.safetensors",
+    "audio_encoder.front_end.0.mel_scale.fb": "model-00001-of-00002.safetensors",
+    "audio_encoder.front_end.0.spectrogram.window": "model-00001-of-00002.safetensors",
+    "audio_encoder.init_bn.1.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.init_bn.1.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "audio_encoder.init_bn.1.running_mean": "model-00001-of-00002.safetensors",
+    "audio_encoder.init_bn.1.running_var": "model-00001-of-00002.safetensors",
+    "audio_encoder.init_bn.1.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.norm.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.norm.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.patch_embed.proj.bias": "model-00001-of-00002.safetensors",
+    "audio_encoder.patch_embed.proj.weight": "model-00001-of-00002.safetensors",
+    "audio_encoder.time_pos_embed": "model-00001-of-00002.safetensors",
     "audio_projector.net.0.bias": "model-00002-of-00002.safetensors",
     "audio_projector.net.0.weight": "model-00002-of-00002.safetensors",
     "audio_projector.net.2.bias": "model-00002-of-00002.safetensors",

modeling_midashenglm.py CHANGED Viewed

@@ -1,50 +1,22 @@
 import collections.abc
 from functools import partial
-from typing import Any, Callable, Iterable, Literal, Optional, Tuple, Type, Union
 import torch
 import torch.nn as nn
 import torchaudio.transforms as audio_transforms
 from torch import Tensor
-from transformers import PreTrainedModel
-from .configuration_midashenglm import MiAudioLLMHFConfig
-class AudioProjectorSubsample(torch.nn.Module):
-    def __init__(self, in_dim: int, out_dim: int, downsample_rate=5):
-        super().__init__()
-        self.k = downsample_rate
-        self.net = torch.nn.Sequential(
-            torch.nn.Linear(in_dim * self.k, out_dim),
-            torch.nn.GELU(),
-            torch.nn.Linear(out_dim, out_dim),
-        )
-    def forward(self, x, mask=None):
-        """
-        inputs is the output of audio encoder.
-        :param x: [B, T, D]
-        :param x_lens: [B, T]
-        :return: [B, T', D']
-        """
-        batch_size, seq_len, dim = x.shape
-        num_frames_to_discard = seq_len % self.k
-        if num_frames_to_discard > 0:
-            x = x[:, :-num_frames_to_discard, :]
-            if mask is not None:
-                mask = mask[:, :-num_frames_to_discard]
-        if mask is None:
-            mask = torch.ones(x.shape[:-1], dtype=torch.long, device=x.device)
-        x = x.reshape(
-            batch_size, -1, self.k * dim
-        )  # rearrange(x, "b (s k) d -> b s (k d)", k=self.k)
-        x = self.net(x)
-        mask = mask.reshape(
-            batch_size, -1, self.k
-        )  # rearrange(mask, "b (s k) -> b s k", k=self.k)
-        mask = mask.any(dim=-1).long()
-        return x, mask
 # The functions `drop_path` and the module `DropPath` are taken from timm
@@ -144,7 +116,7 @@ class Mlp(nn.Module):
         in_features: int,
         hidden_features: Optional[int] = None,
         out_features: Optional[int] = None,
-        act_layer: Type[torch.nn.Module] = nn.GELU,
         drop: float = 0.0,
     ):
         super().__init__()
@@ -238,11 +210,11 @@ class Block(nn.Module):
         qkv_bias: bool = False,
         drop: float = 0.0,
         attn_drop: float = 0.0,
-        init_values=None,
         drop_path: float = 0.0,
-        act_layer: Type[torch.nn.Module] = nn.GELU,
-        norm_layer: Type[torch.nn.Module] = nn.LayerNorm,
-        attention_type: Type[torch.nn.Module] = Attention,
     ):
         super().__init__()
         self.norm1 = norm_layer(dim)
@@ -277,6 +249,7 @@ class Block(nn.Module):
         return x
 class RearranceReplace(nn.Module):
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         # rearrange(x, "b c f t -> b f c t")
@@ -288,69 +261,23 @@ class RearranceReplace(nn.Module):
 class AudioTransformer(nn.Module):
     def __init__(
         self,
-        outputdim: int = 527,
-        patch_size: Union[int, Tuple[int, int]] = 16,
-        patch_stride: Union[int, Tuple[int, int]] = 16,
-        embed_dim: int = 768,
-        depth: int = 12,
-        num_heads: int = 12,
-        mlp_ratio: float = 4.0,
-        qkv_bias: bool = True,
-        drop_rate: float = 0.0,
-        attn_drop_rate: float = 0.0,
-        drop_path_rate: float = 0.0,
-        norm_layer: torch.nn.Module | None = None,
-        act_layer: Type[torch.nn.Module] = nn.GELU,
-        init_values=None,
-        target_length: int = 1012,
-        input_channels: int = 1,
-        pooling: Literal["mean", "token", "dm", "logit", "cat"] | None = "token",
-        time_patch_out: float | None = None,
-        freq_patch_out: float | None = None,
-        block_type: Type[torch.nn.Module] = Block,
-        attention_type: Type[torch.nn.Module] = Attention,
-        eval_avg: Literal["mean", "max", "cat"] = "mean",
-        n_mels: int = 64,
-        n_fft: int = 512,
-        hop_size: int = 160,
-        win_size: int = 512,
-        f_min: float = 0.0,
-        f_max: float = 8000.0,
-        sample_rate: int = 16000,
-        center: bool = True,
-        pad_last: bool = True,
     ):
         super().__init__()
-        assert pooling in ("mean", "token", "dm", "logit", "cat", None)
-        self.outputdim = outputdim
-        self.pooling = pooling
-        self.embed_dim = embed_dim
-        self.patch_stride = patch_stride
-        self.patch_size = patch_size
-        self.n_mels = n_mels
-        self.n_fft = n_fft
-        self.hop_size = hop_size
-        self.win_size = win_size
-        self.f_min = f_min
-        self.f_max = f_max
-        self.sample_rate = sample_rate
-        self.center = center
-        self.pad_last = pad_last
-        self.input_channels = input_channels
-        self.eval_avg = eval_avg
-        self.time_patch_out = time_patch_out
-        self.freq_patch_out = freq_patch_out
         self.front_end = nn.Sequential(
             audio_transforms.MelSpectrogram(
-                f_min=self.f_min,
-                f_max=self.f_max,
-                center=self.center,
-                win_length=self.win_size,
-                hop_length=self.hop_size,
-                sample_rate=self.sample_rate,
-                n_fft=self.n_fft,
-                n_mels=self.n_mels,
             ),
             audio_transforms.AmplitudeToDB(top_db=120),
         )
@@ -358,62 +285,47 @@ class AudioTransformer(nn.Module):
         self.init_bn = nn.Sequential(
             # Rearrange("b c f t -> b f c t"),
             RearranceReplace(),
-            torch.nn.BatchNorm2d(self.n_mels, momentum=0.01),
             # Rearrange("b f c t -> b c f t"),
             RearranceReplace(),
         )
-        self.target_length = target_length
-        patch_stride = to_2tuple(self.patch_stride)[-1]
-        # Allowed length in number of frames, otherwise the positional embedding will throw an error
-        self.maximal_allowed_length = self.target_length
         self.patch_embed = AudioPatchEmbed(
-            input_size=(self.n_mels, target_length),
-            embed_dim=self.embed_dim,
-            in_chans=self.input_channels,
-            patch_size=self.patch_size,
             flatten=False,
-            patch_stride=self.patch_stride,
         )
-        if self.pooling == "token":
-            self.cls_token = nn.Parameter(torch.zeros(1, 1, embed_dim))
-            self.token_pos_embed = nn.Parameter(torch.randn(1, embed_dim) * 0.02)
         self.time_pos_embed = nn.Parameter(
-            torch.randn(1, embed_dim, 1, self.patch_embed.grid_size[1]) * 0.02
         )
         self.freq_pos_embed = nn.Parameter(
-            torch.randn(1, embed_dim, self.patch_embed.grid_size[0], 1) * 0.02
         )
-        norm_layer = norm_layer or partial(nn.LayerNorm, eps=1e-6)
-        act_layer = act_layer or nn.GELU
         dpr = [
-            x.item() for x in torch.linspace(0, drop_path_rate, depth)
         ]  # stochastic depth decay rule
-        self.pos_drop = nn.Dropout(p=drop_rate)
         self.blocks = nn.ModuleList(
-            block_type(
-                dim=embed_dim,
-                num_heads=num_heads,
-                mlp_ratio=mlp_ratio,
-                qkv_bias=qkv_bias,
-                init_values=init_values,
-                drop=drop_rate,
-                attn_drop=attn_drop_rate,
                 drop_path=dpr[i],
                 norm_layer=norm_layer,
-                act_layer=act_layer,
-                attention_type=attention_type,
             )
-            for i in range(depth)
         )
-        self.norm = norm_layer(embed_dim)
-        if hasattr(self, "cls_token") and self.cls_token is not None:
-            nn.init.normal_(self.cls_token, std=1e-6)
     def forward_features(self, x: torch.Tensor, **kwargs) -> torch.Tensor:
         t = x.shape[-1]
@@ -424,119 +336,23 @@ class AudioTransformer(nn.Module):
         x = torch.permute(
             torch.flatten(x, 2, 3), (0, 2, 1)
         )  # rearrange(x, "b c f t -> b (f t) c")
-        if self.pooling == "token":
-            cls_token = self.cls_token.expand(x.shape[0], -1, -1)
-            cls_token = cls_token + self.token_pos_embed
-            x = torch.cat((cls_token, x), dim=1)
         x = self.pos_drop(x)
         for block in self.blocks:
             x = block(x, **kwargs)
         x = self.norm(x)
         return x
-    # TODO
-    # ================ 从此行开始，与Dasheng代码严重分歧 ================
-    def forward_head(self, x: torch.Tensor, **kwargs) -> torch.Tensor:
-        mask = kwargs.get("mask", None)
-        if self.pooling == "token":
-            x = x[:, 0]
-            return x.sigmoid()
-        elif self.pooling == "mean":
-            if mask is not None:
-                m = (1.0 - mask.float()).unsqueeze(-1)  # 1.0 means is masked
-                x = torch.nan_to_num((x * m).sum(1) / m.sum(1))
-            else:
-                x = x.mean(1)
-            return x.sigmoid()
-        elif self.pooling == "logit":
-            if mask is not None:
-                m = (1.0 - mask.float()).unsqueeze(-1)  # 1.0 means is masked
-                x = torch.nan_to_num((x * m).sum(1) / m.sum(1))
-            else:
-                x = x.mean(1)
-            return x
-        elif self.pooling == "dm":
-            # Unpack using the frequency dimension, which is constant
-            b, _, d = x.shape
-            x = x.reshape(
-                b, -1, self.patch_embed.grid_size[0], d
-            )  # rearrange(x, "b (f t) d -> b f t d")
-            # First poolin frequency, then sigmoid the (B T D) output
-            x = (x.mean(1)).sigmoid()
-            return x.mean(1)
-        elif self.pooling is None:
-            return x
-        else:
-            return x.mean(1)
-    def _audiosample_to_mellength(self, lengths: torch.Tensor) -> torch.Tensor:
-        if self.center:
-            lengths = lengths + self.win_size
-        lengths = 1 + ((lengths - self.win_size) / self.hop_size).long()
-        return lengths
-    # Calculates the number of patches for a given length in audio-samples
-    # For example : torch.Tensor([16000]) will return 250 for Dasheng
-    def _audiosample_to_patchlength(self, lengths: torch.Tensor) -> torch.Tensor:
-        lengths = self._audiosample_to_mellength(lengths)
-        return self._frames_to_patchlength(lengths)
-    # Calcualtes the same as above but for a spectrogram input
-    # i.e., [100] will return 25 for Dasheng
-    def _frames_to_patchlength(self, lengths: torch.Tensor) -> torch.Tensor:
-        patch_stride = to_2tuple(self.patch_stride)
-        patch_size = to_2tuple(self.patch_size)
-        frequency_patch_size = self.n_mels // patch_stride[0]
-        time_patch_size = patch_stride[1]
-        time_window_size = patch_size[1]
-        number_of_tokens = (
-            torch.floor((lengths - time_window_size) / time_patch_size) + 1
-        ) * frequency_patch_size
-        if self.pooling == "token":
-            number_of_tokens += 1
-        return number_of_tokens
-    # Note that we use (... t f) -> (f t)  here, meaning that patches are ordered as:
-    # 0 4 -> 0 4 1 5 2 6 3 7
-    # 1 5
-    # 2 6
-    # 3 7
-    # This function does the  (t f) -> (f t) transform
-    def _reshape_mask_to_ft_format(self, mask: torch.Tensor) -> torch.Tensor:
-        n_freq_patches = self.n_mels // to_2tuple(self.patch_stride)[0]
-        mask = (
-            mask.reshape(-1, n_freq_patches)
-            .transpose(-2, -1)
-            .flatten(-2)
-            .reshape_as(mask)
-        )
-        return mask
-    def _to_binary_mask(self, lengths: torch.Tensor, max_length: int) -> torch.Tensor:
-        batch_size = len(lengths)
-        lengths = self._audiosample_to_patchlength(lengths)
-        idx = torch.arange(max_length, device=lengths.device)
-        idx = idx.repeat(batch_size).view(batch_size, max_length)
-        mask = (idx >= lengths.unsqueeze(-1)).bool()
-        return mask
     def _to_mask(self, lengths: torch.Tensor, max_length: int) -> torch.Tensor:
         batch_size = len(lengths)
         idx = torch.arange(max_length, device=lengths.device)
         idx = idx.repeat(batch_size).view(batch_size, max_length)
-        mask = (idx >= lengths.unsqueeze(-1)).bool()
         return mask
-    def _create_mask(self, x_length, audio_length_in_spec_frames: int):
-        max_length_in_patches = self._frames_to_patchlength(
-            torch.tensor(audio_length_in_spec_frames)
-        )
-        mask_1d = self._to_binary_mask(x_length, max_length=int(max_length_in_patches))
-        return mask_1d
     def forward(
-        self, x: torch.Tensor, x_length: Optional[torch.Tensor] = None
     ) -> torch.Tensor:
         x = self.front_end(x)
         target_length_in_patches = self.target_length // 4
@@ -547,109 +363,120 @@ class AudioTransformer(nn.Module):
         t = x.shape[-1]
         input_splits = x.split(target_length_in_patches, dim=-1)
-        mask = None  # Single mask
-        masks = [None for _ in range(len(input_splits))]
         if x_length is not None:
             assert len(x_length) == len(x), (
                 "batchsizes of input x and x_length need to be same"
             )
             assert x_length.ndim == 1, "Lengths are of size (B,)"
-            scaled_lengths = (
-                x_length / (self.hop_size * 4)
-            ).long()  # 40ms for all dasheng models
-            # Note that the mask is in (t f) format, but transformers here use (f t) format
-            mask = self._to_mask(
-                max_length=t,
-                lengths=scaled_lengths,
-            )
-            # Trim mask to only use valid "patches", since x.shape[-1] is based on the possibly padded input
-            masks = mask.split(target_length_in_patches, dim=-1)
         outputs = []
-        for split_x, mask in zip(input_splits, masks):
             forward_kwargs = {}
-            forward_kwargs["mask"] = mask
             split_x = self.forward_features(split_x, **forward_kwargs)
-            split_x = self.forward_head(split_x, **forward_kwargs)
             outputs.append(split_x)
         x = torch.cat(outputs, dim=1)
-        return x
-class LemonstoreWrapper(nn.Module):
-    def __init__(
-        self,
-        append_cls_token: bool = False,
-        **kwargs,
-    ):
         super().__init__()
-        self.append_cls_token = (
-            append_cls_token  # Pool all tokens to one as a "cls" token
         )
-        model_default_kwargs = {
-            "audiotransformer_huge.dasheng06b.10s": {
-                "embed_dim": 1280,
-                "depth": 32,
-                "num_heads": 16,
-                "pooling": "mean",
-                "drop_path_rate": 0.0,
-                "outputdim": 527,
-                "patch_size": [64, 4],
-                "patch_stride": [64, 4],
-                "target_length": 1008,
-            }
-        }
-        if "pretrained" in kwargs:
-            del kwargs["pretrained"]
-        create_kwargs = model_default_kwargs[kwargs.pop("model_name")]
-        create_kwargs.update(kwargs)
-        create_kwargs.update(
-            pooling=None,
-            eval_avg="cat",
-        )
-        self.model = AudioTransformer(**create_kwargs)
-        self.embed_dim = self.model.embed_dim
-    def _to_mask(self, lengths: torch.Tensor, max_length: int) -> torch.Tensor:
-        batch_size = len(lengths)
-        idx = torch.arange(max_length, device=lengths.device)
-        idx = idx.repeat(batch_size).view(batch_size, max_length)
-        mask = (idx < lengths.unsqueeze(-1)).long()
-        return mask
-    def _create_encoder_attention_mask(
-        self, model_output: torch.Tensor, input_lengths: torch.Tensor
-    ):
-        scaled_lengths = (
-            input_lengths / (self.model.hop_size * 4)
-        ).long()  # 40ms for all dasheng models
-        return self._to_mask(scaled_lengths, max_length=model_output.shape[1])
     def forward(
         self,
-        input: torch.Tensor,
-        input_length: Optional[torch.Tensor] = None,
-        return_attention_mask: bool = False,
-    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        emb = self.model(input, input_length)
-        # Outputs are added to multiple of 10s, remove the padded items
-        if input_length is not None:
-            input_length = input_length + self.model.n_fft
-            scaled_lengths = (
-                (1 + (input_length - self.model.n_fft) / self.model.hop_size) // 4
-            ).long()  # 40ms for all dasheng models
-            max_length = torch.max(scaled_lengths)
-            emb = emb[:, :max_length, :]
-        if self.append_cls_token:
-            emb = torch.cat([emb.mean(1, keepdims=True), emb], dim=1)
-        if return_attention_mask and input_length is not None:
-            return emb, self._create_encoder_attention_mask(emb, input_length)
-        return emb
 class DashengQwen25OmniModelInstruct(PreTrainedModel):
@@ -658,98 +485,53 @@ class DashengQwen25OmniModelInstruct(PreTrainedModel):
     def __init__(self, config: MiAudioLLMHFConfig):
         super().__init__(config)
-        audio_encoder = config.audio_encoder
-        audio_encoder_args = config.audio_encoder_args
-        text_model = config.text_model
-        text_model_args = config.text_model_args
         freeze = config.freeze
         lora = config.lora
         subsample_factor = config.subsample_factor
-        use_encoderattention_mask = config.use_encoderattention_mask
-        resize_tokenizer = True
-        force_fp32 = False
-        from transformers.models.qwen2_5_omni import (
-            Qwen2_5OmniProcessor,
-            Qwen2_5OmniThinkerForConditionalGeneration,
-        )
         self.subsample_factor = subsample_factor
         self.lora = lora
-        self.use_encoderattention_mask = use_encoderattention_mask
         # Encoder part
-        assert audio_encoder == "LemonstoreWrapper"
-        self.audio_encoder = LemonstoreWrapper(**audio_encoder_args)
         assert lora != "encoder"
-        # For some reason, torch.cuda.is_bf16_supported() does return True on V100
-        has_bf16support = torch.cuda.get_device_capability(torch.device("cuda"))[0] > 7
         # decoder
-        self.processor = Qwen2_5OmniProcessor.from_pretrained(text_model)
-        self.tokenizer = self.processor.tokenizer
-        self.decoder = Qwen2_5OmniThinkerForConditionalGeneration.from_pretrained(
-            text_model,
-            attn_implementation="sdpa",
-            torch_dtype=torch.bfloat16
-            if not force_fp32 and has_bf16support
-            else torch.float32,
-            **text_model_args,
-        )
-        del self.decoder.visual
-        del self.decoder.audio_tower
-        hidden_size_text = self.decoder.model.config.hidden_size
-        # Overwrite default ForCausalLMLoss, now also support reduction
-        special_tokens = [
-            "<|en|>",
-            "<|kr|>",
-            "<|de|>",
-            "<|es|>",
-            "<|fr|>",
-            "<|hi|>",
-            "<|uk|>",
-            "<|th|>",
-            "<|vi|>",
-            "<|nl|>",
-            "<|pt|>",
-            "<|id|>",
-            "<|ru|>",
-            "<|it|>",
-            "<|ar|>",
-            "<|jp|>",
-            "<|unknown|>",
-        ]
-        self.tokenizer.add_special_tokens({"additional_special_tokens": special_tokens})
-        if resize_tokenizer:
-            self.decoder.model.resize_token_embeddings(len(self.tokenizer))
         assert lora != "decoder"
         assert freeze is None
         # audio projector
         self.audio_projector = AudioProjectorSubsample(
-            self.audio_encoder.embed_dim, hidden_size_text, self.subsample_factor
         )
-    def _forward_audio_encoder(self, audios, audio_length: Iterable[int] | None):
-        encoder_out = self.audio_encoder(
-            audios, audio_length, return_attention_mask=self.use_encoderattention_mask
-        )
-        encoder_atts = None
-        if self.use_encoderattention_mask:
-            encoder_out, encoder_atts = encoder_out
         # audio projector
         encoder_out, encoder_atts = self.audio_projector(encoder_out, encoder_atts)
-        return encoder_out, encoder_atts
     def _prepare_with_input_ids(
-        self, input_ids: torch.Tensor, audio_embeddings, audio_token_id
-    ):
         special_mask = input_ids == audio_token_id
         assert audio_embeddings.shape[1] <= (special_mask.sum(-1)).max(), (
-            "Mask and audio embeddings seem to have different sizes"
         )
         input_embeddings = self.decoder.model.embed_tokens(input_ids)
         audio_embeddings = audio_embeddings.to(input_embeddings.dtype)
@@ -762,85 +544,104 @@ class DashengQwen25OmniModelInstruct(PreTrainedModel):
     def forward(
         self,
-        input_ids: Tensor,
-        input_values: Tensor,
-        audio_length: Iterable[int] | None,
-        return_loss: bool = False,
-        attention_mask: Tensor | None = None,
-        audio_token_id: int | None = None,
     ):
-        input_values = input_values.to(self.device)
-        audio_encoder_hidden_states, _ = self._forward_audio_encoder(
-            input_values, audio_length=audio_length
-        )
-        input_ids = input_ids.to(self.device)
-        input_embeds = self._prepare_with_input_ids(
-            input_ids=input_ids,
-            audio_embeddings=audio_encoder_hidden_states,
-            audio_token_id=audio_token_id,
-        )
-        input_mask = attention_mask
-        decoder_targets = torch.nn.functional.pad(input_ids[:, 1:], (0, 1), value=-100)
-        decoder_output = self.decoder(
             input_ids=None,
-            inputs_embeds=input_embeds,
-            attention_mask=input_mask,
-            labels=decoder_targets,
-            return_dict=True,
         )
-        if return_loss:
-            return decoder_output.loss
-        return decoder_output.logits
     def generate(
         self,
-        input_ids: Tensor,
-        input_values: Tensor,
-        audio_length: Iterable[int] | None,
-        use_nucleus_sampling=False,
-        max_length=1024,
-        top_p=1.0,
-        top_k: int = 50,
-        temperature: float = 1.0,
-        repetition_penalty=1.0,
-        return_text=True,
-        # The following are only used by HF
-        attention_mask: Tensor | None = None,
-        audio_token_id: int | None = None,
     ):
-        encoder_hidden_states, encoder_atts = self._forward_audio_encoder(
-            input_values, audio_length=audio_length
-        )
-        input_ids = input_ids.to(self.device)
-        input_embeds = self._prepare_with_input_ids(
-            input_ids=input_ids,
-            audio_embeddings=encoder_hidden_states,
-            audio_token_id=audio_token_id,
-        )
-        input_mask = attention_mask
-        outputs = self.decoder.generate(
-            inputs_embeds=input_embeds,
-            attention_mask=input_mask,
-            do_sample=use_nucleus_sampling,
-            max_new_tokens=max_length,
-            top_p=top_p,
-            top_k=top_k,
-            temperature=temperature,
-            repetition_penalty=repetition_penalty,
-            eos_token_id=[self.tokenizer.pad_token_id, self.tokenizer.eos_token_id],
-            pad_token_id=self.tokenizer.pad_token_id,
-        )
-        if not return_text:
-            return outputs
-        texts = self.tokenizer.batch_decode(
-            outputs,
-            add_special_tokens=False,
-            skip_special_tokens=True,
-            clean_up_tokenization_spaces=True,
         )
-        return texts

 import collections.abc
+from dataclasses import dataclass
 from functools import partial
+from typing import Any, Callable, Iterable, List, Optional, Tuple, Type, Union
 import torch
 import torch.nn as nn
 import torchaudio.transforms as audio_transforms
 from torch import Tensor
+from transformers import GenerationMixin, PreTrainedModel
+from transformers.modeling_outputs import BaseModelOutputWithPast, ModelOutput
+from transformers.models.qwen2_5_omni.configuration_qwen2_5_omni import (
+    Qwen2_5OmniTextConfig,
+)
+from transformers.models.qwen2_5_omni.modeling_qwen2_5_omni import (
+    Qwen2_5OmniThinkerTextModel,
+)
+from .configuration_midashenglm import DashengConfig, MiAudioLLMHFConfig
 # The functions `drop_path` and the module `DropPath` are taken from timm
         in_features: int,
         hidden_features: Optional[int] = None,
         out_features: Optional[int] = None,
+        act_layer: Type[nn.Module] = nn.GELU,
         drop: float = 0.0,
     ):
         super().__init__()
         qkv_bias: bool = False,
         drop: float = 0.0,
         attn_drop: float = 0.0,
+        init_values: float | None = None,
         drop_path: float = 0.0,
+        act_layer: Type[nn.Module] = nn.GELU,
+        norm_layer: Type[nn.Module] = nn.LayerNorm,
+        attention_type: Type[nn.Module] = Attention,
     ):
         super().__init__()
         self.norm1 = norm_layer(dim)
         return x
+# TODO
 class RearranceReplace(nn.Module):
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         # rearrange(x, "b c f t -> b f c t")
 class AudioTransformer(nn.Module):
     def __init__(
         self,
+        config: DashengConfig,
     ):
         super().__init__()
+        self.target_length = config.target_length
+        self.embed_dim = config.embed_dim
+        self.hop_length = config.hop_length
         self.front_end = nn.Sequential(
             audio_transforms.MelSpectrogram(
+                f_min=config.f_min,
+                f_max=config.f_max,
+                center=config.center,
+                win_length=config.win_length,
+                hop_length=config.hop_length,
+                sample_rate=config.sample_rate,
+                n_fft=config.n_fft,
+                n_mels=config.n_mels,
             ),
             audio_transforms.AmplitudeToDB(top_db=120),
         )
         self.init_bn = nn.Sequential(
             # Rearrange("b c f t -> b f c t"),
             RearranceReplace(),
+            nn.BatchNorm2d(config.n_mels, momentum=0.01),
             # Rearrange("b f c t -> b c f t"),
             RearranceReplace(),
         )
         self.patch_embed = AudioPatchEmbed(
+            input_size=(config.n_mels, config.target_length),
+            embed_dim=config.embed_dim,
+            in_chans=config.input_channels,
+            patch_size=config.patch_size,
             flatten=False,
+            patch_stride=config.patch_stride,
         )
         self.time_pos_embed = nn.Parameter(
+            torch.randn(1, config.embed_dim, 1, self.patch_embed.grid_size[1]) * 0.02
         )
         self.freq_pos_embed = nn.Parameter(
+            torch.randn(1, config.embed_dim, self.patch_embed.grid_size[0], 1) * 0.02
         )
+        norm_layer = partial(nn.LayerNorm, eps=1e-6)
         dpr = [
+            x.item() for x in torch.linspace(0, config.drop_path_rate, config.depth)
         ]  # stochastic depth decay rule
+        self.pos_drop = nn.Dropout(p=config.drop_rate)
         self.blocks = nn.ModuleList(
+            Block(
+                dim=config.embed_dim,
+                num_heads=config.num_heads,
+                mlp_ratio=config.mlp_ratio,
+                qkv_bias=config.qkv_bias,
+                init_values=config.init_values,
+                drop=config.drop_rate,
+                attn_drop=config.attn_drop_rate,
                 drop_path=dpr[i],
                 norm_layer=norm_layer,
             )
+            for i in range(config.depth)
         )
+        self.norm = norm_layer(config.embed_dim)
     def forward_features(self, x: torch.Tensor, **kwargs) -> torch.Tensor:
         t = x.shape[-1]
         x = torch.permute(
             torch.flatten(x, 2, 3), (0, 2, 1)
         )  # rearrange(x, "b c f t -> b (f t) c")
         x = self.pos_drop(x)
         for block in self.blocks:
             x = block(x, **kwargs)
         x = self.norm(x)
         return x
     def _to_mask(self, lengths: torch.Tensor, max_length: int) -> torch.Tensor:
         batch_size = len(lengths)
         idx = torch.arange(max_length, device=lengths.device)
         idx = idx.repeat(batch_size).view(batch_size, max_length)
+        mask = (idx < lengths.unsqueeze(-1)).bool()
         return mask
     def forward(
+        self,
+        x: torch.Tensor,
+        x_length: Optional[torch.Tensor] = None,
     ) -> torch.Tensor:
         x = self.front_end(x)
         target_length_in_patches = self.target_length // 4
         t = x.shape[-1]
         input_splits = x.split(target_length_in_patches, dim=-1)
         if x_length is not None:
             assert len(x_length) == len(x), (
                 "batchsizes of input x and x_length need to be same"
             )
             assert x_length.ndim == 1, "Lengths are of size (B,)"
+            scaled_lengths = (x_length / (self.hop_length * 4)).long()
+            mask = self._to_mask(max_length=t, lengths=scaled_lengths)
+            split_masks = mask.logical_not().split(target_length_in_patches, dim=-1)
+        else:
+            mask = None
+            split_masks = [None] * len(input_splits)
         outputs = []
+        for split_x, split_mask in zip(input_splits, split_masks):
             forward_kwargs = {}
+            forward_kwargs["mask"] = split_mask
             split_x = self.forward_features(split_x, **forward_kwargs)
             outputs.append(split_x)
         x = torch.cat(outputs, dim=1)
+        return x, mask
+class AudioProjectorSubsample(nn.Module):
+    def __init__(self, in_dim: int, out_dim: int, downsample_rate=5):
         super().__init__()
+        self.k = downsample_rate
+        self.net = nn.Sequential(
+            nn.Linear(in_dim * self.k, out_dim),
+            nn.GELU(),
+            nn.Linear(out_dim, out_dim),
         )
+    def forward(self, x, mask=None):
+        batch_size, seq_len, dim = x.shape
+        num_frames_to_discard = seq_len % self.k
+        if num_frames_to_discard > 0:
+            x = x[:, :-num_frames_to_discard, :]
+            if mask is not None:
+                mask = mask[:, :-num_frames_to_discard]
+        if mask is None:
+            mask = torch.ones(x.shape[:-1], dtype=torch.long, device=x.device)
+        x = x.reshape(
+            batch_size, -1, self.k * dim
+        )  # rearrange(x, "b (s k) d -> b s (k d)", k=self.k)
+        x = self.net(x)
+        mask = mask.reshape(
+            batch_size, -1, self.k
+        )  # rearrange(mask, "b (s k) -> b s k", k=self.k)
+        mask = mask.any(dim=-1).long()
+        return x, mask
+@dataclass
+class DashengQwen25OmniModelInstructOutput(ModelOutput):
+    logits: torch.FloatTensor = None
+    past_key_values: Optional[List[torch.FloatTensor]] = None
+    hidden_states: Optional[Tuple[torch.FloatTensor]] = None
+    attentions: Optional[Tuple[torch.FloatTensor]] = None
+class Decoder(PreTrainedModel, GenerationMixin):
+    config_class = Qwen2_5OmniTextConfig
+    def __init__(self, config: Qwen2_5OmniTextConfig):
+        super().__init__(config)
+        self.model = Qwen2_5OmniThinkerTextModel._from_config(
+            config,
+            attn_implementation="sdpa",  # TODO
+        )
+        self.lm_head = nn.Linear(
+            config.hidden_size,
+            config.vocab_size,
+            bias=False,
+        )
+        # TODO fix dtype
+        self.lm_head.weight.data = self.lm_head.weight.data.to(
+            self.model.embed_tokens.weight.dtype
+        )
+        # TODO tie weight?
+        self.post_init()
     def forward(
         self,
+        return_dict: Optional[bool] = None,
+        **kwargs: Any,
+    ) -> DashengQwen25OmniModelInstructOutput:
+        outputs: BaseModelOutputWithPast = self.model(
+            return_dict=True,
+            **kwargs,
+        )
+        hidden_states = outputs.last_hidden_state
+        logits = self.lm_head(hidden_states)
+        if not return_dict:
+            return tuple(
+                v
+                for v in [
+                    logits,
+                    outputs.last_hidden_state,
+                    outputs.past_key_values,
+                    outputs.hidden_states,
+                    outputs.attentions,
+                ]
+                if v is not None
+            )
+        return DashengQwen25OmniModelInstructOutput(
+            logits=logits,
+            past_key_values=outputs.past_key_values,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )
 class DashengQwen25OmniModelInstruct(PreTrainedModel):
     def __init__(self, config: MiAudioLLMHFConfig):
         super().__init__(config)
         freeze = config.freeze
         lora = config.lora
         subsample_factor = config.subsample_factor
         self.subsample_factor = subsample_factor
         self.lora = lora
         # Encoder part
+        self.audio_encoder = AudioTransformer(config.audio_encoder_config)
         assert lora != "encoder"
         # decoder
+        self.decoder = Decoder(config.text_model_config)
         assert lora != "decoder"
         assert freeze is None
         # audio projector
         self.audio_projector = AudioProjectorSubsample(
+            self.audio_encoder.embed_dim,
+            config.text_model_config.hidden_size,
+            self.subsample_factor,
         )
+        self.post_init()
+    def _forward_audio_encoder(
+        self,
+        audios: torch.Tensor,
+        audio_length: Optional[Iterable[int]],
+    ) -> torch.Tensor:
+        encoder_out, encoder_atts = self.audio_encoder(audios, audio_length)
         # audio projector
         encoder_out, encoder_atts = self.audio_projector(encoder_out, encoder_atts)
+        return encoder_out
     def _prepare_with_input_ids(
+        self,
+        input_ids: torch.Tensor,
+        audio_embeddings: torch.Tensor,
+        audio_token_id: int,
+    ) -> torch.Tensor:
         special_mask = input_ids == audio_token_id
         assert audio_embeddings.shape[1] <= (special_mask.sum(-1)).max(), (
+            "Mask and audio embeddings seem to have different sizes: "
+            f"{audio_embeddings.shape=}, {special_mask=}, {input_ids=}, "
+            f"{audio_embeddings.shape[1]=} vs {(special_mask.sum(-1)).max()=}"
         )
         input_embeddings = self.decoder.model.embed_tokens(input_ids)
         audio_embeddings = audio_embeddings.to(input_embeddings.dtype)
     def forward(
         self,
+        input_ids: Optional[Tensor] = None,
+        input_values: Optional[Tensor] = None,
+        inputs_embeds: Optional[Tensor] = None,
+        audio_length: Optional[Iterable[int]] = None,
+        attention_mask: Optional[Tensor] = None,
+        audio_token_id: Optional[int] = None,
+        **kwargs: Any,
     ):
+        if input_ids is not None:
+            if inputs_embeds is not None:
+                raise ValueError(
+                    "Both `inputs_embeds` and `input_ids` are passed. Please pass only one of them."
+                )
+            if input_values is not None:
+                input_values = input_values.to(self.device)
+                audio_encoder_hidden_states = self._forward_audio_encoder(
+                    input_values, audio_length=audio_length
+                )
+            else:
+                batch, _ = input_ids.shape
+                input_values = torch.zeros(
+                    batch,
+                    0,
+                    self.audio_encoder.embed_dim,
+                    device=input_ids.device,
+                )
+            input_ids = input_ids.to(self.device)
+            inputs_embeds = self._prepare_with_input_ids(
+                input_ids=input_ids,
+                audio_embeddings=audio_encoder_hidden_states,
+                audio_token_id=audio_token_id,
+            )
+        else:
+            if inputs_embeds is None:
+                raise ValueError(
+                    "Either `input_ids` or `inputs_embeds` must be passed."
+                )
+            if input_values is not None:
+                raise ValueError(
+                    "Cannot pass `input_values` when `inputs_embeds` is provided."
+                )
+        return self.decoder(
             input_ids=None,
+            inputs_embeds=inputs_embeds,
+            attention_mask=attention_mask,
+            **kwargs,
         )
     def generate(
         self,
+        input_ids: Optional[Tensor] = None,
+        input_values: Optional[Tensor] = None,
+        inputs_embeds: Optional[Tensor] = None,
+        audio_length: Optional[Iterable[int]] = None,
+        audio_token_id: Optional[int] = None,
+        **kwargs,
     ):
+        if input_ids is not None:
+            if inputs_embeds is not None:
+                raise ValueError(
+                    "Both `inputs_embeds` and `input_ids` are passed. Please pass only one of them."
+                )
+            if input_values is not None:
+                input_values = input_values.to(self.device)
+                audio_encoder_hidden_states = self._forward_audio_encoder(
+                    input_values, audio_length=audio_length
+                )
+            else:
+                batch, _ = input_ids.shape
+                input_values = torch.zeros(
+                    batch,
+                    0,
+                    self.audio_encoder.embed_dim,
+                    device=input_ids.device,
+                )
+            input_ids = input_ids.to(self.device)
+            inputs_embeds = self._prepare_with_input_ids(
+                input_ids=input_ids,
+                audio_embeddings=audio_encoder_hidden_states,
+                audio_token_id=audio_token_id,
+            )
+        else:
+            if inputs_embeds is None:
+                raise ValueError(
+                    "Either `input_ids` or `inputs_embeds` must be passed."
+                )
+            if input_values is not None:
+                raise ValueError(
+                    "Cannot pass `input_values` when `inputs_embeds` is provided."
+                )
+        return self.decoder.generate(
+            inputs_embeds=inputs_embeds,
+            generation_config=kwargs.pop("generation_config", self.generation_config),
+            **kwargs,
         )