hf-version (#1)

Browse files

- upload files (d89859e94175d34e3c274ded92413a925c4c9722)

Co-authored-by: Anton Vlasjuk <[email protected]>

Files changed (9) hide show

audio_tokenizer_config.json +4 -0
config.json +59 -47
generation_config.json +12 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +342 -0
preprocessor_config.json +7 -4
special_tokens_map.json +16 -0
tokenizer_config.json +36 -0

audio_tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "audio_tokenizer_class": "DacModel",
+  "audio_tokenizer_name_or_path": "descript/dac_44khz"
+}

config.json CHANGED Viewed

@@ -1,50 +1,62 @@
 {
-  "data": {
-    "audio_bos_value": 1026,
-    "audio_eos_value": 1024,
-    "audio_length": 3072,
-    "audio_pad_value": 1025,
-    "channels": 9,
-    "delay_pattern": [
-      0,
-      8,
-      9,
-      10,
-      11,
-      12,
-      13,
-      14,
-      15
-    ],
-    "text_length": 1024,
-    "text_pad_value": 0
   },
-  "model": {
-    "decoder": {
-      "cross_head_dim": 128,
-      "cross_query_heads": 16,
-      "gqa_head_dim": 128,
-      "gqa_query_heads": 16,
-      "kv_heads": 4,
-      "n_embd": 2048,
-      "n_hidden": 8192,
-      "n_layer": 18
-    },
-    "dropout": 0.0,
-    "encoder": {
-      "head_dim": 128,
-      "n_embd": 1024,
-      "n_head": 16,
-      "n_hidden": 4096,
-      "n_layer": 12
-    },
-    "normalization_layer_epsilon": 1e-05,
-    "rope_max_timescale": 10000,
-    "rope_min_timescale": 1,
-    "src_vocab_size": 256,
-    "tgt_vocab_size": 1028,
-    "weight_dtype": "float32"
   },
-  "training": {},
-  "version": "0.1"
-}

 {
+  "architectures": [
+    "DiaForConditionalGeneration"
+  ],
+  "bos_token_id": 1026,
+  "decoder_config": {
+    "cross_head_dim": 128,
+    "cross_hidden_size": 1024,
+    "cross_num_attention_heads": 16,
+    "cross_num_key_value_heads": 16,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 2048,
+    "initializer_range": 0.02,
+    "intermediate_size": 8192,
+    "max_position_embeddings": 3072,
+    "model_type": "dia_decoder",
+    "norm_eps": 1e-05,
+    "num_attention_heads": 16,
+    "num_channels": 9,
+    "num_hidden_layers": 18,
+    "num_key_value_heads": 4,
+    "rope_scaling": null,
+    "rope_theta": 10000.0,
+    "vocab_size": 1028
   },
+  "delay_pattern": [
+    0,
+    8,
+    9,
+    10,
+    11,
+    12,
+    13,
+    14,
+    15
+  ],
+  "encoder_config": {
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 1024,
+    "initializer_range": 0.02,
+    "intermediate_size": 4096,
+    "max_position_embeddings": 1024,
+    "model_type": "dia_encoder",
+    "norm_eps": 1e-05,
+    "num_attention_heads": 16,
+    "num_hidden_layers": 12,
+    "num_key_value_heads": 16,
+    "rope_scaling": null,
+    "rope_theta": 10000.0,
+    "vocab_size": 256
   },
+  "eos_token_id": 1024,
+  "initializer_range": 0.02,
+  "is_encoder_decoder": true,
+  "model_type": "dia",
+  "norm_eps": 1e-05,
+  "pad_token_id": 1025,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.0.dev0"
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token_id": 1026,
+  "do_sample": true,
+  "eos_token_id": 1024,
+  "guidance_scale": 3.0,
+  "max_length": 3072,
+  "pad_token_id": 1025,
+  "temperature": 1.2,
+  "top_k": 45,
+  "top_p": 0.95,
+  "transformers_version": "4.53.0.dev0"
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9cf8f82d9f87d408f5da9cc0d73a3e9c4d9ca3633a4df3be4d283277b7ff1b1a
+size 4993046400

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54bf3a47ac13e28ba6193659d57bc63a46875685b211b071f782c32efc834343
+size 1451637544

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,342 @@

+{
+  "metadata": {
+    "total_size": 6444642304
+  },
+  "weight_map": {
+    "logits_dense.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.embeddings.embed.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.0.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.1.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.10.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.11.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.12.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.13.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.13.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.13.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.14.cross_attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.cross_attention.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.cross_attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.cross_attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.pre_ca_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.pre_mlp_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.pre_sa_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.self_attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.self_attention.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.self_attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.14.self_attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.cross_attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.cross_attention.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.cross_attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.cross_attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.pre_ca_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.pre_mlp_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.pre_sa_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.self_attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.self_attention.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.self_attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.15.self_attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.cross_attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.cross_attention.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.cross_attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.cross_attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.pre_ca_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.pre_mlp_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.pre_sa_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.self_attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.self_attention.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.self_attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.16.self_attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.cross_attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.cross_attention.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.cross_attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.cross_attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.pre_ca_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.pre_mlp_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.pre_sa_norm.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.self_attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.self_attention.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.self_attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.17.self_attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.decoder.layers.2.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.2.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.3.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.4.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.5.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.6.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.7.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.8.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.cross_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.cross_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.cross_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.cross_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.pre_ca_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.pre_mlp_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.layers.9.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.decoder.norm.weight": "model-00002-of-00002.safetensors",
+    "model.encoder.embedding.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.0.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.0.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.0.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.0.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.0.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.0.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.1.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.1.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.1.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.1.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.1.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.1.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.10.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.10.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.10.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.10.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.10.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.10.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.11.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.11.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.11.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.11.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.11.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.11.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.2.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.2.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.2.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.2.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.2.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.2.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.3.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.3.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.3.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.3.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.3.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.3.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.4.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.4.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.4.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.4.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.4.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.4.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.5.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.5.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.5.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.5.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.5.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.5.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.6.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.6.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.6.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.6.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.6.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.6.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.7.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.7.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.7.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.7.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.7.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.7.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.8.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.8.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.8.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.8.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.8.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.8.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.9.post_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.9.pre_sa_norm.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.9.self_attention.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.9.self_attention.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.9.self_attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.layers.9.self_attention.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.encoder.norm.weight": "model-00001-of-00002.safetensors"
+  }
+}

preprocessor_config.json CHANGED Viewed

@@ -1,7 +1,10 @@
 {
-  "feature_extractor_type": "DacFeatureExtractor",
   "processor_class": "DiaProcessor",
-  "audio_eos_value": 1024,
-  "audio_pad_value": 1025,
-  "audio_bos_value": 1026
 }

 {
+  "feature_extractor_type": "DiaFeatureExtractor",
+  "feature_size": 1,
+  "hop_length": 512,
+  "padding_side": "right",
+  "padding_value": 0.0,
   "processor_class": "DiaProcessor",
+  "return_attention_mask": true,
+  "sampling_rate": 44100
 }

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[S1]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "2": {
+      "content": "[S2]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "extra_special_tokens": {},
+  "max_length": 1024,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "processor_class": "DiaProcessor",
+  "tokenizer_class": "DiaTokenizer",
+  "unk_token": "<pad>"
+}