Model save

Browse files

Files changed (6) hide show

README.md +84 -0
generation_config.json +6 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +565 -0

README.md ADDED Viewed

	@@ -0,0 +1,84 @@

+---
+license: apache-2.0
+base_model: google/mt5-xl
+tags:
+- generated_from_trainer
+metrics:
+- bleu
+model-index:
+- name: mt5-full-v6.1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# mt5-full-v6.1
+This model is a fine-tuned version of [google/mt5-xl](https://huggingface.co/google/mt5-xl) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.8710
+- Bleu: 8.1488
+- Gen Len: 18.9785
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 3435
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 4
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3
+### Training results
+| Training Loss | Epoch | Step   | Bleu   | Gen Len | Validation Loss |
+|:-------------:|:-----:|:------:|:------:|:-------:|:---------------:|
+| 1.5671        | 0.14  | 5000   | 6.5196 | 18.9699 | 1.1691          |
+| 1.2277        | 0.28  | 10000  | 7.082  | 18.9724 | 1.0592          |
+| 1.1316        | 0.42  | 15000  | 7.3283 | 18.9825 | 1.0112          |
+| 1.0833        | 0.56  | 20000  | 7.4462 | 18.977  | 0.9728          |
+| 1.0339        | 0.7   | 25000  | 8.0126 | 18.982  | 0.9546          |
+| 1.025         | 0.83  | 30000  | 7.7648 | 18.9805 | 0.9337          |
+| 0.9733        | 0.97  | 35000  | 7.9496 | 18.9815 | 0.9228          |
+| 0.9035        | 1.11  | 40000  | 7.689  | 18.9795 | 0.9162          |
+| 0.9386        | 1.25  | 45000  | 7.6781 | 18.9825 | 0.9039          |
+| 0.9073        | 1.39  | 50000  | 7.8607 | 18.9805 | 0.8986          |
+| 0.8928        | 1.53  | 55000  | 8.0666 | 18.981  | 0.8942          |
+| 0.884         | 1.67  | 60000  | 8.1679 | 18.9785 | 0.8874          |
+| 0.8786        | 1.81  | 65000  | 7.8516 | 18.9805 | 0.8831          |
+| 0.8899        | 1.95  | 70000  | 0.8789 | 7.9392  | 18.9785         |
+| 0.8638        | 2.09  | 75000  | 0.8781 | 8.1623  | 18.979          |
+| 0.8293        | 2.22  | 80000  | 0.8752 | 8.0989  | 18.98           |
+| 0.8625        | 2.36  | 85000  | 0.8743 | 8.176   | 18.979          |
+| 0.8605        | 2.5   | 90000  | 0.8721 | 8.0117  | 18.9805         |
+| 0.8479        | 2.64  | 95000  | 0.8711 | 8.1008  | 18.978          |
+| 0.8391        | 2.78  | 100000 | 0.8708 | 8.2041  | 18.9795         |
+| 0.8649        | 2.92  | 105000 | 0.8710 | 8.1488  | 18.9785         |
+### Framework versions
+- Transformers 4.37.1
+- Pytorch 2.1.2+cu121
+- Datasets 2.16.1
+- Tokenizers 0.15.1

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.37.1"
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c234147629e1d98e973c104c9ae2831f919e8a38aded4b4c61c3411c4b378631
+size 4993585936

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85e79bfa7c99aeb9b1227b4a97d611315235fd4c3d4b90e1a236756fc879ce76
+size 4983336088

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c51fdd1633f0c8b6ff728d4ac7d5ae786393a9033afa19a4214e6704ed922697
+size 4993625240

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,565 @@

+{
+  "metadata": {
+    "total_size": 14970478592
+  },
+  "weight_map": {
+    "decoder.block.0.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.0.SelfAttention.relative_attention_bias.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.0.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.1.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.10.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.11.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.12.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.12.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.12.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.2.DenseReluDense.wi_0.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.13.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.2.DenseReluDense.wi_0.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.14.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.2.DenseReluDense.wi_0.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.15.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.2.DenseReluDense.wi_0.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.16.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.2.DenseReluDense.wi_0.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.17.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.2.DenseReluDense.wi_0.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.18.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.2.DenseReluDense.wi_0.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.19.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.2.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.2.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.20.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.2.DenseReluDense.wi_0.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.20.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.2.DenseReluDense.wi_0.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.21.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.2.DenseReluDense.wi_0.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.22.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.0.SelfAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.0.SelfAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.0.SelfAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.0.SelfAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.0.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.1.EncDecAttention.k.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.1.EncDecAttention.o.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.1.EncDecAttention.q.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.1.EncDecAttention.v.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.1.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.2.DenseReluDense.wi_0.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.2.DenseReluDense.wi_1.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.2.DenseReluDense.wo.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.23.layer.2.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "decoder.block.3.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.3.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.4.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.5.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.6.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.7.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.8.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.1.EncDecAttention.k.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.1.EncDecAttention.o.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.1.EncDecAttention.q.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.1.EncDecAttention.v.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.2.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.2.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.2.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "decoder.block.9.layer.2.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "decoder.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.block.0.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.0.SelfAttention.relative_attention_bias.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.0.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.1.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.10.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.11.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.12.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.13.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.14.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.15.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.15.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.15.layer.1.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.15.layer.1.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.15.layer.1.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.15.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.16.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.16.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.16.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.16.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.16.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.16.layer.1.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.16.layer.1.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.16.layer.1.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.16.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.17.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.17.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.17.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.17.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.17.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.17.layer.1.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.17.layer.1.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.17.layer.1.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.17.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.18.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.18.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.18.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.18.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.18.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.18.layer.1.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.18.layer.1.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.18.layer.1.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.18.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.19.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.19.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.19.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.19.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.19.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.19.layer.1.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.19.layer.1.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.19.layer.1.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.19.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.2.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.2.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.20.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.20.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.20.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.20.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.20.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.20.layer.1.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.20.layer.1.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.20.layer.1.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.20.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.21.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.21.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.21.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.21.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.21.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.21.layer.1.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.21.layer.1.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.21.layer.1.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.21.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.22.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.22.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.22.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.22.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.22.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.22.layer.1.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.22.layer.1.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.22.layer.1.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.22.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.23.layer.0.SelfAttention.k.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.23.layer.0.SelfAttention.o.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.23.layer.0.SelfAttention.q.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.23.layer.0.SelfAttention.v.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.23.layer.0.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.23.layer.1.DenseReluDense.wi_0.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.23.layer.1.DenseReluDense.wi_1.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.23.layer.1.DenseReluDense.wo.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.23.layer.1.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.block.3.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.3.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.4.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.5.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.6.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.7.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.8.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.0.SelfAttention.k.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.0.SelfAttention.o.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.0.SelfAttention.q.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.0.SelfAttention.v.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.1.DenseReluDense.wi_0.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.1.DenseReluDense.wi_1.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.1.DenseReluDense.wo.weight": "model-00001-of-00003.safetensors",
+    "encoder.block.9.layer.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "encoder.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "shared.weight": "model-00001-of-00003.safetensors"
+  }
+}