LangAGI-Lab
/

qwen-7b-fsdp-magpie-reasoning-v1-20k-math-verifiable-verification-only-epoch-5-checkpoint324

hyungjoochae commited on Apr 10

Commit

a324b7c

verified ·

1 Parent(s): 05e5e68

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

.gitattributes +1 -0
added_tokens.json +24 -0
config.json +28 -0
generation_config.json +14 -0
merges.txt +0 -0
model-00001-of-00007.safetensors +3 -0
model-00002-of-00007.safetensors +3 -0
model-00003-of-00007.safetensors +3 -0
model-00004-of-00007.safetensors +3 -0
model-00005-of-00007.safetensors +3 -0
model-00006-of-00007.safetensors +3 -0
model-00007-of-00007.safetensors +3 -0
model.safetensors.index.json +346 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +208 -0
trainer_state.json +2453 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "Qwen/Qwen2.5-7B-Instruct",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.1",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151665
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.48.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:897a8af3da257bc3272afe8a1d80ca139bd03267bd8ba81e50b7df74d3cf8e8d
+size 4970967152

model-00002-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c487fdf8e46ad08db3052dab7e4a2cffd3cbc2c3a28015c79758282278bbf0b0
+size 4778622352

model-00003-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5460daf66d285dc862d6fe7badccb1be3a6ab7596f0b15015607b12f1ab516bb
+size 4932743960

model-00004-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a42aabcf35c1ae6ae730d581203a9084b8b806c69fcd341ec52c94d617264934
+size 4932743992

model-00005-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b233186010f19413b2b693cdd37590f4e6043612ccade0a4f403e8380586eaf
+size 4998852296

model-00006-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2394fd281a1bdb238f74662a42d625857208b74818910df3970899f290ebdd8a
+size 3662865184

model-00007-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c974380e22c2e302ec60c68960b8d79c9e9d8ab39e044bf5ccce527caf365f89
+size 2174269568

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 30451025920
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00006-of-00007.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2453 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.503496503496503,
+  "eval_steps": 18,
+  "global_step": 324,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013986013986013986,
+      "grad_norm": 6.746792793273926,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.8294,
+      "step": 1
+    },
+    {
+      "epoch": 0.013986013986013986,
+      "eval_loss": 0.8744672536849976,
+      "eval_runtime": 36.967,
+      "eval_samples_per_second": 17.367,
+      "eval_steps_per_second": 2.191,
+      "step": 1
+    },
+    {
+      "epoch": 0.027972027972027972,
+      "grad_norm": 6.9825944900512695,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 0.8694,
+      "step": 2
+    },
+    {
+      "epoch": 0.04195804195804196,
+      "grad_norm": 7.01480770111084,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.861,
+      "step": 3
+    },
+    {
+      "epoch": 0.055944055944055944,
+      "grad_norm": 7.156968593597412,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.9027,
+      "step": 4
+    },
+    {
+      "epoch": 0.06993006993006994,
+      "grad_norm": 6.0878005027771,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.8577,
+      "step": 5
+    },
+    {
+      "epoch": 0.08391608391608392,
+      "grad_norm": 5.853216648101807,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.8168,
+      "step": 6
+    },
+    {
+      "epoch": 0.0979020979020979,
+      "grad_norm": 4.9973978996276855,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.788,
+      "step": 7
+    },
+    {
+      "epoch": 0.11188811188811189,
+      "grad_norm": 4.611128330230713,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.7959,
+      "step": 8
+    },
+    {
+      "epoch": 0.1258741258741259,
+      "grad_norm": 3.1312103271484375,
+      "learning_rate": 3e-06,
+      "loss": 0.7374,
+      "step": 9
+    },
+    {
+      "epoch": 0.13986013986013987,
+      "grad_norm": 2.9217381477355957,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.7329,
+      "step": 10
+    },
+    {
+      "epoch": 0.15384615384615385,
+      "grad_norm": 2.5225424766540527,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.6905,
+      "step": 11
+    },
+    {
+      "epoch": 0.16783216783216784,
+      "grad_norm": 2.8658440113067627,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.702,
+      "step": 12
+    },
+    {
+      "epoch": 0.18181818181818182,
+      "grad_norm": 2.6459388732910156,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 0.6659,
+      "step": 13
+    },
+    {
+      "epoch": 0.1958041958041958,
+      "grad_norm": 2.4082329273223877,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.6732,
+      "step": 14
+    },
+    {
+      "epoch": 0.2097902097902098,
+      "grad_norm": 1.8969792127609253,
+      "learning_rate": 5e-06,
+      "loss": 0.626,
+      "step": 15
+    },
+    {
+      "epoch": 0.22377622377622378,
+      "grad_norm": 1.705984354019165,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.6357,
+      "step": 16
+    },
+    {
+      "epoch": 0.23776223776223776,
+      "grad_norm": 1.5265748500823975,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 0.6409,
+      "step": 17
+    },
+    {
+      "epoch": 0.2517482517482518,
+      "grad_norm": 1.3590223789215088,
+      "learning_rate": 6e-06,
+      "loss": 0.6128,
+      "step": 18
+    },
+    {
+      "epoch": 0.2517482517482518,
+      "eval_loss": 0.6171885132789612,
+      "eval_runtime": 35.4252,
+      "eval_samples_per_second": 18.123,
+      "eval_steps_per_second": 2.287,
+      "step": 18
+    },
+    {
+      "epoch": 0.26573426573426573,
+      "grad_norm": 1.3791933059692383,
+      "learning_rate": 6.333333333333333e-06,
+      "loss": 0.6181,
+      "step": 19
+    },
+    {
+      "epoch": 0.27972027972027974,
+      "grad_norm": 1.398863434791565,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.593,
+      "step": 20
+    },
+    {
+      "epoch": 0.2937062937062937,
+      "grad_norm": 1.1556097269058228,
+      "learning_rate": 7e-06,
+      "loss": 0.6274,
+      "step": 21
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "grad_norm": 1.094146728515625,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 0.6113,
+      "step": 22
+    },
+    {
+      "epoch": 0.32167832167832167,
+      "grad_norm": 1.2191824913024902,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 0.6111,
+      "step": 23
+    },
+    {
+      "epoch": 0.3356643356643357,
+      "grad_norm": 0.9371815323829651,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.5895,
+      "step": 24
+    },
+    {
+      "epoch": 0.34965034965034963,
+      "grad_norm": 0.8173602223396301,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.6083,
+      "step": 25
+    },
+    {
+      "epoch": 0.36363636363636365,
+      "grad_norm": 1.0984693765640259,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 0.6072,
+      "step": 26
+    },
+    {
+      "epoch": 0.3776223776223776,
+      "grad_norm": 1.0279648303985596,
+      "learning_rate": 9e-06,
+      "loss": 0.6001,
+      "step": 27
+    },
+    {
+      "epoch": 0.3916083916083916,
+      "grad_norm": 0.9129611253738403,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.5644,
+      "step": 28
+    },
+    {
+      "epoch": 0.40559440559440557,
+      "grad_norm": 0.832744300365448,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.5716,
+      "step": 29
+    },
+    {
+      "epoch": 0.4195804195804196,
+      "grad_norm": 0.8230701684951782,
+      "learning_rate": 1e-05,
+      "loss": 0.59,
+      "step": 30
+    },
+    {
+      "epoch": 0.43356643356643354,
+      "grad_norm": 0.8343638181686401,
+      "learning_rate": 9.999766401714795e-06,
+      "loss": 0.5876,
+      "step": 31
+    },
+    {
+      "epoch": 0.44755244755244755,
+      "grad_norm": 0.7421298623085022,
+      "learning_rate": 9.999065628686439e-06,
+      "loss": 0.5959,
+      "step": 32
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "grad_norm": 0.7471378445625305,
+      "learning_rate": 9.997897746394684e-06,
+      "loss": 0.5804,
+      "step": 33
+    },
+    {
+      "epoch": 0.4755244755244755,
+      "grad_norm": 0.8300222754478455,
+      "learning_rate": 9.996262863965651e-06,
+      "loss": 0.5726,
+      "step": 34
+    },
+    {
+      "epoch": 0.48951048951048953,
+      "grad_norm": 0.7753379940986633,
+      "learning_rate": 9.994161134161635e-06,
+      "loss": 0.6034,
+      "step": 35
+    },
+    {
+      "epoch": 0.5034965034965035,
+      "grad_norm": 0.8331146240234375,
+      "learning_rate": 9.991592753366822e-06,
+      "loss": 0.5953,
+      "step": 36
+    },
+    {
+      "epoch": 0.5034965034965035,
+      "eval_loss": 0.5805296897888184,
+      "eval_runtime": 35.0435,
+      "eval_samples_per_second": 18.32,
+      "eval_steps_per_second": 2.311,
+      "step": 36
+    },
+    {
+      "epoch": 0.5174825174825175,
+      "grad_norm": 0.7212592959403992,
+      "learning_rate": 9.988557961568956e-06,
+      "loss": 0.5639,
+      "step": 37
+    },
+    {
+      "epoch": 0.5314685314685315,
+      "grad_norm": 0.796295166015625,
+      "learning_rate": 9.985057042336898e-06,
+      "loss": 0.5771,
+      "step": 38
+    },
+    {
+      "epoch": 0.5454545454545454,
+      "grad_norm": 0.8607219457626343,
+      "learning_rate": 9.981090322794145e-06,
+      "loss": 0.5763,
+      "step": 39
+    },
+    {
+      "epoch": 0.5594405594405595,
+      "grad_norm": 0.861869215965271,
+      "learning_rate": 9.976658173588244e-06,
+      "loss": 0.5729,
+      "step": 40
+    },
+    {
+      "epoch": 0.5734265734265734,
+      "grad_norm": 0.7538414597511292,
+      "learning_rate": 9.97176100885618e-06,
+      "loss": 0.571,
+      "step": 41
+    },
+    {
+      "epoch": 0.5874125874125874,
+      "grad_norm": 0.7197255492210388,
+      "learning_rate": 9.966399286185666e-06,
+      "loss": 0.5421,
+      "step": 42
+    },
+    {
+      "epoch": 0.6013986013986014,
+      "grad_norm": 0.7522373199462891,
+      "learning_rate": 9.960573506572391e-06,
+      "loss": 0.5603,
+      "step": 43
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 0.8054993152618408,
+      "learning_rate": 9.954284214373204e-06,
+      "loss": 0.5723,
+      "step": 44
+    },
+    {
+      "epoch": 0.6293706293706294,
+      "grad_norm": 0.639057457447052,
+      "learning_rate": 9.947531997255256e-06,
+      "loss": 0.5483,
+      "step": 45
+    },
+    {
+      "epoch": 0.6433566433566433,
+      "grad_norm": 0.6742891073226929,
+      "learning_rate": 9.940317486141084e-06,
+      "loss": 0.5845,
+      "step": 46
+    },
+    {
+      "epoch": 0.6573426573426573,
+      "grad_norm": 0.6605424880981445,
+      "learning_rate": 9.932641355149655e-06,
+      "loss": 0.5639,
+      "step": 47
+    },
+    {
+      "epoch": 0.6713286713286714,
+      "grad_norm": 0.7080878019332886,
+      "learning_rate": 9.924504321533387e-06,
+      "loss": 0.5851,
+      "step": 48
+    },
+    {
+      "epoch": 0.6853146853146853,
+      "grad_norm": 0.6235523223876953,
+      "learning_rate": 9.915907145611117e-06,
+      "loss": 0.574,
+      "step": 49
+    },
+    {
+      "epoch": 0.6993006993006993,
+      "grad_norm": 0.6567375063896179,
+      "learning_rate": 9.906850630697068e-06,
+      "loss": 0.5705,
+      "step": 50
+    },
+    {
+      "epoch": 0.7132867132867133,
+      "grad_norm": 0.6011090278625488,
+      "learning_rate": 9.89733562302578e-06,
+      "loss": 0.574,
+      "step": 51
+    },
+    {
+      "epoch": 0.7272727272727273,
+      "grad_norm": 0.6043576002120972,
+      "learning_rate": 9.887363011673046e-06,
+      "loss": 0.5849,
+      "step": 52
+    },
+    {
+      "epoch": 0.7412587412587412,
+      "grad_norm": 0.7147118449211121,
+      "learning_rate": 9.876933728472826e-06,
+      "loss": 0.5584,
+      "step": 53
+    },
+    {
+      "epoch": 0.7552447552447552,
+      "grad_norm": 0.6480064392089844,
+      "learning_rate": 9.866048747930194e-06,
+      "loss": 0.5494,
+      "step": 54
+    },
+    {
+      "epoch": 0.7552447552447552,
+      "eval_loss": 0.5708758234977722,
+      "eval_runtime": 34.9921,
+      "eval_samples_per_second": 18.347,
+      "eval_steps_per_second": 2.315,
+      "step": 54
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 0.6563164591789246,
+      "learning_rate": 9.854709087130261e-06,
+      "loss": 0.5491,
+      "step": 55
+    },
+    {
+      "epoch": 0.7832167832167832,
+      "grad_norm": 0.6024691462516785,
+      "learning_rate": 9.842915805643156e-06,
+      "loss": 0.5589,
+      "step": 56
+    },
+    {
+      "epoch": 0.7972027972027972,
+      "grad_norm": 0.6186073422431946,
+      "learning_rate": 9.830670005425012e-06,
+      "loss": 0.5567,
+      "step": 57
+    },
+    {
+      "epoch": 0.8111888111888111,
+      "grad_norm": 0.6993715763092041,
+      "learning_rate": 9.817972830715003e-06,
+      "loss": 0.5534,
+      "step": 58
+    },
+    {
+      "epoch": 0.8251748251748252,
+      "grad_norm": 0.6327122449874878,
+      "learning_rate": 9.804825467928423e-06,
+      "loss": 0.5709,
+      "step": 59
+    },
+    {
+      "epoch": 0.8391608391608392,
+      "grad_norm": 0.6156756281852722,
+      "learning_rate": 9.791229145545832e-06,
+      "loss": 0.5445,
+      "step": 60
+    },
+    {
+      "epoch": 0.8531468531468531,
+      "grad_norm": 0.7704036235809326,
+      "learning_rate": 9.777185133998268e-06,
+      "loss": 0.5743,
+      "step": 61
+    },
+    {
+      "epoch": 0.8671328671328671,
+      "grad_norm": 0.5839553475379944,
+      "learning_rate": 9.76269474554854e-06,
+      "loss": 0.5536,
+      "step": 62
+    },
+    {
+      "epoch": 0.8811188811188811,
+      "grad_norm": 0.6872385144233704,
+      "learning_rate": 9.747759334168602e-06,
+      "loss": 0.5627,
+      "step": 63
+    },
+    {
+      "epoch": 0.8951048951048951,
+      "grad_norm": 0.663074791431427,
+      "learning_rate": 9.73238029541305e-06,
+      "loss": 0.5643,
+      "step": 64
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "grad_norm": 0.7018933296203613,
+      "learning_rate": 9.716559066288716e-06,
+      "loss": 0.5729,
+      "step": 65
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 0.7574678659439087,
+      "learning_rate": 9.7002971251204e-06,
+      "loss": 0.5813,
+      "step": 66
+    },
+    {
+      "epoch": 0.9370629370629371,
+      "grad_norm": 0.6293357014656067,
+      "learning_rate": 9.683595991412725e-06,
+      "loss": 0.5819,
+      "step": 67
+    },
+    {
+      "epoch": 0.951048951048951,
+      "grad_norm": 0.6524381041526794,
+      "learning_rate": 9.666457225708175e-06,
+      "loss": 0.5856,
+      "step": 68
+    },
+    {
+      "epoch": 0.965034965034965,
+      "grad_norm": 0.8389201164245605,
+      "learning_rate": 9.648882429441258e-06,
+      "loss": 0.5587,
+      "step": 69
+    },
+    {
+      "epoch": 0.9790209790209791,
+      "grad_norm": 0.6339119672775269,
+      "learning_rate": 9.630873244788884e-06,
+      "loss": 0.5655,
+      "step": 70
+    },
+    {
+      "epoch": 0.993006993006993,
+      "grad_norm": 0.6689181923866272,
+      "learning_rate": 9.612431354516912e-06,
+      "loss": 0.574,
+      "step": 71
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.7970519661903381,
+      "learning_rate": 9.593558481822923e-06,
+      "loss": 0.5541,
+      "step": 72
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.5664608478546143,
+      "eval_runtime": 34.9634,
+      "eval_samples_per_second": 18.362,
+      "eval_steps_per_second": 2.317,
+      "step": 72
+    },
+    {
+      "epoch": 1.013986013986014,
+      "grad_norm": 0.6805382370948792,
+      "learning_rate": 9.574256390175192e-06,
+      "loss": 0.5175,
+      "step": 73
+    },
+    {
+      "epoch": 1.027972027972028,
+      "grad_norm": 0.6378044486045837,
+      "learning_rate": 9.554526883147926e-06,
+      "loss": 0.5323,
+      "step": 74
+    },
+    {
+      "epoch": 1.0419580419580419,
+      "grad_norm": 0.6296578645706177,
+      "learning_rate": 9.534371804252727e-06,
+      "loss": 0.5197,
+      "step": 75
+    },
+    {
+      "epoch": 1.055944055944056,
+      "grad_norm": 0.6116400361061096,
+      "learning_rate": 9.513793036766345e-06,
+      "loss": 0.504,
+      "step": 76
+    },
+    {
+      "epoch": 1.06993006993007,
+      "grad_norm": 0.6288114190101624,
+      "learning_rate": 9.492792503554695e-06,
+      "loss": 0.5314,
+      "step": 77
+    },
+    {
+      "epoch": 1.083916083916084,
+      "grad_norm": 0.6576322913169861,
+      "learning_rate": 9.4713721668932e-06,
+      "loss": 0.5437,
+      "step": 78
+    },
+    {
+      "epoch": 1.097902097902098,
+      "grad_norm": 0.5930177569389343,
+      "learning_rate": 9.44953402828342e-06,
+      "loss": 0.5213,
+      "step": 79
+    },
+    {
+      "epoch": 1.1118881118881119,
+      "grad_norm": 0.7437406778335571,
+      "learning_rate": 9.427280128266049e-06,
+      "loss": 0.5441,
+      "step": 80
+    },
+    {
+      "epoch": 1.1258741258741258,
+      "grad_norm": 0.7347025275230408,
+      "learning_rate": 9.404612546230244e-06,
+      "loss": 0.5078,
+      "step": 81
+    },
+    {
+      "epoch": 1.1398601398601398,
+      "grad_norm": 0.6133800148963928,
+      "learning_rate": 9.381533400219319e-06,
+      "loss": 0.5129,
+      "step": 82
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 0.8068645000457764,
+      "learning_rate": 9.358044846732848e-06,
+      "loss": 0.5252,
+      "step": 83
+    },
+    {
+      "epoch": 1.167832167832168,
+      "grad_norm": 0.7470645904541016,
+      "learning_rate": 9.334149080525154e-06,
+      "loss": 0.5251,
+      "step": 84
+    },
+    {
+      "epoch": 1.1818181818181819,
+      "grad_norm": 0.6085983514785767,
+      "learning_rate": 9.309848334400247e-06,
+      "loss": 0.5119,
+      "step": 85
+    },
+    {
+      "epoch": 1.1958041958041958,
+      "grad_norm": 0.6427562236785889,
+      "learning_rate": 9.285144879003173e-06,
+      "loss": 0.5327,
+      "step": 86
+    },
+    {
+      "epoch": 1.2097902097902098,
+      "grad_norm": 0.5992908477783203,
+      "learning_rate": 9.26004102260786e-06,
+      "loss": 0.5174,
+      "step": 87
+    },
+    {
+      "epoch": 1.2237762237762237,
+      "grad_norm": 0.6650605201721191,
+      "learning_rate": 9.23453911090143e-06,
+      "loss": 0.541,
+      "step": 88
+    },
+    {
+      "epoch": 1.2377622377622377,
+      "grad_norm": 0.6733765602111816,
+      "learning_rate": 9.208641526765024e-06,
+      "loss": 0.4968,
+      "step": 89
+    },
+    {
+      "epoch": 1.2517482517482517,
+      "grad_norm": 0.5896586775779724,
+      "learning_rate": 9.182350690051134e-06,
+      "loss": 0.5111,
+      "step": 90
+    },
+    {
+      "epoch": 1.2517482517482517,
+      "eval_loss": 0.5681217312812805,
+      "eval_runtime": 34.9547,
+      "eval_samples_per_second": 18.367,
+      "eval_steps_per_second": 2.317,
+      "step": 90
+    },
+    {
+      "epoch": 1.2657342657342658,
+      "grad_norm": 0.5879291892051697,
+      "learning_rate": 9.155669057357515e-06,
+      "loss": 0.5124,
+      "step": 91
+    },
+    {
+      "epoch": 1.2797202797202798,
+      "grad_norm": 0.6704349517822266,
+      "learning_rate": 9.12859912179762e-06,
+      "loss": 0.5264,
+      "step": 92
+    },
+    {
+      "epoch": 1.2937062937062938,
+      "grad_norm": 0.7005125284194946,
+      "learning_rate": 9.101143412767665e-06,
+      "loss": 0.5426,
+      "step": 93
+    },
+    {
+      "epoch": 1.3076923076923077,
+      "grad_norm": 0.5738447904586792,
+      "learning_rate": 9.073304495710267e-06,
+      "loss": 0.5057,
+      "step": 94
+    },
+    {
+      "epoch": 1.3216783216783217,
+      "grad_norm": 0.6039765477180481,
+      "learning_rate": 9.045084971874738e-06,
+      "loss": 0.5106,
+      "step": 95
+    },
+    {
+      "epoch": 1.3356643356643356,
+      "grad_norm": 0.6626608967781067,
+      "learning_rate": 9.016487478074032e-06,
+      "loss": 0.5231,
+      "step": 96
+    },
+    {
+      "epoch": 1.3496503496503496,
+      "grad_norm": 0.607319176197052,
+      "learning_rate": 8.987514686438353e-06,
+      "loss": 0.5373,
+      "step": 97
+    },
+    {
+      "epoch": 1.3636363636363638,
+      "grad_norm": 0.6294829249382019,
+      "learning_rate": 8.95816930416548e-06,
+      "loss": 0.5478,
+      "step": 98
+    },
+    {
+      "epoch": 1.3776223776223775,
+      "grad_norm": 0.5931101441383362,
+      "learning_rate": 8.928454073267801e-06,
+      "loss": 0.5183,
+      "step": 99
+    },
+    {
+      "epoch": 1.3916083916083917,
+      "grad_norm": 0.5525672435760498,
+      "learning_rate": 8.898371770316113e-06,
+      "loss": 0.5049,
+      "step": 100
+    },
+    {
+      "epoch": 1.4055944055944056,
+      "grad_norm": 0.5554185509681702,
+      "learning_rate": 8.867925206180166e-06,
+      "loss": 0.5329,
+      "step": 101
+    },
+    {
+      "epoch": 1.4195804195804196,
+      "grad_norm": 0.6104192137718201,
+      "learning_rate": 8.837117225766033e-06,
+      "loss": 0.5421,
+      "step": 102
+    },
+    {
+      "epoch": 1.4335664335664335,
+      "grad_norm": 0.5591093897819519,
+      "learning_rate": 8.805950707750268e-06,
+      "loss": 0.5434,
+      "step": 103
+    },
+    {
+      "epoch": 1.4475524475524475,
+      "grad_norm": 0.5589428544044495,
+      "learning_rate": 8.774428564310939e-06,
+      "loss": 0.5159,
+      "step": 104
+    },
+    {
+      "epoch": 1.4615384615384617,
+      "grad_norm": 0.580699622631073,
+      "learning_rate": 8.742553740855507e-06,
+      "loss": 0.5143,
+      "step": 105
+    },
+    {
+      "epoch": 1.4755244755244754,
+      "grad_norm": 0.6007757186889648,
+      "learning_rate": 8.710329215745612e-06,
+      "loss": 0.5066,
+      "step": 106
+    },
+    {
+      "epoch": 1.4895104895104896,
+      "grad_norm": 0.6713395118713379,
+      "learning_rate": 8.677758000018777e-06,
+      "loss": 0.5318,
+      "step": 107
+    },
+    {
+      "epoch": 1.5034965034965035,
+      "grad_norm": 0.5536379814147949,
+      "learning_rate": 8.644843137107058e-06,
+      "loss": 0.5159,
+      "step": 108
+    },
+    {
+      "epoch": 1.5034965034965035,
+      "eval_loss": 0.5661691427230835,
+      "eval_runtime": 35.3668,
+      "eval_samples_per_second": 18.153,
+      "eval_steps_per_second": 2.29,
+      "step": 108
+    },
+    {
+      "epoch": 1.5174825174825175,
+      "grad_norm": 0.645210325717926,
+      "learning_rate": 8.61158770255267e-06,
+      "loss": 0.5312,
+      "step": 109
+    },
+    {
+      "epoch": 1.5314685314685315,
+      "grad_norm": 0.601094126701355,
+      "learning_rate": 8.577994803720605e-06,
+      "loss": 0.5394,
+      "step": 110
+    },
+    {
+      "epoch": 1.5454545454545454,
+      "grad_norm": 0.5418203473091125,
+      "learning_rate": 8.544067579508292e-06,
+      "loss": 0.5264,
+      "step": 111
+    },
+    {
+      "epoch": 1.5594405594405596,
+      "grad_norm": 0.5513077974319458,
+      "learning_rate": 8.509809200052286e-06,
+      "loss": 0.5269,
+      "step": 112
+    },
+    {
+      "epoch": 1.5734265734265733,
+      "grad_norm": 0.6063372492790222,
+      "learning_rate": 8.475222866432065e-06,
+      "loss": 0.5199,
+      "step": 113
+    },
+    {
+      "epoch": 1.5874125874125875,
+      "grad_norm": 0.5637122988700867,
+      "learning_rate": 8.440311810370921e-06,
+      "loss": 0.5342,
+      "step": 114
+    },
+    {
+      "epoch": 1.6013986013986012,
+      "grad_norm": 0.5762498378753662,
+      "learning_rate": 8.405079293933986e-06,
+      "loss": 0.5419,
+      "step": 115
+    },
+    {
+      "epoch": 1.6153846153846154,
+      "grad_norm": 0.557772159576416,
+      "learning_rate": 8.36952860922343e-06,
+      "loss": 0.5217,
+      "step": 116
+    },
+    {
+      "epoch": 1.6293706293706294,
+      "grad_norm": 0.6382875442504883,
+      "learning_rate": 8.333663078070845e-06,
+      "loss": 0.5366,
+      "step": 117
+    },
+    {
+      "epoch": 1.6433566433566433,
+      "grad_norm": 0.5209150910377502,
+      "learning_rate": 8.297486051726864e-06,
+      "loss": 0.5087,
+      "step": 118
+    },
+    {
+      "epoch": 1.6573426573426573,
+      "grad_norm": 0.5415475964546204,
+      "learning_rate": 8.26100091054801e-06,
+      "loss": 0.5026,
+      "step": 119
+    },
+    {
+      "epoch": 1.6713286713286712,
+      "grad_norm": 0.6667906641960144,
+      "learning_rate": 8.224211063680854e-06,
+      "loss": 0.5224,
+      "step": 120
+    },
+    {
+      "epoch": 1.6853146853146854,
+      "grad_norm": 0.573965311050415,
+      "learning_rate": 8.18711994874345e-06,
+      "loss": 0.538,
+      "step": 121
+    },
+    {
+      "epoch": 1.6993006993006992,
+      "grad_norm": 0.6206014156341553,
+      "learning_rate": 8.149731031504136e-06,
+      "loss": 0.5161,
+      "step": 122
+    },
+    {
+      "epoch": 1.7132867132867133,
+      "grad_norm": 0.6324427127838135,
+      "learning_rate": 8.112047805557693e-06,
+      "loss": 0.5407,
+      "step": 123
+    },
+    {
+      "epoch": 1.7272727272727273,
+      "grad_norm": 0.5460613965988159,
+      "learning_rate": 8.074073791998907e-06,
+      "loss": 0.5238,
+      "step": 124
+    },
+    {
+      "epoch": 1.7412587412587412,
+      "grad_norm": 0.5684161186218262,
+      "learning_rate": 8.035812539093557e-06,
+      "loss": 0.5166,
+      "step": 125
+    },
+    {
+      "epoch": 1.7552447552447552,
+      "grad_norm": 0.6114190816879272,
+      "learning_rate": 7.997267621946871e-06,
+      "loss": 0.5212,
+      "step": 126
+    },
+    {
+      "epoch": 1.7552447552447552,
+      "eval_loss": 0.5644441843032837,
+      "eval_runtime": 34.8941,
+      "eval_samples_per_second": 18.399,
+      "eval_steps_per_second": 2.321,
+      "step": 126
+    },
+    {
+      "epoch": 1.7692307692307692,
+      "grad_norm": 0.5791452527046204,
+      "learning_rate": 7.958442642169469e-06,
+      "loss": 0.5219,
+      "step": 127
+    },
+    {
+      "epoch": 1.7832167832167833,
+      "grad_norm": 0.5814895033836365,
+      "learning_rate": 7.919341227540828e-06,
+      "loss": 0.5492,
+      "step": 128
+    },
+    {
+      "epoch": 1.797202797202797,
+      "grad_norm": 0.5562170147895813,
+      "learning_rate": 7.879967031670313e-06,
+      "loss": 0.5065,
+      "step": 129
+    },
+    {
+      "epoch": 1.8111888111888113,
+      "grad_norm": 0.5666476488113403,
+      "learning_rate": 7.84032373365578e-06,
+      "loss": 0.508,
+      "step": 130
+    },
+    {
+      "epoch": 1.8251748251748252,
+      "grad_norm": 0.6123917102813721,
+      "learning_rate": 7.800415037739802e-06,
+      "loss": 0.5245,
+      "step": 131
+    },
+    {
+      "epoch": 1.8391608391608392,
+      "grad_norm": 0.6137180924415588,
+      "learning_rate": 7.760244672963548e-06,
+      "loss": 0.5281,
+      "step": 132
+    },
+    {
+      "epoch": 1.8531468531468531,
+      "grad_norm": 0.5444206595420837,
+      "learning_rate": 7.719816392818354e-06,
+      "loss": 0.496,
+      "step": 133
+    },
+    {
+      "epoch": 1.867132867132867,
+      "grad_norm": 0.5935954451560974,
+      "learning_rate": 7.679133974894984e-06,
+      "loss": 0.5164,
+      "step": 134
+    },
+    {
+      "epoch": 1.8811188811188813,
+      "grad_norm": 0.568263828754425,
+      "learning_rate": 7.638201220530664e-06,
+      "loss": 0.509,
+      "step": 135
+    },
+    {
+      "epoch": 1.895104895104895,
+      "grad_norm": 0.641503095626831,
+      "learning_rate": 7.597021954453887e-06,
+      "loss": 0.5389,
+      "step": 136
+    },
+    {
+      "epoch": 1.9090909090909092,
+      "grad_norm": 0.5866712927818298,
+      "learning_rate": 7.555600024427028e-06,
+      "loss": 0.5163,
+      "step": 137
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 0.559259831905365,
+      "learning_rate": 7.513939300886816e-06,
+      "loss": 0.5074,
+      "step": 138
+    },
+    {
+      "epoch": 1.937062937062937,
+      "grad_norm": 0.5635555386543274,
+      "learning_rate": 7.472043676582685e-06,
+      "loss": 0.5184,
+      "step": 139
+    },
+    {
+      "epoch": 1.951048951048951,
+      "grad_norm": 0.6236100196838379,
+      "learning_rate": 7.42991706621303e-06,
+      "loss": 0.5162,
+      "step": 140
+    },
+    {
+      "epoch": 1.965034965034965,
+      "grad_norm": 0.60297691822052,
+      "learning_rate": 7.387563406059433e-06,
+      "loss": 0.5123,
+      "step": 141
+    },
+    {
+      "epoch": 1.9790209790209792,
+      "grad_norm": 0.5734803080558777,
+      "learning_rate": 7.344986653618844e-06,
+      "loss": 0.5281,
+      "step": 142
+    },
+    {
+      "epoch": 1.993006993006993,
+      "grad_norm": 0.561177134513855,
+      "learning_rate": 7.302190787233808e-06,
+      "loss": 0.5256,
+      "step": 143
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.6918484568595886,
+      "learning_rate": 7.259179805720726e-06,
+      "loss": 0.4956,
+      "step": 144
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.5634886622428894,
+      "eval_runtime": 34.1505,
+      "eval_samples_per_second": 18.799,
+      "eval_steps_per_second": 2.372,
+      "step": 144
+    },
+    {
+      "epoch": 2.013986013986014,
+      "grad_norm": 0.6467083096504211,
+      "learning_rate": 7.215957727996208e-06,
+      "loss": 0.4757,
+      "step": 145
+    },
+    {
+      "epoch": 2.027972027972028,
+      "grad_norm": 0.628153920173645,
+      "learning_rate": 7.17252859270155e-06,
+      "loss": 0.4701,
+      "step": 146
+    },
+    {
+      "epoch": 2.041958041958042,
+      "grad_norm": 0.6287585496902466,
+      "learning_rate": 7.128896457825364e-06,
+      "loss": 0.4334,
+      "step": 147
+    },
+    {
+      "epoch": 2.055944055944056,
+      "grad_norm": 0.5704949498176575,
+      "learning_rate": 7.085065400324407e-06,
+      "loss": 0.4723,
+      "step": 148
+    },
+    {
+      "epoch": 2.06993006993007,
+      "grad_norm": 0.6293634176254272,
+      "learning_rate": 7.041039515742626e-06,
+      "loss": 0.4875,
+      "step": 149
+    },
+    {
+      "epoch": 2.0839160839160837,
+      "grad_norm": 0.7220337390899658,
+      "learning_rate": 6.9968229178284775e-06,
+      "loss": 0.4809,
+      "step": 150
+    },
+    {
+      "epoch": 2.097902097902098,
+      "grad_norm": 0.5713090896606445,
+      "learning_rate": 6.952419738150546e-06,
+      "loss": 0.4998,
+      "step": 151
+    },
+    {
+      "epoch": 2.111888111888112,
+      "grad_norm": 0.6713567972183228,
+      "learning_rate": 6.9078341257114765e-06,
+      "loss": 0.4837,
+      "step": 152
+    },
+    {
+      "epoch": 2.125874125874126,
+      "grad_norm": 0.6542858481407166,
+      "learning_rate": 6.863070246560319e-06,
+      "loss": 0.4798,
+      "step": 153
+    },
+    {
+      "epoch": 2.13986013986014,
+      "grad_norm": 0.5555688738822937,
+      "learning_rate": 6.818132283403236e-06,
+      "loss": 0.4593,
+      "step": 154
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "grad_norm": 0.5947204232215881,
+      "learning_rate": 6.773024435212678e-06,
+      "loss": 0.4831,
+      "step": 155
+    },
+    {
+      "epoch": 2.167832167832168,
+      "grad_norm": 0.6230157613754272,
+      "learning_rate": 6.7277509168350445e-06,
+      "loss": 0.4634,
+      "step": 156
+    },
+    {
+      "epoch": 2.1818181818181817,
+      "grad_norm": 0.5586286783218384,
+      "learning_rate": 6.6823159585968355e-06,
+      "loss": 0.4803,
+      "step": 157
+    },
+    {
+      "epoch": 2.195804195804196,
+      "grad_norm": 0.5558333396911621,
+      "learning_rate": 6.636723805909384e-06,
+      "loss": 0.4734,
+      "step": 158
+    },
+    {
+      "epoch": 2.20979020979021,
+      "grad_norm": 0.5960513949394226,
+      "learning_rate": 6.590978718872166e-06,
+      "loss": 0.4746,
+      "step": 159
+    },
+    {
+      "epoch": 2.2237762237762237,
+      "grad_norm": 0.5779184103012085,
+      "learning_rate": 6.545084971874738e-06,
+      "loss": 0.4499,
+      "step": 160
+    },
+    {
+      "epoch": 2.237762237762238,
+      "grad_norm": 0.5827864408493042,
+      "learning_rate": 6.499046853197338e-06,
+      "loss": 0.4826,
+      "step": 161
+    },
+    {
+      "epoch": 2.2517482517482517,
+      "grad_norm": 0.6769295930862427,
+      "learning_rate": 6.452868664610197e-06,
+      "loss": 0.4797,
+      "step": 162
+    },
+    {
+      "epoch": 2.2517482517482517,
+      "eval_loss": 0.5764052271842957,
+      "eval_runtime": 34.051,
+      "eval_samples_per_second": 18.854,
+      "eval_steps_per_second": 2.379,
+      "step": 162
+    },
+    {
+      "epoch": 2.265734265734266,
+      "grad_norm": 0.5850751996040344,
+      "learning_rate": 6.406554720971583e-06,
+      "loss": 0.4829,
+      "step": 163
+    },
+    {
+      "epoch": 2.2797202797202796,
+      "grad_norm": 0.5925103425979614,
+      "learning_rate": 6.3601093498246215e-06,
+      "loss": 0.4936,
+      "step": 164
+    },
+    {
+      "epoch": 2.2937062937062938,
+      "grad_norm": 0.5747277140617371,
+      "learning_rate": 6.313536890992935e-06,
+      "loss": 0.4686,
+      "step": 165
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 0.6141413450241089,
+      "learning_rate": 6.266841696175132e-06,
+      "loss": 0.4659,
+      "step": 166
+    },
+    {
+      "epoch": 2.3216783216783217,
+      "grad_norm": 0.5214844942092896,
+      "learning_rate": 6.220028128538188e-06,
+      "loss": 0.4714,
+      "step": 167
+    },
+    {
+      "epoch": 2.335664335664336,
+      "grad_norm": 0.6260507106781006,
+      "learning_rate": 6.173100562309751e-06,
+      "loss": 0.4731,
+      "step": 168
+    },
+    {
+      "epoch": 2.3496503496503496,
+      "grad_norm": 0.6246528625488281,
+      "learning_rate": 6.1260633823694224e-06,
+      "loss": 0.4575,
+      "step": 169
+    },
+    {
+      "epoch": 2.3636363636363638,
+      "grad_norm": 0.5592030882835388,
+      "learning_rate": 6.078920983839032e-06,
+      "loss": 0.4293,
+      "step": 170
+    },
+    {
+      "epoch": 2.3776223776223775,
+      "grad_norm": 0.5436908602714539,
+      "learning_rate": 6.031677771671962e-06,
+      "loss": 0.4821,
+      "step": 171
+    },
+    {
+      "epoch": 2.3916083916083917,
+      "grad_norm": 0.5873638987541199,
+      "learning_rate": 5.984338160241552e-06,
+      "loss": 0.4755,
+      "step": 172
+    },
+    {
+      "epoch": 2.4055944055944054,
+      "grad_norm": 0.6056978106498718,
+      "learning_rate": 5.936906572928625e-06,
+      "loss": 0.479,
+      "step": 173
+    },
+    {
+      "epoch": 2.4195804195804196,
+      "grad_norm": 0.5452414751052856,
+      "learning_rate": 5.889387441708162e-06,
+      "loss": 0.4545,
+      "step": 174
+    },
+    {
+      "epoch": 2.4335664335664333,
+      "grad_norm": 0.5708940625190735,
+      "learning_rate": 5.841785206735192e-06,
+      "loss": 0.4706,
+      "step": 175
+    },
+    {
+      "epoch": 2.4475524475524475,
+      "grad_norm": 0.5819888114929199,
+      "learning_rate": 5.794104315929904e-06,
+      "loss": 0.4608,
+      "step": 176
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": 0.5468575358390808,
+      "learning_rate": 5.746349224562021e-06,
+      "loss": 0.4696,
+      "step": 177
+    },
+    {
+      "epoch": 2.4755244755244754,
+      "grad_norm": 0.6171605587005615,
+      "learning_rate": 5.698524394834531e-06,
+      "loss": 0.4809,
+      "step": 178
+    },
+    {
+      "epoch": 2.4895104895104896,
+      "grad_norm": 0.6046556234359741,
+      "learning_rate": 5.650634295466717e-06,
+      "loss": 0.4727,
+      "step": 179
+    },
+    {
+      "epoch": 2.5034965034965033,
+      "grad_norm": 0.5517058968544006,
+      "learning_rate": 5.6026834012766155e-06,
+      "loss": 0.4728,
+      "step": 180
+    },
+    {
+      "epoch": 2.5034965034965033,
+      "eval_loss": 0.5757314562797546,
+      "eval_runtime": 34.5495,
+      "eval_samples_per_second": 18.582,
+      "eval_steps_per_second": 2.344,
+      "step": 180
+    },
+    {
+      "epoch": 2.5174825174825175,
+      "grad_norm": 0.5916588306427002,
+      "learning_rate": 5.554676192762891e-06,
+      "loss": 0.4738,
+      "step": 181
+    },
+    {
+      "epoch": 2.5314685314685317,
+      "grad_norm": 0.596782386302948,
+      "learning_rate": 5.506617155686177e-06,
+      "loss": 0.4725,
+      "step": 182
+    },
+    {
+      "epoch": 2.5454545454545454,
+      "grad_norm": 0.5784814357757568,
+      "learning_rate": 5.458510780649932e-06,
+      "loss": 0.4743,
+      "step": 183
+    },
+    {
+      "epoch": 2.5594405594405596,
+      "grad_norm": 0.5162186622619629,
+      "learning_rate": 5.4103615626808426e-06,
+      "loss": 0.4501,
+      "step": 184
+    },
+    {
+      "epoch": 2.5734265734265733,
+      "grad_norm": 0.5629183053970337,
+      "learning_rate": 5.362174000808813e-06,
+      "loss": 0.4631,
+      "step": 185
+    },
+    {
+      "epoch": 2.5874125874125875,
+      "grad_norm": 0.5455092191696167,
+      "learning_rate": 5.3139525976465675e-06,
+      "loss": 0.4839,
+      "step": 186
+    },
+    {
+      "epoch": 2.6013986013986012,
+      "grad_norm": 0.6234388947486877,
+      "learning_rate": 5.265701858968944e-06,
+      "loss": 0.4729,
+      "step": 187
+    },
+    {
+      "epoch": 2.6153846153846154,
+      "grad_norm": 0.5270193815231323,
+      "learning_rate": 5.217426293291869e-06,
+      "loss": 0.4767,
+      "step": 188
+    },
+    {
+      "epoch": 2.629370629370629,
+      "grad_norm": 0.5291939973831177,
+      "learning_rate": 5.169130411451083e-06,
+      "loss": 0.4659,
+      "step": 189
+    },
+    {
+      "epoch": 2.6433566433566433,
+      "grad_norm": 0.5210967063903809,
+      "learning_rate": 5.120818726180662e-06,
+      "loss": 0.4532,
+      "step": 190
+    },
+    {
+      "epoch": 2.6573426573426575,
+      "grad_norm": 0.5697853565216064,
+      "learning_rate": 5.072495751691338e-06,
+      "loss": 0.4669,
+      "step": 191
+    },
+    {
+      "epoch": 2.6713286713286712,
+      "grad_norm": 0.4967118203639984,
+      "learning_rate": 5.024166003248703e-06,
+      "loss": 0.4777,
+      "step": 192
+    },
+    {
+      "epoch": 2.6853146853146854,
+      "grad_norm": 0.5514243245124817,
+      "learning_rate": 4.9758339967512995e-06,
+      "loss": 0.4689,
+      "step": 193
+    },
+    {
+      "epoch": 2.699300699300699,
+      "grad_norm": 0.5476483702659607,
+      "learning_rate": 4.927504248308663e-06,
+      "loss": 0.4898,
+      "step": 194
+    },
+    {
+      "epoch": 2.7132867132867133,
+      "grad_norm": 0.5073778033256531,
+      "learning_rate": 4.87918127381934e-06,
+      "loss": 0.4462,
+      "step": 195
+    },
+    {
+      "epoch": 2.7272727272727275,
+      "grad_norm": 0.5061259865760803,
+      "learning_rate": 4.830869588548918e-06,
+      "loss": 0.4811,
+      "step": 196
+    },
+    {
+      "epoch": 2.7412587412587412,
+      "grad_norm": 0.532632052898407,
+      "learning_rate": 4.782573706708133e-06,
+      "loss": 0.4514,
+      "step": 197
+    },
+    {
+      "epoch": 2.755244755244755,
+      "grad_norm": 0.5079967379570007,
+      "learning_rate": 4.734298141031057e-06,
+      "loss": 0.4706,
+      "step": 198
+    },
+    {
+      "epoch": 2.755244755244755,
+      "eval_loss": 0.5748186111450195,
+      "eval_runtime": 34.6547,
+      "eval_samples_per_second": 18.526,
+      "eval_steps_per_second": 2.337,
+      "step": 198
+    },
+    {
+      "epoch": 2.769230769230769,
+      "grad_norm": 0.5450592637062073,
+      "learning_rate": 4.686047402353433e-06,
+      "loss": 0.4717,
+      "step": 199
+    },
+    {
+      "epoch": 2.7832167832167833,
+      "grad_norm": 0.4929758906364441,
+      "learning_rate": 4.637825999191189e-06,
+      "loss": 0.469,
+      "step": 200
+    },
+    {
+      "epoch": 2.797202797202797,
+      "grad_norm": 0.514842689037323,
+      "learning_rate": 4.589638437319157e-06,
+      "loss": 0.4848,
+      "step": 201
+    },
+    {
+      "epoch": 2.8111888111888113,
+      "grad_norm": 0.5259736776351929,
+      "learning_rate": 4.541489219350069e-06,
+      "loss": 0.4676,
+      "step": 202
+    },
+    {
+      "epoch": 2.825174825174825,
+      "grad_norm": 0.571843683719635,
+      "learning_rate": 4.493382844313826e-06,
+      "loss": 0.482,
+      "step": 203
+    },
+    {
+      "epoch": 2.839160839160839,
+      "grad_norm": 0.49216270446777344,
+      "learning_rate": 4.445323807237112e-06,
+      "loss": 0.479,
+      "step": 204
+    },
+    {
+      "epoch": 2.8531468531468533,
+      "grad_norm": 0.5383098721504211,
+      "learning_rate": 4.397316598723385e-06,
+      "loss": 0.4517,
+      "step": 205
+    },
+    {
+      "epoch": 2.867132867132867,
+      "grad_norm": 0.5011985898017883,
+      "learning_rate": 4.349365704533285e-06,
+      "loss": 0.4678,
+      "step": 206
+    },
+    {
+      "epoch": 2.8811188811188813,
+      "grad_norm": 0.5291906595230103,
+      "learning_rate": 4.301475605165471e-06,
+      "loss": 0.4717,
+      "step": 207
+    },
+    {
+      "epoch": 2.895104895104895,
+      "grad_norm": 0.5500873923301697,
+      "learning_rate": 4.25365077543798e-06,
+      "loss": 0.4572,
+      "step": 208
+    },
+    {
+      "epoch": 2.909090909090909,
+      "grad_norm": 0.5690264105796814,
+      "learning_rate": 4.205895684070099e-06,
+      "loss": 0.4675,
+      "step": 209
+    },
+    {
+      "epoch": 2.9230769230769234,
+      "grad_norm": 0.4746716022491455,
+      "learning_rate": 4.158214793264808e-06,
+      "loss": 0.4579,
+      "step": 210
+    },
+    {
+      "epoch": 2.937062937062937,
+      "grad_norm": 0.5113067626953125,
+      "learning_rate": 4.1106125582918385e-06,
+      "loss": 0.5104,
+      "step": 211
+    },
+    {
+      "epoch": 2.951048951048951,
+      "grad_norm": 0.5272907018661499,
+      "learning_rate": 4.063093427071376e-06,
+      "loss": 0.4532,
+      "step": 212
+    },
+    {
+      "epoch": 2.965034965034965,
+      "grad_norm": 0.5059399008750916,
+      "learning_rate": 4.01566183975845e-06,
+      "loss": 0.4555,
+      "step": 213
+    },
+    {
+      "epoch": 2.979020979020979,
+      "grad_norm": 0.4909096658229828,
+      "learning_rate": 3.968322228328041e-06,
+      "loss": 0.4785,
+      "step": 214
+    },
+    {
+      "epoch": 2.993006993006993,
+      "grad_norm": 0.5192479491233826,
+      "learning_rate": 3.92107901616097e-06,
+      "loss": 0.4477,
+      "step": 215
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.7363195419311523,
+      "learning_rate": 3.873936617630578e-06,
+      "loss": 0.4927,
+      "step": 216
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.5740084052085876,
+      "eval_runtime": 34.8551,
+      "eval_samples_per_second": 18.419,
+      "eval_steps_per_second": 2.324,
+      "step": 216
+    },
+    {
+      "epoch": 3.013986013986014,
+      "grad_norm": 0.5987377762794495,
+      "learning_rate": 3.82689943769025e-06,
+      "loss": 0.4246,
+      "step": 217
+    },
+    {
+      "epoch": 3.027972027972028,
+      "grad_norm": 0.589948832988739,
+      "learning_rate": 3.779971871461813e-06,
+      "loss": 0.4367,
+      "step": 218
+    },
+    {
+      "epoch": 3.041958041958042,
+      "grad_norm": 0.5003005862236023,
+      "learning_rate": 3.7331583038248688e-06,
+      "loss": 0.4346,
+      "step": 219
+    },
+    {
+      "epoch": 3.055944055944056,
+      "grad_norm": 0.528349757194519,
+      "learning_rate": 3.6864631090070656e-06,
+      "loss": 0.3993,
+      "step": 220
+    },
+    {
+      "epoch": 3.06993006993007,
+      "grad_norm": 0.5285301208496094,
+      "learning_rate": 3.639890650175379e-06,
+      "loss": 0.419,
+      "step": 221
+    },
+    {
+      "epoch": 3.0839160839160837,
+      "grad_norm": 0.5721102356910706,
+      "learning_rate": 3.593445279028418e-06,
+      "loss": 0.4328,
+      "step": 222
+    },
+    {
+      "epoch": 3.097902097902098,
+      "grad_norm": 0.5271673202514648,
+      "learning_rate": 3.5471313353898056e-06,
+      "loss": 0.4252,
+      "step": 223
+    },
+    {
+      "epoch": 3.111888111888112,
+      "grad_norm": 0.5354319214820862,
+      "learning_rate": 3.5009531468026646e-06,
+      "loss": 0.4367,
+      "step": 224
+    },
+    {
+      "epoch": 3.125874125874126,
+      "grad_norm": 0.5849824547767639,
+      "learning_rate": 3.4549150281252635e-06,
+      "loss": 0.4263,
+      "step": 225
+    },
+    {
+      "epoch": 3.13986013986014,
+      "grad_norm": 0.6300305128097534,
+      "learning_rate": 3.409021281127835e-06,
+      "loss": 0.4331,
+      "step": 226
+    },
+    {
+      "epoch": 3.1538461538461537,
+      "grad_norm": 0.5985769033432007,
+      "learning_rate": 3.3632761940906167e-06,
+      "loss": 0.4316,
+      "step": 227
+    },
+    {
+      "epoch": 3.167832167832168,
+      "grad_norm": 0.5028027296066284,
+      "learning_rate": 3.3176840414031653e-06,
+      "loss": 0.4243,
+      "step": 228
+    },
+    {
+      "epoch": 3.1818181818181817,
+      "grad_norm": 0.5299258232116699,
+      "learning_rate": 3.2722490831649568e-06,
+      "loss": 0.4166,
+      "step": 229
+    },
+    {
+      "epoch": 3.195804195804196,
+      "grad_norm": 0.5425248742103577,
+      "learning_rate": 3.226975564787322e-06,
+      "loss": 0.4389,
+      "step": 230
+    },
+    {
+      "epoch": 3.20979020979021,
+      "grad_norm": 0.5929123759269714,
+      "learning_rate": 3.181867716596765e-06,
+      "loss": 0.4288,
+      "step": 231
+    },
+    {
+      "epoch": 3.2237762237762237,
+      "grad_norm": 0.5462735891342163,
+      "learning_rate": 3.1369297534396823e-06,
+      "loss": 0.4434,
+      "step": 232
+    },
+    {
+      "epoch": 3.237762237762238,
+      "grad_norm": 0.4862322211265564,
+      "learning_rate": 3.092165874288525e-06,
+      "loss": 0.4133,
+      "step": 233
+    },
+    {
+      "epoch": 3.2517482517482517,
+      "grad_norm": 0.48885804414749146,
+      "learning_rate": 3.0475802618494564e-06,
+      "loss": 0.4426,
+      "step": 234
+    },
+    {
+      "epoch": 3.2517482517482517,
+      "eval_loss": 0.5924859046936035,
+      "eval_runtime": 34.7085,
+      "eval_samples_per_second": 18.497,
+      "eval_steps_per_second": 2.334,
+      "step": 234
+    },
+    {
+      "epoch": 3.265734265734266,
+      "grad_norm": 0.4652189314365387,
+      "learning_rate": 3.0031770821715233e-06,
+      "loss": 0.4189,
+      "step": 235
+    },
+    {
+      "epoch": 3.2797202797202796,
+      "grad_norm": 0.5389134883880615,
+      "learning_rate": 2.9589604842573762e-06,
+      "loss": 0.4226,
+      "step": 236
+    },
+    {
+      "epoch": 3.2937062937062938,
+      "grad_norm": 0.507276177406311,
+      "learning_rate": 2.914934599675594e-06,
+      "loss": 0.4084,
+      "step": 237
+    },
+    {
+      "epoch": 3.3076923076923075,
+      "grad_norm": 0.4876704216003418,
+      "learning_rate": 2.871103542174637e-06,
+      "loss": 0.4256,
+      "step": 238
+    },
+    {
+      "epoch": 3.3216783216783217,
+      "grad_norm": 0.48441073298454285,
+      "learning_rate": 2.827471407298451e-06,
+      "loss": 0.4297,
+      "step": 239
+    },
+    {
+      "epoch": 3.335664335664336,
+      "grad_norm": 0.4634881317615509,
+      "learning_rate": 2.7840422720037943e-06,
+      "loss": 0.4227,
+      "step": 240
+    },
+    {
+      "epoch": 3.3496503496503496,
+      "grad_norm": 0.49520549178123474,
+      "learning_rate": 2.7408201942792755e-06,
+      "loss": 0.414,
+      "step": 241
+    },
+    {
+      "epoch": 3.3636363636363638,
+      "grad_norm": 0.4892767369747162,
+      "learning_rate": 2.697809212766195e-06,
+      "loss": 0.4326,
+      "step": 242
+    },
+    {
+      "epoch": 3.3776223776223775,
+      "grad_norm": 0.4968920052051544,
+      "learning_rate": 2.655013346381158e-06,
+      "loss": 0.4327,
+      "step": 243
+    },
+    {
+      "epoch": 3.3916083916083917,
+      "grad_norm": 0.4823973476886749,
+      "learning_rate": 2.612436593940568e-06,
+      "loss": 0.4329,
+      "step": 244
+    },
+    {
+      "epoch": 3.4055944055944054,
+      "grad_norm": 0.4838135540485382,
+      "learning_rate": 2.57008293378697e-06,
+      "loss": 0.4206,
+      "step": 245
+    },
+    {
+      "epoch": 3.4195804195804196,
+      "grad_norm": 0.47422581911087036,
+      "learning_rate": 2.5279563234173177e-06,
+      "loss": 0.4336,
+      "step": 246
+    },
+    {
+      "epoch": 3.4335664335664333,
+      "grad_norm": 0.4846055209636688,
+      "learning_rate": 2.4860606991131857e-06,
+      "loss": 0.4184,
+      "step": 247
+    },
+    {
+      "epoch": 3.4475524475524475,
+      "grad_norm": 0.5305242538452148,
+      "learning_rate": 2.444399975572974e-06,
+      "loss": 0.4394,
+      "step": 248
+    },
+    {
+      "epoch": 3.4615384615384617,
+      "grad_norm": 0.487332820892334,
+      "learning_rate": 2.402978045546114e-06,
+      "loss": 0.4033,
+      "step": 249
+    },
+    {
+      "epoch": 3.4755244755244754,
+      "grad_norm": 0.4706343114376068,
+      "learning_rate": 2.3617987794693358e-06,
+      "loss": 0.4408,
+      "step": 250
+    },
+    {
+      "epoch": 3.4895104895104896,
+      "grad_norm": 0.503103494644165,
+      "learning_rate": 2.320866025105016e-06,
+      "loss": 0.4166,
+      "step": 251
+    },
+    {
+      "epoch": 3.5034965034965033,
+      "grad_norm": 0.5077600479125977,
+      "learning_rate": 2.2801836071816476e-06,
+      "loss": 0.4423,
+      "step": 252
+    },
+    {
+      "epoch": 3.5034965034965033,
+      "eval_loss": 0.5952551364898682,
+      "eval_runtime": 33.5546,
+      "eval_samples_per_second": 19.133,
+      "eval_steps_per_second": 2.414,
+      "step": 252
+    },
+    {
+      "epoch": 3.5174825174825175,
+      "grad_norm": 0.48870253562927246,
+      "learning_rate": 2.2397553270364546e-06,
+      "loss": 0.4241,
+      "step": 253
+    },
+    {
+      "epoch": 3.5314685314685317,
+      "grad_norm": 0.4966093897819519,
+      "learning_rate": 2.1995849622602017e-06,
+      "loss": 0.4396,
+      "step": 254
+    },
+    {
+      "epoch": 3.5454545454545454,
+      "grad_norm": 0.4564977288246155,
+      "learning_rate": 2.159676266344222e-06,
+      "loss": 0.4223,
+      "step": 255
+    },
+    {
+      "epoch": 3.5594405594405596,
+      "grad_norm": 0.46915507316589355,
+      "learning_rate": 2.120032968329687e-06,
+      "loss": 0.4283,
+      "step": 256
+    },
+    {
+      "epoch": 3.5734265734265733,
+      "grad_norm": 0.49805694818496704,
+      "learning_rate": 2.0806587724591725e-06,
+      "loss": 0.4382,
+      "step": 257
+    },
+    {
+      "epoch": 3.5874125874125875,
+      "grad_norm": 0.48657479882240295,
+      "learning_rate": 2.0415573578305343e-06,
+      "loss": 0.4378,
+      "step": 258
+    },
+    {
+      "epoch": 3.6013986013986012,
+      "grad_norm": 0.46977299451828003,
+      "learning_rate": 2.0027323780531312e-06,
+      "loss": 0.4224,
+      "step": 259
+    },
+    {
+      "epoch": 3.6153846153846154,
+      "grad_norm": 0.49343907833099365,
+      "learning_rate": 1.9641874609064443e-06,
+      "loss": 0.4088,
+      "step": 260
+    },
+    {
+      "epoch": 3.629370629370629,
+      "grad_norm": 0.4801478385925293,
+      "learning_rate": 1.9259262080010938e-06,
+      "loss": 0.419,
+      "step": 261
+    },
+    {
+      "epoch": 3.6433566433566433,
+      "grad_norm": 0.4632829427719116,
+      "learning_rate": 1.887952194442309e-06,
+      "loss": 0.4185,
+      "step": 262
+    },
+    {
+      "epoch": 3.6573426573426575,
+      "grad_norm": 0.4722610414028168,
+      "learning_rate": 1.8502689684958664e-06,
+      "loss": 0.4223,
+      "step": 263
+    },
+    {
+      "epoch": 3.6713286713286712,
+      "grad_norm": 0.46521317958831787,
+      "learning_rate": 1.8128800512565514e-06,
+      "loss": 0.4311,
+      "step": 264
+    },
+    {
+      "epoch": 3.6853146853146854,
+      "grad_norm": 0.49360647797584534,
+      "learning_rate": 1.7757889363191484e-06,
+      "loss": 0.4336,
+      "step": 265
+    },
+    {
+      "epoch": 3.699300699300699,
+      "grad_norm": 0.46490150690078735,
+      "learning_rate": 1.738999089451991e-06,
+      "loss": 0.41,
+      "step": 266
+    },
+    {
+      "epoch": 3.7132867132867133,
+      "grad_norm": 0.47419989109039307,
+      "learning_rate": 1.7025139482731385e-06,
+      "loss": 0.4489,
+      "step": 267
+    },
+    {
+      "epoch": 3.7272727272727275,
+      "grad_norm": 0.4471936821937561,
+      "learning_rate": 1.6663369219291558e-06,
+      "loss": 0.4075,
+      "step": 268
+    },
+    {
+      "epoch": 3.7412587412587412,
+      "grad_norm": 0.4871998727321625,
+      "learning_rate": 1.6304713907765713e-06,
+      "loss": 0.4138,
+      "step": 269
+    },
+    {
+      "epoch": 3.755244755244755,
+      "grad_norm": 0.4558921754360199,
+      "learning_rate": 1.5949207060660138e-06,
+      "loss": 0.4209,
+      "step": 270
+    },
+    {
+      "epoch": 3.755244755244755,
+      "eval_loss": 0.5941651463508606,
+      "eval_runtime": 34.8033,
+      "eval_samples_per_second": 18.447,
+      "eval_steps_per_second": 2.327,
+      "step": 270
+    },
+    {
+      "epoch": 3.769230769230769,
+      "grad_norm": 0.43444135785102844,
+      "learning_rate": 1.55968818962908e-06,
+      "loss": 0.4186,
+      "step": 271
+    },
+    {
+      "epoch": 3.7832167832167833,
+      "grad_norm": 0.47602659463882446,
+      "learning_rate": 1.5247771335679372e-06,
+      "loss": 0.4138,
+      "step": 272
+    },
+    {
+      "epoch": 3.797202797202797,
+      "grad_norm": 0.4794568121433258,
+      "learning_rate": 1.4901907999477167e-06,
+      "loss": 0.4512,
+      "step": 273
+    },
+    {
+      "epoch": 3.8111888111888113,
+      "grad_norm": 0.47370994091033936,
+      "learning_rate": 1.4559324204917102e-06,
+      "loss": 0.4446,
+      "step": 274
+    },
+    {
+      "epoch": 3.825174825174825,
+      "grad_norm": 0.4493069052696228,
+      "learning_rate": 1.4220051962793952e-06,
+      "loss": 0.4316,
+      "step": 275
+    },
+    {
+      "epoch": 3.839160839160839,
+      "grad_norm": 0.4439810812473297,
+      "learning_rate": 1.3884122974473307e-06,
+      "loss": 0.4276,
+      "step": 276
+    },
+    {
+      "epoch": 3.8531468531468533,
+      "grad_norm": 0.44139519333839417,
+      "learning_rate": 1.3551568628929434e-06,
+      "loss": 0.427,
+      "step": 277
+    },
+    {
+      "epoch": 3.867132867132867,
+      "grad_norm": 0.45054903626441956,
+      "learning_rate": 1.3222419999812248e-06,
+      "loss": 0.4356,
+      "step": 278
+    },
+    {
+      "epoch": 3.8811188811188813,
+      "grad_norm": 0.44140151143074036,
+      "learning_rate": 1.2896707842543898e-06,
+      "loss": 0.4287,
+      "step": 279
+    },
+    {
+      "epoch": 3.895104895104895,
+      "grad_norm": 0.4277818202972412,
+      "learning_rate": 1.257446259144494e-06,
+      "loss": 0.4298,
+      "step": 280
+    },
+    {
+      "epoch": 3.909090909090909,
+      "grad_norm": 0.4403057098388672,
+      "learning_rate": 1.225571435689062e-06,
+      "loss": 0.4185,
+      "step": 281
+    },
+    {
+      "epoch": 3.9230769230769234,
+      "grad_norm": 0.4724678099155426,
+      "learning_rate": 1.1940492922497337e-06,
+      "loss": 0.4465,
+      "step": 282
+    },
+    {
+      "epoch": 3.937062937062937,
+      "grad_norm": 0.47128820419311523,
+      "learning_rate": 1.1628827742339688e-06,
+      "loss": 0.4126,
+      "step": 283
+    },
+    {
+      "epoch": 3.951048951048951,
+      "grad_norm": 0.4331970512866974,
+      "learning_rate": 1.1320747938198356e-06,
+      "loss": 0.4105,
+      "step": 284
+    },
+    {
+      "epoch": 3.965034965034965,
+      "grad_norm": 0.4537077844142914,
+      "learning_rate": 1.1016282296838887e-06,
+      "loss": 0.4257,
+      "step": 285
+    },
+    {
+      "epoch": 3.979020979020979,
+      "grad_norm": 0.46981024742126465,
+      "learning_rate": 1.0715459267321998e-06,
+      "loss": 0.4336,
+      "step": 286
+    },
+    {
+      "epoch": 3.993006993006993,
+      "grad_norm": 0.4497096538543701,
+      "learning_rate": 1.0418306958345214e-06,
+      "loss": 0.4326,
+      "step": 287
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.6176419258117676,
+      "learning_rate": 1.0124853135616475e-06,
+      "loss": 0.4261,
+      "step": 288
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.594137966632843,
+      "eval_runtime": 35.3287,
+      "eval_samples_per_second": 18.172,
+      "eval_steps_per_second": 2.293,
+      "step": 288
+    },
+    {
+      "epoch": 4.013986013986014,
+      "grad_norm": 0.48881927132606506,
+      "learning_rate": 9.835125219259694e-07,
+      "loss": 0.4126,
+      "step": 289
+    },
+    {
+      "epoch": 4.027972027972028,
+      "grad_norm": 0.47744905948638916,
+      "learning_rate": 9.549150281252633e-07,
+      "loss": 0.3887,
+      "step": 290
+    },
+    {
+      "epoch": 4.041958041958042,
+      "grad_norm": 0.4749980568885803,
+      "learning_rate": 9.266955042897357e-07,
+      "loss": 0.4085,
+      "step": 291
+    },
+    {
+      "epoch": 4.055944055944056,
+      "grad_norm": 0.4653206169605255,
+      "learning_rate": 8.988565872323362e-07,
+      "loss": 0.3949,
+      "step": 292
+    },
+    {
+      "epoch": 4.06993006993007,
+      "grad_norm": 0.44160446524620056,
+      "learning_rate": 8.714008782023797e-07,
+      "loss": 0.4049,
+      "step": 293
+    },
+    {
+      "epoch": 4.083916083916084,
+      "grad_norm": 0.43797171115875244,
+      "learning_rate": 8.443309426424862e-07,
+      "loss": 0.4038,
+      "step": 294
+    },
+    {
+      "epoch": 4.0979020979020975,
+      "grad_norm": 0.4569723904132843,
+      "learning_rate": 8.176493099488664e-07,
+      "loss": 0.3956,
+      "step": 295
+    },
+    {
+      "epoch": 4.111888111888112,
+      "grad_norm": 0.47445249557495117,
+      "learning_rate": 7.913584732349788e-07,
+      "loss": 0.4107,
+      "step": 296
+    },
+    {
+      "epoch": 4.125874125874126,
+      "grad_norm": 0.46384716033935547,
+      "learning_rate": 7.654608890985709e-07,
+      "loss": 0.3895,
+      "step": 297
+    },
+    {
+      "epoch": 4.13986013986014,
+      "grad_norm": 0.47651711106300354,
+      "learning_rate": 7.399589773921412e-07,
+      "loss": 0.3859,
+      "step": 298
+    },
+    {
+      "epoch": 4.153846153846154,
+      "grad_norm": 0.4623275697231293,
+      "learning_rate": 7.148551209968279e-07,
+      "loss": 0.394,
+      "step": 299
+    },
+    {
+      "epoch": 4.1678321678321675,
+      "grad_norm": 0.4649985432624817,
+      "learning_rate": 6.901516655997536e-07,
+      "loss": 0.4108,
+      "step": 300
+    },
+    {
+      "epoch": 4.181818181818182,
+      "grad_norm": 0.4691464304924011,
+      "learning_rate": 6.658509194748463e-07,
+      "loss": 0.3626,
+      "step": 301
+    },
+    {
+      "epoch": 4.195804195804196,
+      "grad_norm": 0.48455217480659485,
+      "learning_rate": 6.419551532671542e-07,
+      "loss": 0.4172,
+      "step": 302
+    },
+    {
+      "epoch": 4.20979020979021,
+      "grad_norm": 0.482030987739563,
+      "learning_rate": 6.184665997806832e-07,
+      "loss": 0.4038,
+      "step": 303
+    },
+    {
+      "epoch": 4.223776223776224,
+      "grad_norm": 0.4398139715194702,
+      "learning_rate": 5.953874537697573e-07,
+      "loss": 0.4033,
+      "step": 304
+    },
+    {
+      "epoch": 4.2377622377622375,
+      "grad_norm": 0.46925652027130127,
+      "learning_rate": 5.727198717339511e-07,
+      "loss": 0.4091,
+      "step": 305
+    },
+    {
+      "epoch": 4.251748251748252,
+      "grad_norm": 0.46952134370803833,
+      "learning_rate": 5.504659717165812e-07,
+      "loss": 0.4111,
+      "step": 306
+    },
+    {
+      "epoch": 4.251748251748252,
+      "eval_loss": 0.6070981025695801,
+      "eval_runtime": 35.5097,
+      "eval_samples_per_second": 18.08,
+      "eval_steps_per_second": 2.281,
+      "step": 306
+    },
+    {
+      "epoch": 4.265734265734266,
+      "grad_norm": 0.45535174012184143,
+      "learning_rate": 5.286278331068018e-07,
+      "loss": 0.4128,
+      "step": 307
+    },
+    {
+      "epoch": 4.27972027972028,
+      "grad_norm": 0.4438033998012543,
+      "learning_rate": 5.072074964453055e-07,
+      "loss": 0.4052,
+      "step": 308
+    },
+    {
+      "epoch": 4.293706293706293,
+      "grad_norm": 0.4887377917766571,
+      "learning_rate": 4.862069632336558e-07,
+      "loss": 0.3894,
+      "step": 309
+    },
+    {
+      "epoch": 4.3076923076923075,
+      "grad_norm": 0.4616340100765228,
+      "learning_rate": 4.6562819574727304e-07,
+      "loss": 0.4242,
+      "step": 310
+    },
+    {
+      "epoch": 4.321678321678322,
+      "grad_norm": 0.44037091732025146,
+      "learning_rate": 4.454731168520754e-07,
+      "loss": 0.4052,
+      "step": 311
+    },
+    {
+      "epoch": 4.335664335664336,
+      "grad_norm": 0.4455097019672394,
+      "learning_rate": 4.257436098248091e-07,
+      "loss": 0.3882,
+      "step": 312
+    },
+    {
+      "epoch": 4.34965034965035,
+      "grad_norm": 0.47457605600357056,
+      "learning_rate": 4.064415181770787e-07,
+      "loss": 0.4102,
+      "step": 313
+    },
+    {
+      "epoch": 4.363636363636363,
+      "grad_norm": 0.4474296271800995,
+      "learning_rate": 3.875686454830885e-07,
+      "loss": 0.3866,
+      "step": 314
+    },
+    {
+      "epoch": 4.3776223776223775,
+      "grad_norm": 0.44111815094947815,
+      "learning_rate": 3.691267552111183e-07,
+      "loss": 0.4091,
+      "step": 315
+    },
+    {
+      "epoch": 4.391608391608392,
+      "grad_norm": 0.46066638827323914,
+      "learning_rate": 3.511175705587433e-07,
+      "loss": 0.422,
+      "step": 316
+    },
+    {
+      "epoch": 4.405594405594406,
+      "grad_norm": 0.4345090389251709,
+      "learning_rate": 3.3354277429182626e-07,
+      "loss": 0.3882,
+      "step": 317
+    },
+    {
+      "epoch": 4.41958041958042,
+      "grad_norm": 0.462768018245697,
+      "learning_rate": 3.164040085872755e-07,
+      "loss": 0.4125,
+      "step": 318
+    },
+    {
+      "epoch": 4.433566433566433,
+      "grad_norm": 0.4575034976005554,
+      "learning_rate": 2.997028748796016e-07,
+      "loss": 0.4138,
+      "step": 319
+    },
+    {
+      "epoch": 4.4475524475524475,
+      "grad_norm": 0.43728622794151306,
+      "learning_rate": 2.834409337112842e-07,
+      "loss": 0.4133,
+      "step": 320
+    },
+    {
+      "epoch": 4.461538461538462,
+      "grad_norm": 0.4533195495605469,
+      "learning_rate": 2.676197045869511e-07,
+      "loss": 0.4067,
+      "step": 321
+    },
+    {
+      "epoch": 4.475524475524476,
+      "grad_norm": 0.44842609763145447,
+      "learning_rate": 2.522406658313997e-07,
+      "loss": 0.4042,
+      "step": 322
+    },
+    {
+      "epoch": 4.489510489510489,
+      "grad_norm": 0.4315699636936188,
+      "learning_rate": 2.3730525445146146e-07,
+      "loss": 0.3969,
+      "step": 323
+    },
+    {
+      "epoch": 4.503496503496503,
+      "grad_norm": 0.43630900979042053,
+      "learning_rate": 2.2281486600173207e-07,
+      "loss": 0.3907,
+      "step": 324
+    },
+    {
+      "epoch": 4.503496503496503,
+      "eval_loss": 0.6088654398918152,
+      "eval_runtime": 35.0812,
+      "eval_samples_per_second": 18.3,
+      "eval_steps_per_second": 2.309,
+      "step": 324
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 355,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 36,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.819466927829156e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff