Undi95 commited on
Commit
6a965ab
·
verified ·
1 Parent(s): e8d37e5

Upload folder using huggingface_hub

Browse files
model-00001-of-00002.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e55b7e994aed89aebdfc308a37b7fa8cf656e974d606f714f7f59fd2227894b1
3
  size 4965799096
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f1a6b10529c49f267dab1303f60c029426a06dd66fca8c15811e26ede178fcee
3
  size 4965799096
model-00002-of-00002.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f5667ecad0a3059c22ca5ad86224b04787ad156aa6684138c6825aed0883c0f1
3
  size 1459729952
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:94b4d2fbf9759aadec878bab5277561c46f206ca7bf049bc2b8f706adee8d133
3
  size 1459729952
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c9193fa8cf70010c71b5a9976745a677384e893f350b844cef300e95cc242a16
3
+ size 6527220350
rng_state_0.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:92cc13315f24c28015d695b6cde08bb1cd6fea4cbc435998485ed6fbe4c91285
3
  size 15024
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:308f94f9a5c24e1bad5c393d56ae7af7782600f4e791d9c6ac35b22fff2105b6
3
  size 15024
rng_state_1.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f4c154b6a63e0b1f98f7d2847944398f99f1657d35e8eddf7fdf0ae2c24b0552
3
  size 15024
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b056f3c23cb32dc77a2ec9e7651e0b64e4440e21f0fdf969b86bfc56a1cbdf06
3
  size 15024
rng_state_2.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f784c6a9507b51189f2caffbd178ea9882103b75852e31c15f47fdae6a43af1d
3
  size 15024
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f3f8a05714bc528f4885a2816181652f2303b3e8150f89b56aaee6bec56aa520
3
  size 15024
rng_state_3.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:34b023e05bc2d12b91dc436d4922b990d50ec8dc56d40dc3e36b3bb34fc81341
3
  size 15024
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4f755bd3c330281961e5c03af9d10ce8c1e1678619d384f6f1fd5fd7dce2ff50
3
  size 15024
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f214a02387dda6b6a60b5bcf572c422116784505b70613d290ade1a5784ca451
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d581c751b3c27570ea48b8a98b97e22f9e4131f91b7e98afc959d50fcaa099d7
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 1.0,
5
  "eval_steps": 500,
6
- "global_step": 788,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5523,6 +5523,2772 @@
5523
  "learning_rate": 6.156259737516275e-06,
5524
  "loss": 0.5108,
5525
  "step": 788
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5526
  }
5527
  ],
5528
  "logging_steps": 1,
@@ -5542,7 +8308,7 @@
5542
  "attributes": {}
5543
  }
5544
  },
5545
- "total_flos": 1.7456931048259584e+18,
5546
  "train_batch_size": 2,
5547
  "trial_name": null,
5548
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.499047619047619,
5
  "eval_steps": 500,
6
+ "global_step": 1182,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5523
  "learning_rate": 6.156259737516275e-06,
5524
  "loss": 0.5108,
5525
  "step": 788
5526
+ },
5527
+ {
5528
+ "epoch": 1.0006349206349205,
5529
+ "grad_norm": 0.6875,
5530
+ "learning_rate": 6.153909247219202e-06,
5531
+ "loss": 0.6055,
5532
+ "step": 789
5533
+ },
5534
+ {
5535
+ "epoch": 1.0006349206349205,
5536
+ "eval_loss": 1.1893014907836914,
5537
+ "eval_runtime": 99.4944,
5538
+ "eval_samples_per_second": 43.57,
5539
+ "eval_steps_per_second": 5.448,
5540
+ "step": 789
5541
+ },
5542
+ {
5543
+ "epoch": 1.0012698412698413,
5544
+ "grad_norm": 0.96875,
5545
+ "learning_rate": 6.151555937527625e-06,
5546
+ "loss": 1.1263,
5547
+ "step": 790
5548
+ },
5549
+ {
5550
+ "epoch": 1.0025396825396826,
5551
+ "grad_norm": 1.0390625,
5552
+ "learning_rate": 6.149199810941588e-06,
5553
+ "loss": 1.1561,
5554
+ "step": 791
5555
+ },
5556
+ {
5557
+ "epoch": 1.0038095238095237,
5558
+ "grad_norm": 0.90234375,
5559
+ "learning_rate": 6.146840869964141e-06,
5560
+ "loss": 1.0985,
5561
+ "step": 792
5562
+ },
5563
+ {
5564
+ "epoch": 1.005079365079365,
5565
+ "grad_norm": 0.97265625,
5566
+ "learning_rate": 6.144479117101314e-06,
5567
+ "loss": 1.1212,
5568
+ "step": 793
5569
+ },
5570
+ {
5571
+ "epoch": 1.0063492063492063,
5572
+ "grad_norm": 0.90234375,
5573
+ "learning_rate": 6.142114554862129e-06,
5574
+ "loss": 1.0649,
5575
+ "step": 794
5576
+ },
5577
+ {
5578
+ "epoch": 1.0076190476190476,
5579
+ "grad_norm": 0.9453125,
5580
+ "learning_rate": 6.139747185758589e-06,
5581
+ "loss": 1.0868,
5582
+ "step": 795
5583
+ },
5584
+ {
5585
+ "epoch": 1.008888888888889,
5586
+ "grad_norm": 0.88671875,
5587
+ "learning_rate": 6.137377012305684e-06,
5588
+ "loss": 1.105,
5589
+ "step": 796
5590
+ },
5591
+ {
5592
+ "epoch": 1.0101587301587303,
5593
+ "grad_norm": 0.9140625,
5594
+ "learning_rate": 6.135004037021378e-06,
5595
+ "loss": 1.0531,
5596
+ "step": 797
5597
+ },
5598
+ {
5599
+ "epoch": 1.0114285714285713,
5600
+ "grad_norm": 0.94921875,
5601
+ "learning_rate": 6.1326282624266155e-06,
5602
+ "loss": 1.1147,
5603
+ "step": 798
5604
+ },
5605
+ {
5606
+ "epoch": 1.0126984126984127,
5607
+ "grad_norm": 0.9453125,
5608
+ "learning_rate": 6.130249691045313e-06,
5609
+ "loss": 1.1736,
5610
+ "step": 799
5611
+ },
5612
+ {
5613
+ "epoch": 1.013968253968254,
5614
+ "grad_norm": 0.91015625,
5615
+ "learning_rate": 6.127868325404357e-06,
5616
+ "loss": 1.1453,
5617
+ "step": 800
5618
+ },
5619
+ {
5620
+ "epoch": 1.0152380952380953,
5621
+ "grad_norm": 0.90234375,
5622
+ "learning_rate": 6.1254841680336046e-06,
5623
+ "loss": 1.1401,
5624
+ "step": 801
5625
+ },
5626
+ {
5627
+ "epoch": 1.0165079365079366,
5628
+ "grad_norm": 0.90625,
5629
+ "learning_rate": 6.123097221465878e-06,
5630
+ "loss": 1.1181,
5631
+ "step": 802
5632
+ },
5633
+ {
5634
+ "epoch": 1.0177777777777777,
5635
+ "grad_norm": 0.93359375,
5636
+ "learning_rate": 6.120707488236962e-06,
5637
+ "loss": 1.1782,
5638
+ "step": 803
5639
+ },
5640
+ {
5641
+ "epoch": 1.019047619047619,
5642
+ "grad_norm": 0.99609375,
5643
+ "learning_rate": 6.118314970885604e-06,
5644
+ "loss": 1.1901,
5645
+ "step": 804
5646
+ },
5647
+ {
5648
+ "epoch": 1.0203174603174603,
5649
+ "grad_norm": 0.90234375,
5650
+ "learning_rate": 6.115919671953506e-06,
5651
+ "loss": 1.1247,
5652
+ "step": 805
5653
+ },
5654
+ {
5655
+ "epoch": 1.0215873015873016,
5656
+ "grad_norm": 0.92578125,
5657
+ "learning_rate": 6.113521593985326e-06,
5658
+ "loss": 1.2278,
5659
+ "step": 806
5660
+ },
5661
+ {
5662
+ "epoch": 1.022857142857143,
5663
+ "grad_norm": 0.88671875,
5664
+ "learning_rate": 6.111120739528676e-06,
5665
+ "loss": 1.1343,
5666
+ "step": 807
5667
+ },
5668
+ {
5669
+ "epoch": 1.0241269841269842,
5670
+ "grad_norm": 0.9921875,
5671
+ "learning_rate": 6.108717111134116e-06,
5672
+ "loss": 1.2013,
5673
+ "step": 808
5674
+ },
5675
+ {
5676
+ "epoch": 1.0253968253968253,
5677
+ "grad_norm": 0.94140625,
5678
+ "learning_rate": 6.106310711355153e-06,
5679
+ "loss": 1.1276,
5680
+ "step": 809
5681
+ },
5682
+ {
5683
+ "epoch": 1.0266666666666666,
5684
+ "grad_norm": 1.0078125,
5685
+ "learning_rate": 6.10390154274824e-06,
5686
+ "loss": 1.1422,
5687
+ "step": 810
5688
+ },
5689
+ {
5690
+ "epoch": 1.027936507936508,
5691
+ "grad_norm": 0.9609375,
5692
+ "learning_rate": 6.101489607872768e-06,
5693
+ "loss": 1.0979,
5694
+ "step": 811
5695
+ },
5696
+ {
5697
+ "epoch": 1.0292063492063492,
5698
+ "grad_norm": 0.91015625,
5699
+ "learning_rate": 6.099074909291069e-06,
5700
+ "loss": 1.0752,
5701
+ "step": 812
5702
+ },
5703
+ {
5704
+ "epoch": 1.0304761904761905,
5705
+ "grad_norm": 0.95703125,
5706
+ "learning_rate": 6.096657449568412e-06,
5707
+ "loss": 1.1214,
5708
+ "step": 813
5709
+ },
5710
+ {
5711
+ "epoch": 1.0317460317460316,
5712
+ "grad_norm": 0.9140625,
5713
+ "learning_rate": 6.094237231272998e-06,
5714
+ "loss": 1.1449,
5715
+ "step": 814
5716
+ },
5717
+ {
5718
+ "epoch": 1.033015873015873,
5719
+ "grad_norm": 0.97265625,
5720
+ "learning_rate": 6.091814256975957e-06,
5721
+ "loss": 1.153,
5722
+ "step": 815
5723
+ },
5724
+ {
5725
+ "epoch": 1.0342857142857143,
5726
+ "grad_norm": 0.99609375,
5727
+ "learning_rate": 6.089388529251351e-06,
5728
+ "loss": 1.159,
5729
+ "step": 816
5730
+ },
5731
+ {
5732
+ "epoch": 1.0355555555555556,
5733
+ "grad_norm": 0.9296875,
5734
+ "learning_rate": 6.086960050676163e-06,
5735
+ "loss": 1.1684,
5736
+ "step": 817
5737
+ },
5738
+ {
5739
+ "epoch": 1.0368253968253969,
5740
+ "grad_norm": 0.9140625,
5741
+ "learning_rate": 6.084528823830299e-06,
5742
+ "loss": 1.1217,
5743
+ "step": 818
5744
+ },
5745
+ {
5746
+ "epoch": 1.0380952380952382,
5747
+ "grad_norm": 0.984375,
5748
+ "learning_rate": 6.082094851296589e-06,
5749
+ "loss": 1.1292,
5750
+ "step": 819
5751
+ },
5752
+ {
5753
+ "epoch": 1.0393650793650793,
5754
+ "grad_norm": 0.97265625,
5755
+ "learning_rate": 6.079658135660774e-06,
5756
+ "loss": 1.1013,
5757
+ "step": 820
5758
+ },
5759
+ {
5760
+ "epoch": 1.0406349206349206,
5761
+ "grad_norm": 0.98046875,
5762
+ "learning_rate": 6.077218679511512e-06,
5763
+ "loss": 1.1311,
5764
+ "step": 821
5765
+ },
5766
+ {
5767
+ "epoch": 1.041904761904762,
5768
+ "grad_norm": 1.015625,
5769
+ "learning_rate": 6.074776485440372e-06,
5770
+ "loss": 1.197,
5771
+ "step": 822
5772
+ },
5773
+ {
5774
+ "epoch": 1.0431746031746032,
5775
+ "grad_norm": 0.94140625,
5776
+ "learning_rate": 6.072331556041833e-06,
5777
+ "loss": 1.054,
5778
+ "step": 823
5779
+ },
5780
+ {
5781
+ "epoch": 1.0444444444444445,
5782
+ "grad_norm": 1.0390625,
5783
+ "learning_rate": 6.0698838939132786e-06,
5784
+ "loss": 1.1083,
5785
+ "step": 824
5786
+ },
5787
+ {
5788
+ "epoch": 1.0457142857142858,
5789
+ "grad_norm": 0.98046875,
5790
+ "learning_rate": 6.0674335016549945e-06,
5791
+ "loss": 1.1574,
5792
+ "step": 825
5793
+ },
5794
+ {
5795
+ "epoch": 1.046984126984127,
5796
+ "grad_norm": 0.91796875,
5797
+ "learning_rate": 6.064980381870168e-06,
5798
+ "loss": 1.1341,
5799
+ "step": 826
5800
+ },
5801
+ {
5802
+ "epoch": 1.0482539682539682,
5803
+ "grad_norm": 0.91796875,
5804
+ "learning_rate": 6.062524537164885e-06,
5805
+ "loss": 1.1482,
5806
+ "step": 827
5807
+ },
5808
+ {
5809
+ "epoch": 1.0495238095238095,
5810
+ "grad_norm": 0.9375,
5811
+ "learning_rate": 6.060065970148123e-06,
5812
+ "loss": 1.0957,
5813
+ "step": 828
5814
+ },
5815
+ {
5816
+ "epoch": 1.0507936507936508,
5817
+ "grad_norm": 1.0078125,
5818
+ "learning_rate": 6.057604683431756e-06,
5819
+ "loss": 1.1756,
5820
+ "step": 829
5821
+ },
5822
+ {
5823
+ "epoch": 1.0520634920634921,
5824
+ "grad_norm": 1.0234375,
5825
+ "learning_rate": 6.055140679630543e-06,
5826
+ "loss": 1.199,
5827
+ "step": 830
5828
+ },
5829
+ {
5830
+ "epoch": 1.0533333333333332,
5831
+ "grad_norm": 0.9140625,
5832
+ "learning_rate": 6.052673961362132e-06,
5833
+ "loss": 1.1214,
5834
+ "step": 831
5835
+ },
5836
+ {
5837
+ "epoch": 1.0546031746031745,
5838
+ "grad_norm": 0.94921875,
5839
+ "learning_rate": 6.050204531247056e-06,
5840
+ "loss": 1.1826,
5841
+ "step": 832
5842
+ },
5843
+ {
5844
+ "epoch": 1.0558730158730159,
5845
+ "grad_norm": 1.0234375,
5846
+ "learning_rate": 6.047732391908725e-06,
5847
+ "loss": 1.0719,
5848
+ "step": 833
5849
+ },
5850
+ {
5851
+ "epoch": 1.0571428571428572,
5852
+ "grad_norm": 1.046875,
5853
+ "learning_rate": 6.04525754597343e-06,
5854
+ "loss": 1.1604,
5855
+ "step": 834
5856
+ },
5857
+ {
5858
+ "epoch": 1.0584126984126985,
5859
+ "grad_norm": 1.0078125,
5860
+ "learning_rate": 6.042779996070335e-06,
5861
+ "loss": 1.1072,
5862
+ "step": 835
5863
+ },
5864
+ {
5865
+ "epoch": 1.0596825396825398,
5866
+ "grad_norm": 1.015625,
5867
+ "learning_rate": 6.040299744831482e-06,
5868
+ "loss": 1.1305,
5869
+ "step": 836
5870
+ },
5871
+ {
5872
+ "epoch": 1.0609523809523809,
5873
+ "grad_norm": 0.97265625,
5874
+ "learning_rate": 6.0378167948917755e-06,
5875
+ "loss": 1.0534,
5876
+ "step": 837
5877
+ },
5878
+ {
5879
+ "epoch": 1.0622222222222222,
5880
+ "grad_norm": 0.96875,
5881
+ "learning_rate": 6.035331148888992e-06,
5882
+ "loss": 1.1919,
5883
+ "step": 838
5884
+ },
5885
+ {
5886
+ "epoch": 1.0634920634920635,
5887
+ "grad_norm": 0.99609375,
5888
+ "learning_rate": 6.032842809463771e-06,
5889
+ "loss": 1.1266,
5890
+ "step": 839
5891
+ },
5892
+ {
5893
+ "epoch": 1.0647619047619048,
5894
+ "grad_norm": 1.0,
5895
+ "learning_rate": 6.030351779259612e-06,
5896
+ "loss": 1.1957,
5897
+ "step": 840
5898
+ },
5899
+ {
5900
+ "epoch": 1.066031746031746,
5901
+ "grad_norm": 0.9609375,
5902
+ "learning_rate": 6.027858060922874e-06,
5903
+ "loss": 1.1445,
5904
+ "step": 841
5905
+ },
5906
+ {
5907
+ "epoch": 1.0673015873015874,
5908
+ "grad_norm": 0.9453125,
5909
+ "learning_rate": 6.025361657102773e-06,
5910
+ "loss": 1.0895,
5911
+ "step": 842
5912
+ },
5913
+ {
5914
+ "epoch": 1.0685714285714285,
5915
+ "grad_norm": 1.015625,
5916
+ "learning_rate": 6.022862570451376e-06,
5917
+ "loss": 1.2063,
5918
+ "step": 843
5919
+ },
5920
+ {
5921
+ "epoch": 1.0698412698412698,
5922
+ "grad_norm": 0.9609375,
5923
+ "learning_rate": 6.020360803623601e-06,
5924
+ "loss": 1.0889,
5925
+ "step": 844
5926
+ },
5927
+ {
5928
+ "epoch": 1.0711111111111111,
5929
+ "grad_norm": 0.9609375,
5930
+ "learning_rate": 6.017856359277215e-06,
5931
+ "loss": 1.138,
5932
+ "step": 845
5933
+ },
5934
+ {
5935
+ "epoch": 1.0723809523809524,
5936
+ "grad_norm": 1.0234375,
5937
+ "learning_rate": 6.015349240072824e-06,
5938
+ "loss": 1.1788,
5939
+ "step": 846
5940
+ },
5941
+ {
5942
+ "epoch": 1.0736507936507937,
5943
+ "grad_norm": 0.90234375,
5944
+ "learning_rate": 6.012839448673882e-06,
5945
+ "loss": 1.1004,
5946
+ "step": 847
5947
+ },
5948
+ {
5949
+ "epoch": 1.0749206349206348,
5950
+ "grad_norm": 1.0,
5951
+ "learning_rate": 6.010326987746679e-06,
5952
+ "loss": 1.1197,
5953
+ "step": 848
5954
+ },
5955
+ {
5956
+ "epoch": 1.0761904761904761,
5957
+ "grad_norm": 0.9609375,
5958
+ "learning_rate": 6.007811859960339e-06,
5959
+ "loss": 1.0873,
5960
+ "step": 849
5961
+ },
5962
+ {
5963
+ "epoch": 1.0774603174603175,
5964
+ "grad_norm": 1.0078125,
5965
+ "learning_rate": 6.005294067986824e-06,
5966
+ "loss": 1.1637,
5967
+ "step": 850
5968
+ },
5969
+ {
5970
+ "epoch": 1.0787301587301588,
5971
+ "grad_norm": 0.890625,
5972
+ "learning_rate": 6.002773614500922e-06,
5973
+ "loss": 1.1315,
5974
+ "step": 851
5975
+ },
5976
+ {
5977
+ "epoch": 1.08,
5978
+ "grad_norm": 0.96875,
5979
+ "learning_rate": 6.000250502180251e-06,
5980
+ "loss": 1.1133,
5981
+ "step": 852
5982
+ },
5983
+ {
5984
+ "epoch": 1.0812698412698412,
5985
+ "grad_norm": 0.9375,
5986
+ "learning_rate": 5.9977247337052515e-06,
5987
+ "loss": 1.1943,
5988
+ "step": 853
5989
+ },
5990
+ {
5991
+ "epoch": 1.0825396825396825,
5992
+ "grad_norm": 0.984375,
5993
+ "learning_rate": 5.995196311759189e-06,
5994
+ "loss": 1.133,
5995
+ "step": 854
5996
+ },
5997
+ {
5998
+ "epoch": 1.0838095238095238,
5999
+ "grad_norm": 0.9765625,
6000
+ "learning_rate": 5.992665239028144e-06,
6001
+ "loss": 1.1914,
6002
+ "step": 855
6003
+ },
6004
+ {
6005
+ "epoch": 1.085079365079365,
6006
+ "grad_norm": 0.9375,
6007
+ "learning_rate": 5.990131518201016e-06,
6008
+ "loss": 1.1349,
6009
+ "step": 856
6010
+ },
6011
+ {
6012
+ "epoch": 1.0863492063492064,
6013
+ "grad_norm": 0.9609375,
6014
+ "learning_rate": 5.987595151969516e-06,
6015
+ "loss": 1.1804,
6016
+ "step": 857
6017
+ },
6018
+ {
6019
+ "epoch": 1.0876190476190477,
6020
+ "grad_norm": 0.98046875,
6021
+ "learning_rate": 5.985056143028167e-06,
6022
+ "loss": 1.1553,
6023
+ "step": 858
6024
+ },
6025
+ {
6026
+ "epoch": 1.0888888888888888,
6027
+ "grad_norm": 0.94140625,
6028
+ "learning_rate": 5.982514494074297e-06,
6029
+ "loss": 1.0719,
6030
+ "step": 859
6031
+ },
6032
+ {
6033
+ "epoch": 1.09015873015873,
6034
+ "grad_norm": 1.0078125,
6035
+ "learning_rate": 5.979970207808042e-06,
6036
+ "loss": 1.1532,
6037
+ "step": 860
6038
+ },
6039
+ {
6040
+ "epoch": 1.0914285714285714,
6041
+ "grad_norm": 0.8984375,
6042
+ "learning_rate": 5.9774232869323365e-06,
6043
+ "loss": 1.0941,
6044
+ "step": 861
6045
+ },
6046
+ {
6047
+ "epoch": 1.0926984126984127,
6048
+ "grad_norm": 0.921875,
6049
+ "learning_rate": 5.974873734152916e-06,
6050
+ "loss": 1.1314,
6051
+ "step": 862
6052
+ },
6053
+ {
6054
+ "epoch": 1.093968253968254,
6055
+ "grad_norm": 0.97265625,
6056
+ "learning_rate": 5.972321552178312e-06,
6057
+ "loss": 1.165,
6058
+ "step": 863
6059
+ },
6060
+ {
6061
+ "epoch": 1.0952380952380953,
6062
+ "grad_norm": 0.95703125,
6063
+ "learning_rate": 5.969766743719847e-06,
6064
+ "loss": 1.1825,
6065
+ "step": 864
6066
+ },
6067
+ {
6068
+ "epoch": 1.0965079365079364,
6069
+ "grad_norm": 1.0234375,
6070
+ "learning_rate": 5.967209311491636e-06,
6071
+ "loss": 1.1202,
6072
+ "step": 865
6073
+ },
6074
+ {
6075
+ "epoch": 1.0977777777777777,
6076
+ "grad_norm": 1.0078125,
6077
+ "learning_rate": 5.964649258210583e-06,
6078
+ "loss": 1.139,
6079
+ "step": 866
6080
+ },
6081
+ {
6082
+ "epoch": 1.099047619047619,
6083
+ "grad_norm": 0.8828125,
6084
+ "learning_rate": 5.962086586596369e-06,
6085
+ "loss": 1.0856,
6086
+ "step": 867
6087
+ },
6088
+ {
6089
+ "epoch": 1.1003174603174604,
6090
+ "grad_norm": 0.9609375,
6091
+ "learning_rate": 5.959521299371465e-06,
6092
+ "loss": 1.1494,
6093
+ "step": 868
6094
+ },
6095
+ {
6096
+ "epoch": 1.1015873015873017,
6097
+ "grad_norm": 0.91796875,
6098
+ "learning_rate": 5.956953399261118e-06,
6099
+ "loss": 1.0633,
6100
+ "step": 869
6101
+ },
6102
+ {
6103
+ "epoch": 1.1028571428571428,
6104
+ "grad_norm": 0.90234375,
6105
+ "learning_rate": 5.9543828889933484e-06,
6106
+ "loss": 1.1601,
6107
+ "step": 870
6108
+ },
6109
+ {
6110
+ "epoch": 1.104126984126984,
6111
+ "grad_norm": 0.97265625,
6112
+ "learning_rate": 5.951809771298954e-06,
6113
+ "loss": 1.1452,
6114
+ "step": 871
6115
+ },
6116
+ {
6117
+ "epoch": 1.1053968253968254,
6118
+ "grad_norm": 0.921875,
6119
+ "learning_rate": 5.949234048911497e-06,
6120
+ "loss": 1.0889,
6121
+ "step": 872
6122
+ },
6123
+ {
6124
+ "epoch": 1.1066666666666667,
6125
+ "grad_norm": 1.0078125,
6126
+ "learning_rate": 5.94665572456731e-06,
6127
+ "loss": 1.1215,
6128
+ "step": 873
6129
+ },
6130
+ {
6131
+ "epoch": 1.107936507936508,
6132
+ "grad_norm": 1.0,
6133
+ "learning_rate": 5.94407480100549e-06,
6134
+ "loss": 1.1259,
6135
+ "step": 874
6136
+ },
6137
+ {
6138
+ "epoch": 1.1092063492063493,
6139
+ "grad_norm": 0.94140625,
6140
+ "learning_rate": 5.941491280967898e-06,
6141
+ "loss": 1.0588,
6142
+ "step": 875
6143
+ },
6144
+ {
6145
+ "epoch": 1.1104761904761904,
6146
+ "grad_norm": 0.9921875,
6147
+ "learning_rate": 5.938905167199145e-06,
6148
+ "loss": 1.1346,
6149
+ "step": 876
6150
+ },
6151
+ {
6152
+ "epoch": 1.1117460317460317,
6153
+ "grad_norm": 0.9765625,
6154
+ "learning_rate": 5.936316462446605e-06,
6155
+ "loss": 1.0855,
6156
+ "step": 877
6157
+ },
6158
+ {
6159
+ "epoch": 1.113015873015873,
6160
+ "grad_norm": 0.93359375,
6161
+ "learning_rate": 5.933725169460404e-06,
6162
+ "loss": 1.1648,
6163
+ "step": 878
6164
+ },
6165
+ {
6166
+ "epoch": 1.1142857142857143,
6167
+ "grad_norm": 0.9609375,
6168
+ "learning_rate": 5.931131290993411e-06,
6169
+ "loss": 1.1728,
6170
+ "step": 879
6171
+ },
6172
+ {
6173
+ "epoch": 1.1155555555555556,
6174
+ "grad_norm": 0.9765625,
6175
+ "learning_rate": 5.928534829801252e-06,
6176
+ "loss": 1.082,
6177
+ "step": 880
6178
+ },
6179
+ {
6180
+ "epoch": 1.116825396825397,
6181
+ "grad_norm": 0.9765625,
6182
+ "learning_rate": 5.9259357886422866e-06,
6183
+ "loss": 1.1417,
6184
+ "step": 881
6185
+ },
6186
+ {
6187
+ "epoch": 1.118095238095238,
6188
+ "grad_norm": 0.94921875,
6189
+ "learning_rate": 5.923334170277623e-06,
6190
+ "loss": 1.1807,
6191
+ "step": 882
6192
+ },
6193
+ {
6194
+ "epoch": 1.1193650793650793,
6195
+ "grad_norm": 0.8984375,
6196
+ "learning_rate": 5.9207299774711025e-06,
6197
+ "loss": 1.1927,
6198
+ "step": 883
6199
+ },
6200
+ {
6201
+ "epoch": 1.1206349206349207,
6202
+ "grad_norm": 0.9609375,
6203
+ "learning_rate": 5.918123212989304e-06,
6204
+ "loss": 1.1026,
6205
+ "step": 884
6206
+ },
6207
+ {
6208
+ "epoch": 1.121904761904762,
6209
+ "grad_norm": 0.921875,
6210
+ "learning_rate": 5.915513879601538e-06,
6211
+ "loss": 1.1803,
6212
+ "step": 885
6213
+ },
6214
+ {
6215
+ "epoch": 1.1231746031746033,
6216
+ "grad_norm": 0.94140625,
6217
+ "learning_rate": 5.912901980079843e-06,
6218
+ "loss": 1.1667,
6219
+ "step": 886
6220
+ },
6221
+ {
6222
+ "epoch": 1.1244444444444444,
6223
+ "grad_norm": 0.93359375,
6224
+ "learning_rate": 5.910287517198983e-06,
6225
+ "loss": 1.1347,
6226
+ "step": 887
6227
+ },
6228
+ {
6229
+ "epoch": 1.1257142857142857,
6230
+ "grad_norm": 0.91796875,
6231
+ "learning_rate": 5.9076704937364475e-06,
6232
+ "loss": 1.1578,
6233
+ "step": 888
6234
+ },
6235
+ {
6236
+ "epoch": 1.126984126984127,
6237
+ "grad_norm": 0.96875,
6238
+ "learning_rate": 5.9050509124724456e-06,
6239
+ "loss": 1.1774,
6240
+ "step": 889
6241
+ },
6242
+ {
6243
+ "epoch": 1.1282539682539683,
6244
+ "grad_norm": 0.93359375,
6245
+ "learning_rate": 5.902428776189903e-06,
6246
+ "loss": 1.1567,
6247
+ "step": 890
6248
+ },
6249
+ {
6250
+ "epoch": 1.1295238095238096,
6251
+ "grad_norm": 0.94140625,
6252
+ "learning_rate": 5.899804087674461e-06,
6253
+ "loss": 1.1014,
6254
+ "step": 891
6255
+ },
6256
+ {
6257
+ "epoch": 1.1307936507936507,
6258
+ "grad_norm": 0.94921875,
6259
+ "learning_rate": 5.897176849714469e-06,
6260
+ "loss": 1.1083,
6261
+ "step": 892
6262
+ },
6263
+ {
6264
+ "epoch": 1.132063492063492,
6265
+ "grad_norm": 0.9296875,
6266
+ "learning_rate": 5.8945470651009875e-06,
6267
+ "loss": 1.1097,
6268
+ "step": 893
6269
+ },
6270
+ {
6271
+ "epoch": 1.1333333333333333,
6272
+ "grad_norm": 0.9453125,
6273
+ "learning_rate": 5.891914736627785e-06,
6274
+ "loss": 1.096,
6275
+ "step": 894
6276
+ },
6277
+ {
6278
+ "epoch": 1.1346031746031746,
6279
+ "grad_norm": 0.95703125,
6280
+ "learning_rate": 5.8892798670913275e-06,
6281
+ "loss": 1.1589,
6282
+ "step": 895
6283
+ },
6284
+ {
6285
+ "epoch": 1.135873015873016,
6286
+ "grad_norm": 0.98046875,
6287
+ "learning_rate": 5.886642459290782e-06,
6288
+ "loss": 1.1019,
6289
+ "step": 896
6290
+ },
6291
+ {
6292
+ "epoch": 1.1371428571428572,
6293
+ "grad_norm": 0.921875,
6294
+ "learning_rate": 5.884002516028012e-06,
6295
+ "loss": 1.1257,
6296
+ "step": 897
6297
+ },
6298
+ {
6299
+ "epoch": 1.1384126984126983,
6300
+ "grad_norm": 0.9140625,
6301
+ "learning_rate": 5.881360040107578e-06,
6302
+ "loss": 1.1422,
6303
+ "step": 898
6304
+ },
6305
+ {
6306
+ "epoch": 1.1396825396825396,
6307
+ "grad_norm": 0.90625,
6308
+ "learning_rate": 5.878715034336726e-06,
6309
+ "loss": 1.1903,
6310
+ "step": 899
6311
+ },
6312
+ {
6313
+ "epoch": 1.140952380952381,
6314
+ "grad_norm": 0.92578125,
6315
+ "learning_rate": 5.8760675015253935e-06,
6316
+ "loss": 1.1277,
6317
+ "step": 900
6318
+ },
6319
+ {
6320
+ "epoch": 1.1422222222222222,
6321
+ "grad_norm": 0.9453125,
6322
+ "learning_rate": 5.8734174444862e-06,
6323
+ "loss": 1.1103,
6324
+ "step": 901
6325
+ },
6326
+ {
6327
+ "epoch": 1.1434920634920636,
6328
+ "grad_norm": 0.9296875,
6329
+ "learning_rate": 5.8707648660344454e-06,
6330
+ "loss": 1.1382,
6331
+ "step": 902
6332
+ },
6333
+ {
6334
+ "epoch": 1.1447619047619049,
6335
+ "grad_norm": 0.91015625,
6336
+ "learning_rate": 5.868109768988114e-06,
6337
+ "loss": 1.1512,
6338
+ "step": 903
6339
+ },
6340
+ {
6341
+ "epoch": 1.146031746031746,
6342
+ "grad_norm": 0.9375,
6343
+ "learning_rate": 5.865452156167861e-06,
6344
+ "loss": 1.1509,
6345
+ "step": 904
6346
+ },
6347
+ {
6348
+ "epoch": 1.1473015873015873,
6349
+ "grad_norm": 0.96484375,
6350
+ "learning_rate": 5.862792030397015e-06,
6351
+ "loss": 1.1152,
6352
+ "step": 905
6353
+ },
6354
+ {
6355
+ "epoch": 1.1485714285714286,
6356
+ "grad_norm": 0.91015625,
6357
+ "learning_rate": 5.8601293945015745e-06,
6358
+ "loss": 1.142,
6359
+ "step": 906
6360
+ },
6361
+ {
6362
+ "epoch": 1.1498412698412699,
6363
+ "grad_norm": 0.9765625,
6364
+ "learning_rate": 5.857464251310206e-06,
6365
+ "loss": 1.0839,
6366
+ "step": 907
6367
+ },
6368
+ {
6369
+ "epoch": 1.1511111111111112,
6370
+ "grad_norm": 0.9921875,
6371
+ "learning_rate": 5.854796603654236e-06,
6372
+ "loss": 1.2105,
6373
+ "step": 908
6374
+ },
6375
+ {
6376
+ "epoch": 1.1523809523809523,
6377
+ "grad_norm": 1.0078125,
6378
+ "learning_rate": 5.852126454367657e-06,
6379
+ "loss": 1.1147,
6380
+ "step": 909
6381
+ },
6382
+ {
6383
+ "epoch": 1.1536507936507936,
6384
+ "grad_norm": 0.90234375,
6385
+ "learning_rate": 5.8494538062871145e-06,
6386
+ "loss": 1.1292,
6387
+ "step": 910
6388
+ },
6389
+ {
6390
+ "epoch": 1.154920634920635,
6391
+ "grad_norm": 0.91015625,
6392
+ "learning_rate": 5.8467786622519105e-06,
6393
+ "loss": 1.1353,
6394
+ "step": 911
6395
+ },
6396
+ {
6397
+ "epoch": 1.1561904761904762,
6398
+ "grad_norm": 0.94140625,
6399
+ "learning_rate": 5.844101025103999e-06,
6400
+ "loss": 1.0897,
6401
+ "step": 912
6402
+ },
6403
+ {
6404
+ "epoch": 1.1574603174603175,
6405
+ "grad_norm": 0.97265625,
6406
+ "learning_rate": 5.841420897687981e-06,
6407
+ "loss": 1.1639,
6408
+ "step": 913
6409
+ },
6410
+ {
6411
+ "epoch": 1.1587301587301586,
6412
+ "grad_norm": 0.94921875,
6413
+ "learning_rate": 5.838738282851105e-06,
6414
+ "loss": 1.1634,
6415
+ "step": 914
6416
+ },
6417
+ {
6418
+ "epoch": 1.16,
6419
+ "grad_norm": 0.953125,
6420
+ "learning_rate": 5.836053183443262e-06,
6421
+ "loss": 1.1569,
6422
+ "step": 915
6423
+ },
6424
+ {
6425
+ "epoch": 1.1612698412698412,
6426
+ "grad_norm": 1.0390625,
6427
+ "learning_rate": 5.833365602316978e-06,
6428
+ "loss": 1.2137,
6429
+ "step": 916
6430
+ },
6431
+ {
6432
+ "epoch": 1.1625396825396825,
6433
+ "grad_norm": 0.8671875,
6434
+ "learning_rate": 5.830675542327421e-06,
6435
+ "loss": 1.111,
6436
+ "step": 917
6437
+ },
6438
+ {
6439
+ "epoch": 1.1638095238095238,
6440
+ "grad_norm": 0.90234375,
6441
+ "learning_rate": 5.827983006332391e-06,
6442
+ "loss": 1.0904,
6443
+ "step": 918
6444
+ },
6445
+ {
6446
+ "epoch": 1.1650793650793652,
6447
+ "grad_norm": 0.95703125,
6448
+ "learning_rate": 5.825287997192318e-06,
6449
+ "loss": 1.1414,
6450
+ "step": 919
6451
+ },
6452
+ {
6453
+ "epoch": 1.1663492063492065,
6454
+ "grad_norm": 0.8671875,
6455
+ "learning_rate": 5.822590517770259e-06,
6456
+ "loss": 1.1094,
6457
+ "step": 920
6458
+ },
6459
+ {
6460
+ "epoch": 1.1676190476190476,
6461
+ "grad_norm": 0.92578125,
6462
+ "learning_rate": 5.819890570931895e-06,
6463
+ "loss": 1.128,
6464
+ "step": 921
6465
+ },
6466
+ {
6467
+ "epoch": 1.1688888888888889,
6468
+ "grad_norm": 1.0078125,
6469
+ "learning_rate": 5.817188159545529e-06,
6470
+ "loss": 1.1724,
6471
+ "step": 922
6472
+ },
6473
+ {
6474
+ "epoch": 1.1701587301587302,
6475
+ "grad_norm": 1.0234375,
6476
+ "learning_rate": 5.814483286482081e-06,
6477
+ "loss": 1.0582,
6478
+ "step": 923
6479
+ },
6480
+ {
6481
+ "epoch": 1.1714285714285715,
6482
+ "grad_norm": 0.91796875,
6483
+ "learning_rate": 5.811775954615088e-06,
6484
+ "loss": 1.0837,
6485
+ "step": 924
6486
+ },
6487
+ {
6488
+ "epoch": 1.1726984126984128,
6489
+ "grad_norm": 0.89453125,
6490
+ "learning_rate": 5.809066166820699e-06,
6491
+ "loss": 1.0938,
6492
+ "step": 925
6493
+ },
6494
+ {
6495
+ "epoch": 1.1739682539682539,
6496
+ "grad_norm": 0.94140625,
6497
+ "learning_rate": 5.806353925977671e-06,
6498
+ "loss": 1.1441,
6499
+ "step": 926
6500
+ },
6501
+ {
6502
+ "epoch": 1.1752380952380952,
6503
+ "grad_norm": 1.03125,
6504
+ "learning_rate": 5.803639234967367e-06,
6505
+ "loss": 1.1908,
6506
+ "step": 927
6507
+ },
6508
+ {
6509
+ "epoch": 1.1765079365079365,
6510
+ "grad_norm": 0.9921875,
6511
+ "learning_rate": 5.800922096673753e-06,
6512
+ "loss": 1.1109,
6513
+ "step": 928
6514
+ },
6515
+ {
6516
+ "epoch": 1.1777777777777778,
6517
+ "grad_norm": 0.88671875,
6518
+ "learning_rate": 5.798202513983397e-06,
6519
+ "loss": 1.1131,
6520
+ "step": 929
6521
+ },
6522
+ {
6523
+ "epoch": 1.1790476190476191,
6524
+ "grad_norm": 0.91796875,
6525
+ "learning_rate": 5.79548048978546e-06,
6526
+ "loss": 1.1502,
6527
+ "step": 930
6528
+ },
6529
+ {
6530
+ "epoch": 1.1803174603174602,
6531
+ "grad_norm": 0.96875,
6532
+ "learning_rate": 5.7927560269717e-06,
6533
+ "loss": 1.1954,
6534
+ "step": 931
6535
+ },
6536
+ {
6537
+ "epoch": 1.1815873015873015,
6538
+ "grad_norm": 1.0078125,
6539
+ "learning_rate": 5.790029128436464e-06,
6540
+ "loss": 1.1165,
6541
+ "step": 932
6542
+ },
6543
+ {
6544
+ "epoch": 1.1828571428571428,
6545
+ "grad_norm": 0.94921875,
6546
+ "learning_rate": 5.787299797076686e-06,
6547
+ "loss": 1.1306,
6548
+ "step": 933
6549
+ },
6550
+ {
6551
+ "epoch": 1.1841269841269841,
6552
+ "grad_norm": 0.9375,
6553
+ "learning_rate": 5.784568035791887e-06,
6554
+ "loss": 1.1082,
6555
+ "step": 934
6556
+ },
6557
+ {
6558
+ "epoch": 1.1853968253968254,
6559
+ "grad_norm": 0.9296875,
6560
+ "learning_rate": 5.781833847484169e-06,
6561
+ "loss": 1.1388,
6562
+ "step": 935
6563
+ },
6564
+ {
6565
+ "epoch": 1.1866666666666668,
6566
+ "grad_norm": 0.98046875,
6567
+ "learning_rate": 5.7790972350582095e-06,
6568
+ "loss": 1.1739,
6569
+ "step": 936
6570
+ },
6571
+ {
6572
+ "epoch": 1.1879365079365078,
6573
+ "grad_norm": 0.93359375,
6574
+ "learning_rate": 5.776358201421263e-06,
6575
+ "loss": 1.1154,
6576
+ "step": 937
6577
+ },
6578
+ {
6579
+ "epoch": 1.1892063492063492,
6580
+ "grad_norm": 0.95703125,
6581
+ "learning_rate": 5.773616749483157e-06,
6582
+ "loss": 1.1866,
6583
+ "step": 938
6584
+ },
6585
+ {
6586
+ "epoch": 1.1904761904761905,
6587
+ "grad_norm": 0.9609375,
6588
+ "learning_rate": 5.770872882156288e-06,
6589
+ "loss": 1.2014,
6590
+ "step": 939
6591
+ },
6592
+ {
6593
+ "epoch": 1.1917460317460318,
6594
+ "grad_norm": 0.8984375,
6595
+ "learning_rate": 5.768126602355618e-06,
6596
+ "loss": 1.0875,
6597
+ "step": 940
6598
+ },
6599
+ {
6600
+ "epoch": 1.193015873015873,
6601
+ "grad_norm": 0.9375,
6602
+ "learning_rate": 5.765377912998671e-06,
6603
+ "loss": 1.1382,
6604
+ "step": 941
6605
+ },
6606
+ {
6607
+ "epoch": 1.1942857142857144,
6608
+ "grad_norm": 0.890625,
6609
+ "learning_rate": 5.762626817005533e-06,
6610
+ "loss": 1.0788,
6611
+ "step": 942
6612
+ },
6613
+ {
6614
+ "epoch": 1.1955555555555555,
6615
+ "grad_norm": 1.0625,
6616
+ "learning_rate": 5.759873317298842e-06,
6617
+ "loss": 1.1058,
6618
+ "step": 943
6619
+ },
6620
+ {
6621
+ "epoch": 1.1968253968253968,
6622
+ "grad_norm": 0.96875,
6623
+ "learning_rate": 5.757117416803798e-06,
6624
+ "loss": 1.1358,
6625
+ "step": 944
6626
+ },
6627
+ {
6628
+ "epoch": 1.198095238095238,
6629
+ "grad_norm": 0.9609375,
6630
+ "learning_rate": 5.754359118448141e-06,
6631
+ "loss": 1.1381,
6632
+ "step": 945
6633
+ },
6634
+ {
6635
+ "epoch": 1.1993650793650794,
6636
+ "grad_norm": 0.9140625,
6637
+ "learning_rate": 5.751598425162169e-06,
6638
+ "loss": 1.2095,
6639
+ "step": 946
6640
+ },
6641
+ {
6642
+ "epoch": 1.2006349206349207,
6643
+ "grad_norm": 1.0390625,
6644
+ "learning_rate": 5.7488353398787165e-06,
6645
+ "loss": 1.1923,
6646
+ "step": 947
6647
+ },
6648
+ {
6649
+ "epoch": 1.2019047619047618,
6650
+ "grad_norm": 0.90625,
6651
+ "learning_rate": 5.746069865533161e-06,
6652
+ "loss": 1.0759,
6653
+ "step": 948
6654
+ },
6655
+ {
6656
+ "epoch": 1.2031746031746031,
6657
+ "grad_norm": 0.87109375,
6658
+ "learning_rate": 5.743302005063419e-06,
6659
+ "loss": 1.0627,
6660
+ "step": 949
6661
+ },
6662
+ {
6663
+ "epoch": 1.2044444444444444,
6664
+ "grad_norm": 0.94921875,
6665
+ "learning_rate": 5.740531761409945e-06,
6666
+ "loss": 1.1598,
6667
+ "step": 950
6668
+ },
6669
+ {
6670
+ "epoch": 1.2057142857142857,
6671
+ "grad_norm": 0.8671875,
6672
+ "learning_rate": 5.7377591375157175e-06,
6673
+ "loss": 1.1227,
6674
+ "step": 951
6675
+ },
6676
+ {
6677
+ "epoch": 1.206984126984127,
6678
+ "grad_norm": 0.9765625,
6679
+ "learning_rate": 5.73498413632625e-06,
6680
+ "loss": 1.1589,
6681
+ "step": 952
6682
+ },
6683
+ {
6684
+ "epoch": 1.2082539682539681,
6685
+ "grad_norm": 0.90234375,
6686
+ "learning_rate": 5.73220676078958e-06,
6687
+ "loss": 1.0832,
6688
+ "step": 953
6689
+ },
6690
+ {
6691
+ "epoch": 1.2095238095238094,
6692
+ "grad_norm": 0.94921875,
6693
+ "learning_rate": 5.7294270138562675e-06,
6694
+ "loss": 1.2069,
6695
+ "step": 954
6696
+ },
6697
+ {
6698
+ "epoch": 1.2107936507936508,
6699
+ "grad_norm": 0.96484375,
6700
+ "learning_rate": 5.7266448984793905e-06,
6701
+ "loss": 1.2382,
6702
+ "step": 955
6703
+ },
6704
+ {
6705
+ "epoch": 1.212063492063492,
6706
+ "grad_norm": 0.9375,
6707
+ "learning_rate": 5.723860417614543e-06,
6708
+ "loss": 1.1499,
6709
+ "step": 956
6710
+ },
6711
+ {
6712
+ "epoch": 1.2133333333333334,
6713
+ "grad_norm": 0.92578125,
6714
+ "learning_rate": 5.721073574219835e-06,
6715
+ "loss": 1.1811,
6716
+ "step": 957
6717
+ },
6718
+ {
6719
+ "epoch": 1.2146031746031747,
6720
+ "grad_norm": 0.87109375,
6721
+ "learning_rate": 5.718284371255883e-06,
6722
+ "loss": 1.0129,
6723
+ "step": 958
6724
+ },
6725
+ {
6726
+ "epoch": 1.215873015873016,
6727
+ "grad_norm": 0.95703125,
6728
+ "learning_rate": 5.715492811685813e-06,
6729
+ "loss": 1.1847,
6730
+ "step": 959
6731
+ },
6732
+ {
6733
+ "epoch": 1.217142857142857,
6734
+ "grad_norm": 0.85546875,
6735
+ "learning_rate": 5.712698898475249e-06,
6736
+ "loss": 1.0698,
6737
+ "step": 960
6738
+ },
6739
+ {
6740
+ "epoch": 1.2184126984126984,
6741
+ "grad_norm": 0.9375,
6742
+ "learning_rate": 5.709902634592324e-06,
6743
+ "loss": 1.0597,
6744
+ "step": 961
6745
+ },
6746
+ {
6747
+ "epoch": 1.2196825396825397,
6748
+ "grad_norm": 0.94140625,
6749
+ "learning_rate": 5.707104023007664e-06,
6750
+ "loss": 1.0922,
6751
+ "step": 962
6752
+ },
6753
+ {
6754
+ "epoch": 1.220952380952381,
6755
+ "grad_norm": 0.90625,
6756
+ "learning_rate": 5.7043030666943846e-06,
6757
+ "loss": 1.1159,
6758
+ "step": 963
6759
+ },
6760
+ {
6761
+ "epoch": 1.2222222222222223,
6762
+ "grad_norm": 0.90625,
6763
+ "learning_rate": 5.701499768628099e-06,
6764
+ "loss": 1.1535,
6765
+ "step": 964
6766
+ },
6767
+ {
6768
+ "epoch": 1.2234920634920634,
6769
+ "grad_norm": 0.95703125,
6770
+ "learning_rate": 5.6986941317869065e-06,
6771
+ "loss": 1.0798,
6772
+ "step": 965
6773
+ },
6774
+ {
6775
+ "epoch": 1.2247619047619047,
6776
+ "grad_norm": 1.0625,
6777
+ "learning_rate": 5.695886159151388e-06,
6778
+ "loss": 1.1546,
6779
+ "step": 966
6780
+ },
6781
+ {
6782
+ "epoch": 1.226031746031746,
6783
+ "grad_norm": 0.9140625,
6784
+ "learning_rate": 5.69307585370461e-06,
6785
+ "loss": 1.0339,
6786
+ "step": 967
6787
+ },
6788
+ {
6789
+ "epoch": 1.2273015873015873,
6790
+ "grad_norm": 0.94921875,
6791
+ "learning_rate": 5.690263218432114e-06,
6792
+ "loss": 1.1029,
6793
+ "step": 968
6794
+ },
6795
+ {
6796
+ "epoch": 1.2285714285714286,
6797
+ "grad_norm": 0.95703125,
6798
+ "learning_rate": 5.687448256321919e-06,
6799
+ "loss": 1.0723,
6800
+ "step": 969
6801
+ },
6802
+ {
6803
+ "epoch": 1.2298412698412697,
6804
+ "grad_norm": 0.96875,
6805
+ "learning_rate": 5.684630970364515e-06,
6806
+ "loss": 1.0463,
6807
+ "step": 970
6808
+ },
6809
+ {
6810
+ "epoch": 1.231111111111111,
6811
+ "grad_norm": 1.046875,
6812
+ "learning_rate": 5.6818113635528595e-06,
6813
+ "loss": 1.1948,
6814
+ "step": 971
6815
+ },
6816
+ {
6817
+ "epoch": 1.2323809523809524,
6818
+ "grad_norm": 1.0,
6819
+ "learning_rate": 5.6789894388823764e-06,
6820
+ "loss": 1.1977,
6821
+ "step": 972
6822
+ },
6823
+ {
6824
+ "epoch": 1.2336507936507937,
6825
+ "grad_norm": 0.875,
6826
+ "learning_rate": 5.676165199350954e-06,
6827
+ "loss": 1.0944,
6828
+ "step": 973
6829
+ },
6830
+ {
6831
+ "epoch": 1.234920634920635,
6832
+ "grad_norm": 0.91796875,
6833
+ "learning_rate": 5.6733386479589375e-06,
6834
+ "loss": 1.1806,
6835
+ "step": 974
6836
+ },
6837
+ {
6838
+ "epoch": 1.2361904761904763,
6839
+ "grad_norm": 1.0625,
6840
+ "learning_rate": 5.670509787709128e-06,
6841
+ "loss": 1.169,
6842
+ "step": 975
6843
+ },
6844
+ {
6845
+ "epoch": 1.2374603174603174,
6846
+ "grad_norm": 0.92578125,
6847
+ "learning_rate": 5.667678621606781e-06,
6848
+ "loss": 1.161,
6849
+ "step": 976
6850
+ },
6851
+ {
6852
+ "epoch": 1.2387301587301587,
6853
+ "grad_norm": 0.93359375,
6854
+ "learning_rate": 5.664845152659599e-06,
6855
+ "loss": 1.1933,
6856
+ "step": 977
6857
+ },
6858
+ {
6859
+ "epoch": 1.24,
6860
+ "grad_norm": 0.93359375,
6861
+ "learning_rate": 5.6620093838777345e-06,
6862
+ "loss": 1.1191,
6863
+ "step": 978
6864
+ },
6865
+ {
6866
+ "epoch": 1.2412698412698413,
6867
+ "grad_norm": 0.95703125,
6868
+ "learning_rate": 5.659171318273782e-06,
6869
+ "loss": 1.1189,
6870
+ "step": 979
6871
+ },
6872
+ {
6873
+ "epoch": 1.2425396825396826,
6874
+ "grad_norm": 0.96875,
6875
+ "learning_rate": 5.656330958862774e-06,
6876
+ "loss": 1.0603,
6877
+ "step": 980
6878
+ },
6879
+ {
6880
+ "epoch": 1.243809523809524,
6881
+ "grad_norm": 1.0234375,
6882
+ "learning_rate": 5.653488308662181e-06,
6883
+ "loss": 1.1747,
6884
+ "step": 981
6885
+ },
6886
+ {
6887
+ "epoch": 1.245079365079365,
6888
+ "grad_norm": 0.984375,
6889
+ "learning_rate": 5.650643370691909e-06,
6890
+ "loss": 1.1333,
6891
+ "step": 982
6892
+ },
6893
+ {
6894
+ "epoch": 1.2463492063492063,
6895
+ "grad_norm": 0.9765625,
6896
+ "learning_rate": 5.647796147974291e-06,
6897
+ "loss": 1.166,
6898
+ "step": 983
6899
+ },
6900
+ {
6901
+ "epoch": 1.2476190476190476,
6902
+ "grad_norm": 0.95703125,
6903
+ "learning_rate": 5.644946643534091e-06,
6904
+ "loss": 1.1551,
6905
+ "step": 984
6906
+ },
6907
+ {
6908
+ "epoch": 1.248888888888889,
6909
+ "grad_norm": 0.9765625,
6910
+ "learning_rate": 5.642094860398495e-06,
6911
+ "loss": 1.1008,
6912
+ "step": 985
6913
+ },
6914
+ {
6915
+ "epoch": 1.2501587301587302,
6916
+ "grad_norm": 0.9296875,
6917
+ "learning_rate": 5.639240801597108e-06,
6918
+ "loss": 1.0894,
6919
+ "step": 986
6920
+ },
6921
+ {
6922
+ "epoch": 1.2514285714285713,
6923
+ "grad_norm": 0.95703125,
6924
+ "learning_rate": 5.636384470161957e-06,
6925
+ "loss": 1.1374,
6926
+ "step": 987
6927
+ },
6928
+ {
6929
+ "epoch": 1.2526984126984126,
6930
+ "grad_norm": 0.9375,
6931
+ "learning_rate": 5.633525869127478e-06,
6932
+ "loss": 1.1105,
6933
+ "step": 988
6934
+ },
6935
+ {
6936
+ "epoch": 1.253968253968254,
6937
+ "grad_norm": 0.9296875,
6938
+ "learning_rate": 5.630665001530522e-06,
6939
+ "loss": 1.0807,
6940
+ "step": 989
6941
+ },
6942
+ {
6943
+ "epoch": 1.2552380952380953,
6944
+ "grad_norm": 0.90625,
6945
+ "learning_rate": 5.627801870410348e-06,
6946
+ "loss": 1.1284,
6947
+ "step": 990
6948
+ },
6949
+ {
6950
+ "epoch": 1.2565079365079366,
6951
+ "grad_norm": 0.94140625,
6952
+ "learning_rate": 5.624936478808617e-06,
6953
+ "loss": 1.1448,
6954
+ "step": 991
6955
+ },
6956
+ {
6957
+ "epoch": 1.2577777777777777,
6958
+ "grad_norm": 0.87890625,
6959
+ "learning_rate": 5.622068829769393e-06,
6960
+ "loss": 1.0997,
6961
+ "step": 992
6962
+ },
6963
+ {
6964
+ "epoch": 1.259047619047619,
6965
+ "grad_norm": 0.9921875,
6966
+ "learning_rate": 5.61919892633914e-06,
6967
+ "loss": 1.1034,
6968
+ "step": 993
6969
+ },
6970
+ {
6971
+ "epoch": 1.2603174603174603,
6972
+ "grad_norm": 0.95703125,
6973
+ "learning_rate": 5.616326771566714e-06,
6974
+ "loss": 1.1347,
6975
+ "step": 994
6976
+ },
6977
+ {
6978
+ "epoch": 1.2615873015873016,
6979
+ "grad_norm": 0.96484375,
6980
+ "learning_rate": 5.613452368503362e-06,
6981
+ "loss": 1.0823,
6982
+ "step": 995
6983
+ },
6984
+ {
6985
+ "epoch": 1.262857142857143,
6986
+ "grad_norm": 0.87890625,
6987
+ "learning_rate": 5.610575720202723e-06,
6988
+ "loss": 1.0923,
6989
+ "step": 996
6990
+ },
6991
+ {
6992
+ "epoch": 1.2641269841269842,
6993
+ "grad_norm": 0.90234375,
6994
+ "learning_rate": 5.60769682972082e-06,
6995
+ "loss": 1.0534,
6996
+ "step": 997
6997
+ },
6998
+ {
6999
+ "epoch": 1.2653968253968255,
7000
+ "grad_norm": 0.94921875,
7001
+ "learning_rate": 5.604815700116055e-06,
7002
+ "loss": 1.1278,
7003
+ "step": 998
7004
+ },
7005
+ {
7006
+ "epoch": 1.2666666666666666,
7007
+ "grad_norm": 0.8828125,
7008
+ "learning_rate": 5.601932334449214e-06,
7009
+ "loss": 1.037,
7010
+ "step": 999
7011
+ },
7012
+ {
7013
+ "epoch": 1.267936507936508,
7014
+ "grad_norm": 1.0390625,
7015
+ "learning_rate": 5.599046735783456e-06,
7016
+ "loss": 1.087,
7017
+ "step": 1000
7018
+ },
7019
+ {
7020
+ "epoch": 1.2692063492063492,
7021
+ "grad_norm": 0.984375,
7022
+ "learning_rate": 5.596158907184309e-06,
7023
+ "loss": 1.0948,
7024
+ "step": 1001
7025
+ },
7026
+ {
7027
+ "epoch": 1.2704761904761905,
7028
+ "grad_norm": 0.95703125,
7029
+ "learning_rate": 5.593268851719676e-06,
7030
+ "loss": 1.1269,
7031
+ "step": 1002
7032
+ },
7033
+ {
7034
+ "epoch": 1.2717460317460318,
7035
+ "grad_norm": 0.953125,
7036
+ "learning_rate": 5.590376572459821e-06,
7037
+ "loss": 1.1055,
7038
+ "step": 1003
7039
+ },
7040
+ {
7041
+ "epoch": 1.273015873015873,
7042
+ "grad_norm": 0.93359375,
7043
+ "learning_rate": 5.587482072477371e-06,
7044
+ "loss": 1.0811,
7045
+ "step": 1004
7046
+ },
7047
+ {
7048
+ "epoch": 1.2742857142857142,
7049
+ "grad_norm": 0.95703125,
7050
+ "learning_rate": 5.584585354847317e-06,
7051
+ "loss": 1.0866,
7052
+ "step": 1005
7053
+ },
7054
+ {
7055
+ "epoch": 1.2755555555555556,
7056
+ "grad_norm": 0.9375,
7057
+ "learning_rate": 5.581686422646998e-06,
7058
+ "loss": 1.0588,
7059
+ "step": 1006
7060
+ },
7061
+ {
7062
+ "epoch": 1.2768253968253969,
7063
+ "grad_norm": 1.0078125,
7064
+ "learning_rate": 5.578785278956114e-06,
7065
+ "loss": 1.0968,
7066
+ "step": 1007
7067
+ },
7068
+ {
7069
+ "epoch": 1.2780952380952382,
7070
+ "grad_norm": 0.90625,
7071
+ "learning_rate": 5.575881926856708e-06,
7072
+ "loss": 1.0973,
7073
+ "step": 1008
7074
+ },
7075
+ {
7076
+ "epoch": 1.2793650793650793,
7077
+ "grad_norm": 0.95703125,
7078
+ "learning_rate": 5.572976369433172e-06,
7079
+ "loss": 1.1661,
7080
+ "step": 1009
7081
+ },
7082
+ {
7083
+ "epoch": 1.2806349206349206,
7084
+ "grad_norm": 0.953125,
7085
+ "learning_rate": 5.5700686097722384e-06,
7086
+ "loss": 1.1793,
7087
+ "step": 1010
7088
+ },
7089
+ {
7090
+ "epoch": 1.2819047619047619,
7091
+ "grad_norm": 0.97265625,
7092
+ "learning_rate": 5.5671586509629845e-06,
7093
+ "loss": 1.1664,
7094
+ "step": 1011
7095
+ },
7096
+ {
7097
+ "epoch": 1.2831746031746032,
7098
+ "grad_norm": 1.0078125,
7099
+ "learning_rate": 5.564246496096818e-06,
7100
+ "loss": 1.1553,
7101
+ "step": 1012
7102
+ },
7103
+ {
7104
+ "epoch": 1.2844444444444445,
7105
+ "grad_norm": 0.97265625,
7106
+ "learning_rate": 5.5613321482674834e-06,
7107
+ "loss": 1.0554,
7108
+ "step": 1013
7109
+ },
7110
+ {
7111
+ "epoch": 1.2857142857142856,
7112
+ "grad_norm": 0.94921875,
7113
+ "learning_rate": 5.558415610571052e-06,
7114
+ "loss": 1.1176,
7115
+ "step": 1014
7116
+ },
7117
+ {
7118
+ "epoch": 1.2869841269841271,
7119
+ "grad_norm": 0.9296875,
7120
+ "learning_rate": 5.555496886105924e-06,
7121
+ "loss": 1.1676,
7122
+ "step": 1015
7123
+ },
7124
+ {
7125
+ "epoch": 1.2882539682539682,
7126
+ "grad_norm": 0.95703125,
7127
+ "learning_rate": 5.552575977972822e-06,
7128
+ "loss": 1.1585,
7129
+ "step": 1016
7130
+ },
7131
+ {
7132
+ "epoch": 1.2895238095238095,
7133
+ "grad_norm": 0.97265625,
7134
+ "learning_rate": 5.549652889274788e-06,
7135
+ "loss": 1.127,
7136
+ "step": 1017
7137
+ },
7138
+ {
7139
+ "epoch": 1.2907936507936508,
7140
+ "grad_norm": 1.109375,
7141
+ "learning_rate": 5.546727623117179e-06,
7142
+ "loss": 1.2112,
7143
+ "step": 1018
7144
+ },
7145
+ {
7146
+ "epoch": 1.2920634920634921,
7147
+ "grad_norm": 1.015625,
7148
+ "learning_rate": 5.543800182607669e-06,
7149
+ "loss": 1.1219,
7150
+ "step": 1019
7151
+ },
7152
+ {
7153
+ "epoch": 1.2933333333333334,
7154
+ "grad_norm": 0.94140625,
7155
+ "learning_rate": 5.54087057085624e-06,
7156
+ "loss": 1.2062,
7157
+ "step": 1020
7158
+ },
7159
+ {
7160
+ "epoch": 1.2946031746031745,
7161
+ "grad_norm": 1.109375,
7162
+ "learning_rate": 5.537938790975179e-06,
7163
+ "loss": 1.1131,
7164
+ "step": 1021
7165
+ },
7166
+ {
7167
+ "epoch": 1.2958730158730158,
7168
+ "grad_norm": 0.9765625,
7169
+ "learning_rate": 5.535004846079079e-06,
7170
+ "loss": 1.0721,
7171
+ "step": 1022
7172
+ },
7173
+ {
7174
+ "epoch": 1.2971428571428572,
7175
+ "grad_norm": 0.98828125,
7176
+ "learning_rate": 5.532068739284832e-06,
7177
+ "loss": 1.1498,
7178
+ "step": 1023
7179
+ },
7180
+ {
7181
+ "epoch": 1.2984126984126985,
7182
+ "grad_norm": 0.9375,
7183
+ "learning_rate": 5.5291304737116254e-06,
7184
+ "loss": 1.1301,
7185
+ "step": 1024
7186
+ },
7187
+ {
7188
+ "epoch": 1.2996825396825398,
7189
+ "grad_norm": 1.0234375,
7190
+ "learning_rate": 5.526190052480942e-06,
7191
+ "loss": 1.1593,
7192
+ "step": 1025
7193
+ },
7194
+ {
7195
+ "epoch": 1.3009523809523809,
7196
+ "grad_norm": 0.9921875,
7197
+ "learning_rate": 5.523247478716555e-06,
7198
+ "loss": 1.0929,
7199
+ "step": 1026
7200
+ },
7201
+ {
7202
+ "epoch": 1.3022222222222222,
7203
+ "grad_norm": 0.94140625,
7204
+ "learning_rate": 5.5203027555445205e-06,
7205
+ "loss": 1.1383,
7206
+ "step": 1027
7207
+ },
7208
+ {
7209
+ "epoch": 1.3034920634920635,
7210
+ "grad_norm": 0.9296875,
7211
+ "learning_rate": 5.517355886093182e-06,
7212
+ "loss": 1.1199,
7213
+ "step": 1028
7214
+ },
7215
+ {
7216
+ "epoch": 1.3047619047619048,
7217
+ "grad_norm": 0.95703125,
7218
+ "learning_rate": 5.514406873493163e-06,
7219
+ "loss": 1.0592,
7220
+ "step": 1029
7221
+ },
7222
+ {
7223
+ "epoch": 1.306031746031746,
7224
+ "grad_norm": 0.8359375,
7225
+ "learning_rate": 5.511455720877359e-06,
7226
+ "loss": 1.0237,
7227
+ "step": 1030
7228
+ },
7229
+ {
7230
+ "epoch": 1.3073015873015872,
7231
+ "grad_norm": 0.95703125,
7232
+ "learning_rate": 5.508502431380948e-06,
7233
+ "loss": 1.1415,
7234
+ "step": 1031
7235
+ },
7236
+ {
7237
+ "epoch": 1.3085714285714285,
7238
+ "grad_norm": 0.94921875,
7239
+ "learning_rate": 5.5055470081413684e-06,
7240
+ "loss": 1.1732,
7241
+ "step": 1032
7242
+ },
7243
+ {
7244
+ "epoch": 1.3098412698412698,
7245
+ "grad_norm": 1.015625,
7246
+ "learning_rate": 5.5025894542983315e-06,
7247
+ "loss": 1.1345,
7248
+ "step": 1033
7249
+ },
7250
+ {
7251
+ "epoch": 1.3111111111111111,
7252
+ "grad_norm": 1.0,
7253
+ "learning_rate": 5.499629772993809e-06,
7254
+ "loss": 1.0832,
7255
+ "step": 1034
7256
+ },
7257
+ {
7258
+ "epoch": 1.3123809523809524,
7259
+ "grad_norm": 0.99609375,
7260
+ "learning_rate": 5.496667967372035e-06,
7261
+ "loss": 1.2329,
7262
+ "step": 1035
7263
+ },
7264
+ {
7265
+ "epoch": 1.3136507936507935,
7266
+ "grad_norm": 1.0078125,
7267
+ "learning_rate": 5.4937040405795e-06,
7268
+ "loss": 1.1604,
7269
+ "step": 1036
7270
+ },
7271
+ {
7272
+ "epoch": 1.314920634920635,
7273
+ "grad_norm": 1.0703125,
7274
+ "learning_rate": 5.490737995764946e-06,
7275
+ "loss": 1.133,
7276
+ "step": 1037
7277
+ },
7278
+ {
7279
+ "epoch": 1.3161904761904761,
7280
+ "grad_norm": 1.09375,
7281
+ "learning_rate": 5.487769836079367e-06,
7282
+ "loss": 1.0956,
7283
+ "step": 1038
7284
+ },
7285
+ {
7286
+ "epoch": 1.3174603174603174,
7287
+ "grad_norm": 0.97265625,
7288
+ "learning_rate": 5.484799564676002e-06,
7289
+ "loss": 1.0835,
7290
+ "step": 1039
7291
+ },
7292
+ {
7293
+ "epoch": 1.3187301587301588,
7294
+ "grad_norm": 0.88671875,
7295
+ "learning_rate": 5.481827184710336e-06,
7296
+ "loss": 1.0909,
7297
+ "step": 1040
7298
+ },
7299
+ {
7300
+ "epoch": 1.32,
7301
+ "grad_norm": 0.9296875,
7302
+ "learning_rate": 5.478852699340092e-06,
7303
+ "loss": 1.0682,
7304
+ "step": 1041
7305
+ },
7306
+ {
7307
+ "epoch": 1.3212698412698414,
7308
+ "grad_norm": 1.0234375,
7309
+ "learning_rate": 5.47587611172523e-06,
7310
+ "loss": 1.1619,
7311
+ "step": 1042
7312
+ },
7313
+ {
7314
+ "epoch": 1.3225396825396825,
7315
+ "grad_norm": 1.078125,
7316
+ "learning_rate": 5.4728974250279445e-06,
7317
+ "loss": 1.1885,
7318
+ "step": 1043
7319
+ },
7320
+ {
7321
+ "epoch": 1.3238095238095238,
7322
+ "grad_norm": 1.0234375,
7323
+ "learning_rate": 5.4699166424126575e-06,
7324
+ "loss": 1.1089,
7325
+ "step": 1044
7326
+ },
7327
+ {
7328
+ "epoch": 1.325079365079365,
7329
+ "grad_norm": 0.94921875,
7330
+ "learning_rate": 5.4669337670460205e-06,
7331
+ "loss": 1.1159,
7332
+ "step": 1045
7333
+ },
7334
+ {
7335
+ "epoch": 1.3263492063492064,
7336
+ "grad_norm": 0.9453125,
7337
+ "learning_rate": 5.463948802096907e-06,
7338
+ "loss": 1.153,
7339
+ "step": 1046
7340
+ },
7341
+ {
7342
+ "epoch": 1.3276190476190477,
7343
+ "grad_norm": 0.99609375,
7344
+ "learning_rate": 5.460961750736408e-06,
7345
+ "loss": 1.0732,
7346
+ "step": 1047
7347
+ },
7348
+ {
7349
+ "epoch": 1.3288888888888888,
7350
+ "grad_norm": 0.921875,
7351
+ "learning_rate": 5.457972616137836e-06,
7352
+ "loss": 1.0756,
7353
+ "step": 1048
7354
+ },
7355
+ {
7356
+ "epoch": 1.33015873015873,
7357
+ "grad_norm": 0.9765625,
7358
+ "learning_rate": 5.454981401476713e-06,
7359
+ "loss": 1.1332,
7360
+ "step": 1049
7361
+ },
7362
+ {
7363
+ "epoch": 1.3314285714285714,
7364
+ "grad_norm": 1.03125,
7365
+ "learning_rate": 5.451988109930771e-06,
7366
+ "loss": 1.1398,
7367
+ "step": 1050
7368
+ },
7369
+ {
7370
+ "epoch": 1.3326984126984127,
7371
+ "grad_norm": 0.91796875,
7372
+ "learning_rate": 5.44899274467995e-06,
7373
+ "loss": 1.1576,
7374
+ "step": 1051
7375
+ },
7376
+ {
7377
+ "epoch": 1.333968253968254,
7378
+ "grad_norm": 0.9296875,
7379
+ "learning_rate": 5.4459953089063925e-06,
7380
+ "loss": 1.0711,
7381
+ "step": 1052
7382
+ },
7383
+ {
7384
+ "epoch": 1.3352380952380951,
7385
+ "grad_norm": 0.9453125,
7386
+ "learning_rate": 5.442995805794438e-06,
7387
+ "loss": 1.1551,
7388
+ "step": 1053
7389
+ },
7390
+ {
7391
+ "epoch": 1.3365079365079366,
7392
+ "grad_norm": 0.9140625,
7393
+ "learning_rate": 5.439994238530627e-06,
7394
+ "loss": 1.0791,
7395
+ "step": 1054
7396
+ },
7397
+ {
7398
+ "epoch": 1.3377777777777777,
7399
+ "grad_norm": 0.98828125,
7400
+ "learning_rate": 5.4369906103036895e-06,
7401
+ "loss": 1.2093,
7402
+ "step": 1055
7403
+ },
7404
+ {
7405
+ "epoch": 1.339047619047619,
7406
+ "grad_norm": 0.92578125,
7407
+ "learning_rate": 5.433984924304546e-06,
7408
+ "loss": 1.1535,
7409
+ "step": 1056
7410
+ },
7411
+ {
7412
+ "epoch": 1.3403174603174604,
7413
+ "grad_norm": 0.9609375,
7414
+ "learning_rate": 5.430977183726302e-06,
7415
+ "loss": 1.113,
7416
+ "step": 1057
7417
+ },
7418
+ {
7419
+ "epoch": 1.3415873015873017,
7420
+ "grad_norm": 0.90625,
7421
+ "learning_rate": 5.427967391764247e-06,
7422
+ "loss": 1.1166,
7423
+ "step": 1058
7424
+ },
7425
+ {
7426
+ "epoch": 1.342857142857143,
7427
+ "grad_norm": 1.015625,
7428
+ "learning_rate": 5.42495555161585e-06,
7429
+ "loss": 1.2128,
7430
+ "step": 1059
7431
+ },
7432
+ {
7433
+ "epoch": 1.344126984126984,
7434
+ "grad_norm": 0.95703125,
7435
+ "learning_rate": 5.421941666480755e-06,
7436
+ "loss": 1.0608,
7437
+ "step": 1060
7438
+ },
7439
+ {
7440
+ "epoch": 1.3453968253968254,
7441
+ "grad_norm": 0.984375,
7442
+ "learning_rate": 5.418925739560777e-06,
7443
+ "loss": 1.1802,
7444
+ "step": 1061
7445
+ },
7446
+ {
7447
+ "epoch": 1.3466666666666667,
7448
+ "grad_norm": 0.8984375,
7449
+ "learning_rate": 5.415907774059904e-06,
7450
+ "loss": 1.0853,
7451
+ "step": 1062
7452
+ },
7453
+ {
7454
+ "epoch": 1.347936507936508,
7455
+ "grad_norm": 0.91796875,
7456
+ "learning_rate": 5.412887773184288e-06,
7457
+ "loss": 1.1111,
7458
+ "step": 1063
7459
+ },
7460
+ {
7461
+ "epoch": 1.3492063492063493,
7462
+ "grad_norm": 0.98828125,
7463
+ "learning_rate": 5.409865740142242e-06,
7464
+ "loss": 1.0664,
7465
+ "step": 1064
7466
+ },
7467
+ {
7468
+ "epoch": 1.3504761904761904,
7469
+ "grad_norm": 1.0078125,
7470
+ "learning_rate": 5.406841678144237e-06,
7471
+ "loss": 1.0606,
7472
+ "step": 1065
7473
+ },
7474
+ {
7475
+ "epoch": 1.3517460317460317,
7476
+ "grad_norm": 0.921875,
7477
+ "learning_rate": 5.403815590402905e-06,
7478
+ "loss": 1.1376,
7479
+ "step": 1066
7480
+ },
7481
+ {
7482
+ "epoch": 1.353015873015873,
7483
+ "grad_norm": 0.96484375,
7484
+ "learning_rate": 5.400787480133023e-06,
7485
+ "loss": 1.1475,
7486
+ "step": 1067
7487
+ },
7488
+ {
7489
+ "epoch": 1.3542857142857143,
7490
+ "grad_norm": 1.0078125,
7491
+ "learning_rate": 5.397757350551521e-06,
7492
+ "loss": 1.021,
7493
+ "step": 1068
7494
+ },
7495
+ {
7496
+ "epoch": 1.3555555555555556,
7497
+ "grad_norm": 1.0,
7498
+ "learning_rate": 5.394725204877474e-06,
7499
+ "loss": 1.141,
7500
+ "step": 1069
7501
+ },
7502
+ {
7503
+ "epoch": 1.3568253968253967,
7504
+ "grad_norm": 1.015625,
7505
+ "learning_rate": 5.391691046332097e-06,
7506
+ "loss": 1.1207,
7507
+ "step": 1070
7508
+ },
7509
+ {
7510
+ "epoch": 1.358095238095238,
7511
+ "grad_norm": 0.99609375,
7512
+ "learning_rate": 5.3886548781387455e-06,
7513
+ "loss": 1.1566,
7514
+ "step": 1071
7515
+ },
7516
+ {
7517
+ "epoch": 1.3593650793650793,
7518
+ "grad_norm": 0.96484375,
7519
+ "learning_rate": 5.385616703522907e-06,
7520
+ "loss": 1.1329,
7521
+ "step": 1072
7522
+ },
7523
+ {
7524
+ "epoch": 1.3606349206349206,
7525
+ "grad_norm": 0.94140625,
7526
+ "learning_rate": 5.382576525712205e-06,
7527
+ "loss": 1.1949,
7528
+ "step": 1073
7529
+ },
7530
+ {
7531
+ "epoch": 1.361904761904762,
7532
+ "grad_norm": 0.96875,
7533
+ "learning_rate": 5.379534347936386e-06,
7534
+ "loss": 1.1444,
7535
+ "step": 1074
7536
+ },
7537
+ {
7538
+ "epoch": 1.363174603174603,
7539
+ "grad_norm": 0.953125,
7540
+ "learning_rate": 5.376490173427324e-06,
7541
+ "loss": 1.1498,
7542
+ "step": 1075
7543
+ },
7544
+ {
7545
+ "epoch": 1.3644444444444446,
7546
+ "grad_norm": 1.0,
7547
+ "learning_rate": 5.373444005419014e-06,
7548
+ "loss": 1.0996,
7549
+ "step": 1076
7550
+ },
7551
+ {
7552
+ "epoch": 1.3657142857142857,
7553
+ "grad_norm": 0.9453125,
7554
+ "learning_rate": 5.37039584714757e-06,
7555
+ "loss": 1.1395,
7556
+ "step": 1077
7557
+ },
7558
+ {
7559
+ "epoch": 1.366984126984127,
7560
+ "grad_norm": 1.046875,
7561
+ "learning_rate": 5.367345701851217e-06,
7562
+ "loss": 1.1675,
7563
+ "step": 1078
7564
+ },
7565
+ {
7566
+ "epoch": 1.3682539682539683,
7567
+ "grad_norm": 0.96484375,
7568
+ "learning_rate": 5.364293572770295e-06,
7569
+ "loss": 1.1776,
7570
+ "step": 1079
7571
+ },
7572
+ {
7573
+ "epoch": 1.3695238095238096,
7574
+ "grad_norm": 0.94140625,
7575
+ "learning_rate": 5.3612394631472475e-06,
7576
+ "loss": 1.1552,
7577
+ "step": 1080
7578
+ },
7579
+ {
7580
+ "epoch": 1.370793650793651,
7581
+ "grad_norm": 0.890625,
7582
+ "learning_rate": 5.358183376226626e-06,
7583
+ "loss": 1.0682,
7584
+ "step": 1081
7585
+ },
7586
+ {
7587
+ "epoch": 1.372063492063492,
7588
+ "grad_norm": 0.98828125,
7589
+ "learning_rate": 5.355125315255079e-06,
7590
+ "loss": 1.117,
7591
+ "step": 1082
7592
+ },
7593
+ {
7594
+ "epoch": 1.3733333333333333,
7595
+ "grad_norm": 0.95703125,
7596
+ "learning_rate": 5.352065283481355e-06,
7597
+ "loss": 1.2372,
7598
+ "step": 1083
7599
+ },
7600
+ {
7601
+ "epoch": 1.3746031746031746,
7602
+ "grad_norm": 0.91796875,
7603
+ "learning_rate": 5.349003284156292e-06,
7604
+ "loss": 1.1573,
7605
+ "step": 1084
7606
+ },
7607
+ {
7608
+ "epoch": 1.375873015873016,
7609
+ "grad_norm": 0.9921875,
7610
+ "learning_rate": 5.3459393205328255e-06,
7611
+ "loss": 1.1628,
7612
+ "step": 1085
7613
+ },
7614
+ {
7615
+ "epoch": 1.3771428571428572,
7616
+ "grad_norm": 1.0078125,
7617
+ "learning_rate": 5.342873395865971e-06,
7618
+ "loss": 1.1204,
7619
+ "step": 1086
7620
+ },
7621
+ {
7622
+ "epoch": 1.3784126984126983,
7623
+ "grad_norm": 1.03125,
7624
+ "learning_rate": 5.3398055134128295e-06,
7625
+ "loss": 1.124,
7626
+ "step": 1087
7627
+ },
7628
+ {
7629
+ "epoch": 1.3796825396825396,
7630
+ "grad_norm": 0.9375,
7631
+ "learning_rate": 5.336735676432583e-06,
7632
+ "loss": 1.0391,
7633
+ "step": 1088
7634
+ },
7635
+ {
7636
+ "epoch": 1.380952380952381,
7637
+ "grad_norm": 0.98046875,
7638
+ "learning_rate": 5.333663888186488e-06,
7639
+ "loss": 1.1251,
7640
+ "step": 1089
7641
+ },
7642
+ {
7643
+ "epoch": 1.3822222222222222,
7644
+ "grad_norm": 0.94140625,
7645
+ "learning_rate": 5.330590151937877e-06,
7646
+ "loss": 1.1557,
7647
+ "step": 1090
7648
+ },
7649
+ {
7650
+ "epoch": 1.3834920634920636,
7651
+ "grad_norm": 0.9921875,
7652
+ "learning_rate": 5.327514470952147e-06,
7653
+ "loss": 1.1114,
7654
+ "step": 1091
7655
+ },
7656
+ {
7657
+ "epoch": 1.3847619047619046,
7658
+ "grad_norm": 0.94140625,
7659
+ "learning_rate": 5.324436848496766e-06,
7660
+ "loss": 1.1198,
7661
+ "step": 1092
7662
+ },
7663
+ {
7664
+ "epoch": 1.3860317460317462,
7665
+ "grad_norm": 0.94140625,
7666
+ "learning_rate": 5.321357287841262e-06,
7667
+ "loss": 1.0892,
7668
+ "step": 1093
7669
+ },
7670
+ {
7671
+ "epoch": 1.3873015873015873,
7672
+ "grad_norm": 0.91015625,
7673
+ "learning_rate": 5.3182757922572226e-06,
7674
+ "loss": 1.1187,
7675
+ "step": 1094
7676
+ },
7677
+ {
7678
+ "epoch": 1.3885714285714286,
7679
+ "grad_norm": 0.90234375,
7680
+ "learning_rate": 5.315192365018292e-06,
7681
+ "loss": 1.0835,
7682
+ "step": 1095
7683
+ },
7684
+ {
7685
+ "epoch": 1.3898412698412699,
7686
+ "grad_norm": 0.9375,
7687
+ "learning_rate": 5.312107009400163e-06,
7688
+ "loss": 1.1224,
7689
+ "step": 1096
7690
+ },
7691
+ {
7692
+ "epoch": 1.3911111111111112,
7693
+ "grad_norm": 1.0078125,
7694
+ "learning_rate": 5.309019728680581e-06,
7695
+ "loss": 1.1558,
7696
+ "step": 1097
7697
+ },
7698
+ {
7699
+ "epoch": 1.3923809523809525,
7700
+ "grad_norm": 1.015625,
7701
+ "learning_rate": 5.3059305261393355e-06,
7702
+ "loss": 1.2182,
7703
+ "step": 1098
7704
+ },
7705
+ {
7706
+ "epoch": 1.3936507936507936,
7707
+ "grad_norm": 0.99609375,
7708
+ "learning_rate": 5.3028394050582555e-06,
7709
+ "loss": 1.1034,
7710
+ "step": 1099
7711
+ },
7712
+ {
7713
+ "epoch": 1.394920634920635,
7714
+ "grad_norm": 1.0,
7715
+ "learning_rate": 5.29974636872121e-06,
7716
+ "loss": 1.1412,
7717
+ "step": 1100
7718
+ },
7719
+ {
7720
+ "epoch": 1.3961904761904762,
7721
+ "grad_norm": 1.0390625,
7722
+ "learning_rate": 5.296651420414104e-06,
7723
+ "loss": 1.1102,
7724
+ "step": 1101
7725
+ },
7726
+ {
7727
+ "epoch": 1.3974603174603175,
7728
+ "grad_norm": 0.96484375,
7729
+ "learning_rate": 5.293554563424871e-06,
7730
+ "loss": 1.1589,
7731
+ "step": 1102
7732
+ },
7733
+ {
7734
+ "epoch": 1.3987301587301588,
7735
+ "grad_norm": 1.03125,
7736
+ "learning_rate": 5.2904558010434745e-06,
7737
+ "loss": 1.1025,
7738
+ "step": 1103
7739
+ },
7740
+ {
7741
+ "epoch": 1.4,
7742
+ "grad_norm": 1.125,
7743
+ "learning_rate": 5.2873551365619e-06,
7744
+ "loss": 1.1318,
7745
+ "step": 1104
7746
+ },
7747
+ {
7748
+ "epoch": 1.4012698412698412,
7749
+ "grad_norm": 1.1171875,
7750
+ "learning_rate": 5.284252573274153e-06,
7751
+ "loss": 1.125,
7752
+ "step": 1105
7753
+ },
7754
+ {
7755
+ "epoch": 1.4025396825396825,
7756
+ "grad_norm": 0.90625,
7757
+ "learning_rate": 5.281148114476263e-06,
7758
+ "loss": 1.0316,
7759
+ "step": 1106
7760
+ },
7761
+ {
7762
+ "epoch": 1.4038095238095238,
7763
+ "grad_norm": 1.03125,
7764
+ "learning_rate": 5.278041763466265e-06,
7765
+ "loss": 1.1106,
7766
+ "step": 1107
7767
+ },
7768
+ {
7769
+ "epoch": 1.4050793650793652,
7770
+ "grad_norm": 1.1171875,
7771
+ "learning_rate": 5.274933523544206e-06,
7772
+ "loss": 1.2083,
7773
+ "step": 1108
7774
+ },
7775
+ {
7776
+ "epoch": 1.4063492063492062,
7777
+ "grad_norm": 1.078125,
7778
+ "learning_rate": 5.2718233980121435e-06,
7779
+ "loss": 1.0879,
7780
+ "step": 1109
7781
+ },
7782
+ {
7783
+ "epoch": 1.4076190476190475,
7784
+ "grad_norm": 1.046875,
7785
+ "learning_rate": 5.268711390174135e-06,
7786
+ "loss": 1.2132,
7787
+ "step": 1110
7788
+ },
7789
+ {
7790
+ "epoch": 1.4088888888888889,
7791
+ "grad_norm": 1.109375,
7792
+ "learning_rate": 5.265597503336238e-06,
7793
+ "loss": 1.1204,
7794
+ "step": 1111
7795
+ },
7796
+ {
7797
+ "epoch": 1.4101587301587302,
7798
+ "grad_norm": 0.9375,
7799
+ "learning_rate": 5.262481740806509e-06,
7800
+ "loss": 1.048,
7801
+ "step": 1112
7802
+ },
7803
+ {
7804
+ "epoch": 1.4114285714285715,
7805
+ "grad_norm": 0.9921875,
7806
+ "learning_rate": 5.259364105894991e-06,
7807
+ "loss": 1.1192,
7808
+ "step": 1113
7809
+ },
7810
+ {
7811
+ "epoch": 1.4126984126984126,
7812
+ "grad_norm": 1.0078125,
7813
+ "learning_rate": 5.2562446019137225e-06,
7814
+ "loss": 1.1135,
7815
+ "step": 1114
7816
+ },
7817
+ {
7818
+ "epoch": 1.413968253968254,
7819
+ "grad_norm": 1.0625,
7820
+ "learning_rate": 5.253123232176724e-06,
7821
+ "loss": 1.1061,
7822
+ "step": 1115
7823
+ },
7824
+ {
7825
+ "epoch": 1.4152380952380952,
7826
+ "grad_norm": 0.96875,
7827
+ "learning_rate": 5.25e-06,
7828
+ "loss": 1.0388,
7829
+ "step": 1116
7830
+ },
7831
+ {
7832
+ "epoch": 1.4165079365079365,
7833
+ "grad_norm": 0.9375,
7834
+ "learning_rate": 5.246874908701532e-06,
7835
+ "loss": 1.0881,
7836
+ "step": 1117
7837
+ },
7838
+ {
7839
+ "epoch": 1.4177777777777778,
7840
+ "grad_norm": 0.8984375,
7841
+ "learning_rate": 5.2437479616012775e-06,
7842
+ "loss": 1.0944,
7843
+ "step": 1118
7844
+ },
7845
+ {
7846
+ "epoch": 1.4190476190476191,
7847
+ "grad_norm": 1.0234375,
7848
+ "learning_rate": 5.240619162021165e-06,
7849
+ "loss": 1.119,
7850
+ "step": 1119
7851
+ },
7852
+ {
7853
+ "epoch": 1.4203174603174604,
7854
+ "grad_norm": 0.99609375,
7855
+ "learning_rate": 5.237488513285092e-06,
7856
+ "loss": 1.1366,
7857
+ "step": 1120
7858
+ },
7859
+ {
7860
+ "epoch": 1.4215873015873015,
7861
+ "grad_norm": 0.94921875,
7862
+ "learning_rate": 5.234356018718919e-06,
7863
+ "loss": 1.0363,
7864
+ "step": 1121
7865
+ },
7866
+ {
7867
+ "epoch": 1.4228571428571428,
7868
+ "grad_norm": 0.9765625,
7869
+ "learning_rate": 5.231221681650469e-06,
7870
+ "loss": 1.1057,
7871
+ "step": 1122
7872
+ },
7873
+ {
7874
+ "epoch": 1.4241269841269841,
7875
+ "grad_norm": 1.015625,
7876
+ "learning_rate": 5.228085505409519e-06,
7877
+ "loss": 1.1738,
7878
+ "step": 1123
7879
+ },
7880
+ {
7881
+ "epoch": 1.4253968253968254,
7882
+ "grad_norm": 0.875,
7883
+ "learning_rate": 5.224947493327806e-06,
7884
+ "loss": 1.0843,
7885
+ "step": 1124
7886
+ },
7887
+ {
7888
+ "epoch": 1.4266666666666667,
7889
+ "grad_norm": 1.0546875,
7890
+ "learning_rate": 5.221807648739012e-06,
7891
+ "loss": 1.2114,
7892
+ "step": 1125
7893
+ },
7894
+ {
7895
+ "epoch": 1.4279365079365078,
7896
+ "grad_norm": 1.015625,
7897
+ "learning_rate": 5.218665974978767e-06,
7898
+ "loss": 1.1338,
7899
+ "step": 1126
7900
+ },
7901
+ {
7902
+ "epoch": 1.4292063492063491,
7903
+ "grad_norm": 1.015625,
7904
+ "learning_rate": 5.215522475384645e-06,
7905
+ "loss": 1.0466,
7906
+ "step": 1127
7907
+ },
7908
+ {
7909
+ "epoch": 1.4304761904761905,
7910
+ "grad_norm": 0.953125,
7911
+ "learning_rate": 5.21237715329616e-06,
7912
+ "loss": 1.1675,
7913
+ "step": 1128
7914
+ },
7915
+ {
7916
+ "epoch": 1.4317460317460318,
7917
+ "grad_norm": 0.984375,
7918
+ "learning_rate": 5.209230012054761e-06,
7919
+ "loss": 1.2035,
7920
+ "step": 1129
7921
+ },
7922
+ {
7923
+ "epoch": 1.433015873015873,
7924
+ "grad_norm": 0.97265625,
7925
+ "learning_rate": 5.20608105500383e-06,
7926
+ "loss": 1.0926,
7927
+ "step": 1130
7928
+ },
7929
+ {
7930
+ "epoch": 1.4342857142857142,
7931
+ "grad_norm": 0.9765625,
7932
+ "learning_rate": 5.202930285488679e-06,
7933
+ "loss": 1.0956,
7934
+ "step": 1131
7935
+ },
7936
+ {
7937
+ "epoch": 1.4355555555555555,
7938
+ "grad_norm": 0.9765625,
7939
+ "learning_rate": 5.1997777068565426e-06,
7940
+ "loss": 1.1305,
7941
+ "step": 1132
7942
+ },
7943
+ {
7944
+ "epoch": 1.4368253968253968,
7945
+ "grad_norm": 0.97265625,
7946
+ "learning_rate": 5.196623322456582e-06,
7947
+ "loss": 1.1132,
7948
+ "step": 1133
7949
+ },
7950
+ {
7951
+ "epoch": 1.438095238095238,
7952
+ "grad_norm": 0.9765625,
7953
+ "learning_rate": 5.193467135639873e-06,
7954
+ "loss": 1.0628,
7955
+ "step": 1134
7956
+ },
7957
+ {
7958
+ "epoch": 1.4393650793650794,
7959
+ "grad_norm": 0.9296875,
7960
+ "learning_rate": 5.1903091497594075e-06,
7961
+ "loss": 1.2005,
7962
+ "step": 1135
7963
+ },
7964
+ {
7965
+ "epoch": 1.4406349206349207,
7966
+ "grad_norm": 1.0234375,
7967
+ "learning_rate": 5.187149368170087e-06,
7968
+ "loss": 1.1237,
7969
+ "step": 1136
7970
+ },
7971
+ {
7972
+ "epoch": 1.441904761904762,
7973
+ "grad_norm": 1.015625,
7974
+ "learning_rate": 5.1839877942287245e-06,
7975
+ "loss": 1.099,
7976
+ "step": 1137
7977
+ },
7978
+ {
7979
+ "epoch": 1.443174603174603,
7980
+ "grad_norm": 0.97265625,
7981
+ "learning_rate": 5.180824431294034e-06,
7982
+ "loss": 1.1586,
7983
+ "step": 1138
7984
+ },
7985
+ {
7986
+ "epoch": 1.4444444444444444,
7987
+ "grad_norm": 0.96875,
7988
+ "learning_rate": 5.17765928272663e-06,
7989
+ "loss": 1.1243,
7990
+ "step": 1139
7991
+ },
7992
+ {
7993
+ "epoch": 1.4457142857142857,
7994
+ "grad_norm": 0.875,
7995
+ "learning_rate": 5.1744923518890255e-06,
7996
+ "loss": 1.0623,
7997
+ "step": 1140
7998
+ },
7999
+ {
8000
+ "epoch": 1.446984126984127,
8001
+ "grad_norm": 0.9765625,
8002
+ "learning_rate": 5.171323642145625e-06,
8003
+ "loss": 1.111,
8004
+ "step": 1141
8005
+ },
8006
+ {
8007
+ "epoch": 1.4482539682539683,
8008
+ "grad_norm": 0.94140625,
8009
+ "learning_rate": 5.168153156862726e-06,
8010
+ "loss": 1.0733,
8011
+ "step": 1142
8012
+ },
8013
+ {
8014
+ "epoch": 1.4495238095238094,
8015
+ "grad_norm": 0.921875,
8016
+ "learning_rate": 5.164980899408509e-06,
8017
+ "loss": 1.0906,
8018
+ "step": 1143
8019
+ },
8020
+ {
8021
+ "epoch": 1.4507936507936507,
8022
+ "grad_norm": 0.96875,
8023
+ "learning_rate": 5.1618068731530395e-06,
8024
+ "loss": 1.1173,
8025
+ "step": 1144
8026
+ },
8027
+ {
8028
+ "epoch": 1.452063492063492,
8029
+ "grad_norm": 1.0,
8030
+ "learning_rate": 5.15863108146826e-06,
8031
+ "loss": 1.1727,
8032
+ "step": 1145
8033
+ },
8034
+ {
8035
+ "epoch": 1.4533333333333334,
8036
+ "grad_norm": 1.03125,
8037
+ "learning_rate": 5.155453527727989e-06,
8038
+ "loss": 1.1193,
8039
+ "step": 1146
8040
+ },
8041
+ {
8042
+ "epoch": 1.4546031746031747,
8043
+ "grad_norm": 0.96484375,
8044
+ "learning_rate": 5.15227421530792e-06,
8045
+ "loss": 1.1275,
8046
+ "step": 1147
8047
+ },
8048
+ {
8049
+ "epoch": 1.4558730158730158,
8050
+ "grad_norm": 0.94921875,
8051
+ "learning_rate": 5.14909314758561e-06,
8052
+ "loss": 1.1938,
8053
+ "step": 1148
8054
+ },
8055
+ {
8056
+ "epoch": 1.457142857142857,
8057
+ "grad_norm": 0.953125,
8058
+ "learning_rate": 5.145910327940484e-06,
8059
+ "loss": 1.1307,
8060
+ "step": 1149
8061
+ },
8062
+ {
8063
+ "epoch": 1.4584126984126984,
8064
+ "grad_norm": 1.0703125,
8065
+ "learning_rate": 5.142725759753826e-06,
8066
+ "loss": 1.2017,
8067
+ "step": 1150
8068
+ },
8069
+ {
8070
+ "epoch": 1.4596825396825397,
8071
+ "grad_norm": 1.046875,
8072
+ "learning_rate": 5.139539446408781e-06,
8073
+ "loss": 1.1306,
8074
+ "step": 1151
8075
+ },
8076
+ {
8077
+ "epoch": 1.460952380952381,
8078
+ "grad_norm": 0.9453125,
8079
+ "learning_rate": 5.136351391290346e-06,
8080
+ "loss": 1.102,
8081
+ "step": 1152
8082
+ },
8083
+ {
8084
+ "epoch": 1.462222222222222,
8085
+ "grad_norm": 0.859375,
8086
+ "learning_rate": 5.133161597785365e-06,
8087
+ "loss": 1.1168,
8088
+ "step": 1153
8089
+ },
8090
+ {
8091
+ "epoch": 1.4634920634920636,
8092
+ "grad_norm": 0.9921875,
8093
+ "learning_rate": 5.129970069282535e-06,
8094
+ "loss": 1.1488,
8095
+ "step": 1154
8096
+ },
8097
+ {
8098
+ "epoch": 1.4647619047619047,
8099
+ "grad_norm": 0.95703125,
8100
+ "learning_rate": 5.126776809172392e-06,
8101
+ "loss": 1.0992,
8102
+ "step": 1155
8103
+ },
8104
+ {
8105
+ "epoch": 1.466031746031746,
8106
+ "grad_norm": 0.94921875,
8107
+ "learning_rate": 5.123581820847313e-06,
8108
+ "loss": 1.1016,
8109
+ "step": 1156
8110
+ },
8111
+ {
8112
+ "epoch": 1.4673015873015873,
8113
+ "grad_norm": 0.9765625,
8114
+ "learning_rate": 5.1203851077015106e-06,
8115
+ "loss": 1.12,
8116
+ "step": 1157
8117
+ },
8118
+ {
8119
+ "epoch": 1.4685714285714286,
8120
+ "grad_norm": 0.9375,
8121
+ "learning_rate": 5.1171866731310285e-06,
8122
+ "loss": 1.087,
8123
+ "step": 1158
8124
+ },
8125
+ {
8126
+ "epoch": 1.46984126984127,
8127
+ "grad_norm": 1.0234375,
8128
+ "learning_rate": 5.113986520533743e-06,
8129
+ "loss": 1.1197,
8130
+ "step": 1159
8131
+ },
8132
+ {
8133
+ "epoch": 1.471111111111111,
8134
+ "grad_norm": 1.1015625,
8135
+ "learning_rate": 5.110784653309353e-06,
8136
+ "loss": 1.1768,
8137
+ "step": 1160
8138
+ },
8139
+ {
8140
+ "epoch": 1.4723809523809523,
8141
+ "grad_norm": 0.9765625,
8142
+ "learning_rate": 5.1075810748593765e-06,
8143
+ "loss": 1.1136,
8144
+ "step": 1161
8145
+ },
8146
+ {
8147
+ "epoch": 1.4736507936507937,
8148
+ "grad_norm": 1.0703125,
8149
+ "learning_rate": 5.104375788587154e-06,
8150
+ "loss": 1.1602,
8151
+ "step": 1162
8152
+ },
8153
+ {
8154
+ "epoch": 1.474920634920635,
8155
+ "grad_norm": 1.0703125,
8156
+ "learning_rate": 5.1011687978978394e-06,
8157
+ "loss": 1.1295,
8158
+ "step": 1163
8159
+ },
8160
+ {
8161
+ "epoch": 1.4761904761904763,
8162
+ "grad_norm": 1.0390625,
8163
+ "learning_rate": 5.097960106198393e-06,
8164
+ "loss": 1.2086,
8165
+ "step": 1164
8166
+ },
8167
+ {
8168
+ "epoch": 1.4774603174603174,
8169
+ "grad_norm": 0.94140625,
8170
+ "learning_rate": 5.094749716897588e-06,
8171
+ "loss": 1.1108,
8172
+ "step": 1165
8173
+ },
8174
+ {
8175
+ "epoch": 1.4787301587301587,
8176
+ "grad_norm": 0.96484375,
8177
+ "learning_rate": 5.091537633405996e-06,
8178
+ "loss": 1.1007,
8179
+ "step": 1166
8180
+ },
8181
+ {
8182
+ "epoch": 1.48,
8183
+ "grad_norm": 1.0078125,
8184
+ "learning_rate": 5.088323859135995e-06,
8185
+ "loss": 1.0905,
8186
+ "step": 1167
8187
+ },
8188
+ {
8189
+ "epoch": 1.4812698412698413,
8190
+ "grad_norm": 0.953125,
8191
+ "learning_rate": 5.0851083975017515e-06,
8192
+ "loss": 1.1302,
8193
+ "step": 1168
8194
+ },
8195
+ {
8196
+ "epoch": 1.4825396825396826,
8197
+ "grad_norm": 0.921875,
8198
+ "learning_rate": 5.081891251919227e-06,
8199
+ "loss": 1.104,
8200
+ "step": 1169
8201
+ },
8202
+ {
8203
+ "epoch": 1.4838095238095237,
8204
+ "grad_norm": 0.94140625,
8205
+ "learning_rate": 5.078672425806178e-06,
8206
+ "loss": 1.0844,
8207
+ "step": 1170
8208
+ },
8209
+ {
8210
+ "epoch": 1.485079365079365,
8211
+ "grad_norm": 0.921875,
8212
+ "learning_rate": 5.075451922582138e-06,
8213
+ "loss": 1.0839,
8214
+ "step": 1171
8215
+ },
8216
+ {
8217
+ "epoch": 1.4863492063492063,
8218
+ "grad_norm": 0.9609375,
8219
+ "learning_rate": 5.072229745668424e-06,
8220
+ "loss": 1.1437,
8221
+ "step": 1172
8222
+ },
8223
+ {
8224
+ "epoch": 1.4876190476190476,
8225
+ "grad_norm": 1.015625,
8226
+ "learning_rate": 5.069005898488137e-06,
8227
+ "loss": 1.0498,
8228
+ "step": 1173
8229
+ },
8230
+ {
8231
+ "epoch": 1.488888888888889,
8232
+ "grad_norm": 0.99609375,
8233
+ "learning_rate": 5.065780384466147e-06,
8234
+ "loss": 1.1558,
8235
+ "step": 1174
8236
+ },
8237
+ {
8238
+ "epoch": 1.4901587301587302,
8239
+ "grad_norm": 1.0546875,
8240
+ "learning_rate": 5.062553207029093e-06,
8241
+ "loss": 1.1752,
8242
+ "step": 1175
8243
+ },
8244
+ {
8245
+ "epoch": 1.4914285714285715,
8246
+ "grad_norm": 1.0390625,
8247
+ "learning_rate": 5.059324369605386e-06,
8248
+ "loss": 1.1394,
8249
+ "step": 1176
8250
+ },
8251
+ {
8252
+ "epoch": 1.4926984126984126,
8253
+ "grad_norm": 0.96484375,
8254
+ "learning_rate": 5.056093875625199e-06,
8255
+ "loss": 1.1602,
8256
+ "step": 1177
8257
+ },
8258
+ {
8259
+ "epoch": 1.493968253968254,
8260
+ "grad_norm": 0.953125,
8261
+ "learning_rate": 5.052861728520462e-06,
8262
+ "loss": 1.1289,
8263
+ "step": 1178
8264
+ },
8265
+ {
8266
+ "epoch": 1.4952380952380953,
8267
+ "grad_norm": 0.93359375,
8268
+ "learning_rate": 5.049627931724868e-06,
8269
+ "loss": 1.1,
8270
+ "step": 1179
8271
+ },
8272
+ {
8273
+ "epoch": 1.4965079365079366,
8274
+ "grad_norm": 0.9140625,
8275
+ "learning_rate": 5.046392488673853e-06,
8276
+ "loss": 1.1183,
8277
+ "step": 1180
8278
+ },
8279
+ {
8280
+ "epoch": 1.4977777777777779,
8281
+ "grad_norm": 0.9296875,
8282
+ "learning_rate": 5.043155402804611e-06,
8283
+ "loss": 1.2041,
8284
+ "step": 1181
8285
+ },
8286
+ {
8287
+ "epoch": 1.499047619047619,
8288
+ "grad_norm": 0.96484375,
8289
+ "learning_rate": 5.039916677556075e-06,
8290
+ "loss": 1.1673,
8291
+ "step": 1182
8292
  }
8293
  ],
8294
  "logging_steps": 1,
 
8308
  "attributes": {}
8309
  }
8310
  },
8311
+ "total_flos": 2.6179854689516913e+18,
8312
  "train_batch_size": 2,
8313
  "trial_name": null,
8314
  "trial_params": null