PurplelinkPL commited on
Commit
563567f
·
verified ·
1 Parent(s): 5f561d1

Upload 10 files

Browse files
Files changed (6) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +3045 -3
  6. training_args.bin +1 -1
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:369fb121dccbfa708387d7542d49616a29ba6ab3a23f6d40be115e7f2da11de3
3
  size 598635032
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:88686ba0b6f9018075e16e833e34f3f004b964bcf7967bf8369b4dbf247c40fb
3
  size 598635032
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:97b91fd1b382931771f0f6e73df67cd95ac4ed5c3d36a8a1a7e104521c538d24
3
  size 1197359627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:40aaa4a3ba27ad6081e57d1921e2ebd4f5848dcec7b2f4b3574f9612e4a102fb
3
  size 1197359627
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f0ea071ae1c5cc927b5c63cfe47ea1c2ca149560b4f3efa336fcab339b6f065e
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:894d7385052854ff6333edf420f03929d421cabce8f7a3233655bfaec3d667fc
3
  size 14645
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0c5e5def1dbadcea7f355dc3c47dab1ec2eea5e39c560e66d4be8f163dff9ae8
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2864175f72493ab2957d7cfc2953c788bbc11e28fc49502d93a74ed5d700c286
3
  size 1465
trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.044,
6
  "eval_steps": 1000,
7
- "global_step": 52000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -4071,6 +4071,3048 @@
4071
  "eval_samples_per_second": 202.032,
4072
  "eval_steps_per_second": 3.166,
4073
  "step": 52000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4074
  }
4075
  ],
4076
  "logging_steps": 100,
@@ -4090,7 +7132,7 @@
4090
  "attributes": {}
4091
  }
4092
  },
4093
- "total_flos": 2.269082661421056e+18,
4094
  "train_batch_size": 64,
4095
  "trial_name": null,
4096
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.062,
6
  "eval_steps": 1000,
7
+ "global_step": 91000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
4071
  "eval_samples_per_second": 202.032,
4072
  "eval_steps_per_second": 3.166,
4073
  "step": 52000
4074
+ },
4075
+ {
4076
+ "epoch": 0.0442,
4077
+ "grad_norm": 1.2689367532730103,
4078
+ "learning_rate": 4.889137031740717e-05,
4079
+ "loss": 1.2189,
4080
+ "step": 52100
4081
+ },
4082
+ {
4083
+ "epoch": 0.0444,
4084
+ "grad_norm": 1.0029367208480835,
4085
+ "learning_rate": 4.888669295522137e-05,
4086
+ "loss": 1.1754,
4087
+ "step": 52200
4088
+ },
4089
+ {
4090
+ "epoch": 0.0446,
4091
+ "grad_norm": 0.6958720684051514,
4092
+ "learning_rate": 4.8882005971478504e-05,
4093
+ "loss": 1.1601,
4094
+ "step": 52300
4095
+ },
4096
+ {
4097
+ "epoch": 0.0448,
4098
+ "grad_norm": 1.2337570190429688,
4099
+ "learning_rate": 4.887730936806648e-05,
4100
+ "loss": 1.2244,
4101
+ "step": 52400
4102
+ },
4103
+ {
4104
+ "epoch": 0.045,
4105
+ "grad_norm": 1.2311972379684448,
4106
+ "learning_rate": 4.8872603146877104e-05,
4107
+ "loss": 1.2031,
4108
+ "step": 52500
4109
+ },
4110
+ {
4111
+ "epoch": 0.0452,
4112
+ "grad_norm": 1.145331859588623,
4113
+ "learning_rate": 4.886788730980604e-05,
4114
+ "loss": 1.1947,
4115
+ "step": 52600
4116
+ },
4117
+ {
4118
+ "epoch": 0.0454,
4119
+ "grad_norm": 1.1688799858093262,
4120
+ "learning_rate": 4.886316185875282e-05,
4121
+ "loss": 1.1655,
4122
+ "step": 52700
4123
+ },
4124
+ {
4125
+ "epoch": 0.0456,
4126
+ "grad_norm": 1.2751972675323486,
4127
+ "learning_rate": 4.885842679562085e-05,
4128
+ "loss": 1.2038,
4129
+ "step": 52800
4130
+ },
4131
+ {
4132
+ "epoch": 0.0458,
4133
+ "grad_norm": 0.6860191822052002,
4134
+ "learning_rate": 4.8853682122317426e-05,
4135
+ "loss": 1.1922,
4136
+ "step": 52900
4137
+ },
4138
+ {
4139
+ "epoch": 0.046,
4140
+ "grad_norm": 1.4772953987121582,
4141
+ "learning_rate": 4.8848927840753695e-05,
4142
+ "loss": 1.1856,
4143
+ "step": 53000
4144
+ },
4145
+ {
4146
+ "epoch": 0.046,
4147
+ "eval_loss": 1.0836056470870972,
4148
+ "eval_runtime": 76.3679,
4149
+ "eval_samples_per_second": 202.218,
4150
+ "eval_steps_per_second": 3.169,
4151
+ "step": 53000
4152
+ },
4153
+ {
4154
+ "epoch": 0.0462,
4155
+ "grad_norm": 1.2491508722305298,
4156
+ "learning_rate": 4.884416395284468e-05,
4157
+ "loss": 1.1924,
4158
+ "step": 53100
4159
+ },
4160
+ {
4161
+ "epoch": 0.0464,
4162
+ "grad_norm": 1.1689327955245972,
4163
+ "learning_rate": 4.883939046050928e-05,
4164
+ "loss": 1.1675,
4165
+ "step": 53200
4166
+ },
4167
+ {
4168
+ "epoch": 0.0466,
4169
+ "grad_norm": 1.0528528690338135,
4170
+ "learning_rate": 4.883460736567025e-05,
4171
+ "loss": 1.1879,
4172
+ "step": 53300
4173
+ },
4174
+ {
4175
+ "epoch": 0.0468,
4176
+ "grad_norm": 1.141653060913086,
4177
+ "learning_rate": 4.8829814670254226e-05,
4178
+ "loss": 1.1637,
4179
+ "step": 53400
4180
+ },
4181
+ {
4182
+ "epoch": 0.047,
4183
+ "grad_norm": 0.8094840049743652,
4184
+ "learning_rate": 4.88250123761917e-05,
4185
+ "loss": 1.1924,
4186
+ "step": 53500
4187
+ },
4188
+ {
4189
+ "epoch": 0.0472,
4190
+ "grad_norm": 1.4988161325454712,
4191
+ "learning_rate": 4.8820200485417036e-05,
4192
+ "loss": 1.1962,
4193
+ "step": 53600
4194
+ },
4195
+ {
4196
+ "epoch": 0.0474,
4197
+ "grad_norm": 0.8497682809829712,
4198
+ "learning_rate": 4.881537899986847e-05,
4199
+ "loss": 1.1987,
4200
+ "step": 53700
4201
+ },
4202
+ {
4203
+ "epoch": 0.0476,
4204
+ "grad_norm": 1.0132189989089966,
4205
+ "learning_rate": 4.8810547921488083e-05,
4206
+ "loss": 1.1666,
4207
+ "step": 53800
4208
+ },
4209
+ {
4210
+ "epoch": 0.0478,
4211
+ "grad_norm": 1.275478720664978,
4212
+ "learning_rate": 4.8805707252221846e-05,
4213
+ "loss": 1.2072,
4214
+ "step": 53900
4215
+ },
4216
+ {
4217
+ "epoch": 0.048,
4218
+ "grad_norm": 1.1257511377334595,
4219
+ "learning_rate": 4.880085699401958e-05,
4220
+ "loss": 1.2128,
4221
+ "step": 54000
4222
+ },
4223
+ {
4224
+ "epoch": 0.048,
4225
+ "eval_loss": 1.081576943397522,
4226
+ "eval_runtime": 76.6431,
4227
+ "eval_samples_per_second": 201.492,
4228
+ "eval_steps_per_second": 3.157,
4229
+ "step": 54000
4230
+ },
4231
+ {
4232
+ "epoch": 0.0482,
4233
+ "grad_norm": 1.132750153541565,
4234
+ "learning_rate": 4.879599714883496e-05,
4235
+ "loss": 1.2239,
4236
+ "step": 54100
4237
+ },
4238
+ {
4239
+ "epoch": 0.0484,
4240
+ "grad_norm": 1.3854628801345825,
4241
+ "learning_rate": 4.8791127718625526e-05,
4242
+ "loss": 1.1447,
4243
+ "step": 54200
4244
+ },
4245
+ {
4246
+ "epoch": 0.0486,
4247
+ "grad_norm": 1.32233464717865,
4248
+ "learning_rate": 4.87862487053527e-05,
4249
+ "loss": 1.1765,
4250
+ "step": 54300
4251
+ },
4252
+ {
4253
+ "epoch": 0.0488,
4254
+ "grad_norm": 1.1571578979492188,
4255
+ "learning_rate": 4.8781360110981744e-05,
4256
+ "loss": 1.1844,
4257
+ "step": 54400
4258
+ },
4259
+ {
4260
+ "epoch": 0.049,
4261
+ "grad_norm": 1.552740216255188,
4262
+ "learning_rate": 4.877646193748177e-05,
4263
+ "loss": 1.1336,
4264
+ "step": 54500
4265
+ },
4266
+ {
4267
+ "epoch": 0.0492,
4268
+ "grad_norm": 1.3447420597076416,
4269
+ "learning_rate": 4.8771554186825774e-05,
4270
+ "loss": 1.2401,
4271
+ "step": 54600
4272
+ },
4273
+ {
4274
+ "epoch": 0.0494,
4275
+ "grad_norm": 1.0012767314910889,
4276
+ "learning_rate": 4.87666368609906e-05,
4277
+ "loss": 1.2236,
4278
+ "step": 54700
4279
+ },
4280
+ {
4281
+ "epoch": 0.0496,
4282
+ "grad_norm": 1.1246662139892578,
4283
+ "learning_rate": 4.876170996195693e-05,
4284
+ "loss": 1.2452,
4285
+ "step": 54800
4286
+ },
4287
+ {
4288
+ "epoch": 0.0498,
4289
+ "grad_norm": 0.7534450888633728,
4290
+ "learning_rate": 4.875677349170934e-05,
4291
+ "loss": 1.2333,
4292
+ "step": 54900
4293
+ },
4294
+ {
4295
+ "epoch": 0.05,
4296
+ "grad_norm": 1.2943884134292603,
4297
+ "learning_rate": 4.875182745223622e-05,
4298
+ "loss": 1.1986,
4299
+ "step": 55000
4300
+ },
4301
+ {
4302
+ "epoch": 0.05,
4303
+ "eval_loss": 1.0774849653244019,
4304
+ "eval_runtime": 76.6003,
4305
+ "eval_samples_per_second": 201.605,
4306
+ "eval_steps_per_second": 3.159,
4307
+ "step": 55000
4308
+ },
4309
+ {
4310
+ "epoch": 0.0502,
4311
+ "grad_norm": 1.0771546363830566,
4312
+ "learning_rate": 4.874687184552984e-05,
4313
+ "loss": 1.2022,
4314
+ "step": 55100
4315
+ },
4316
+ {
4317
+ "epoch": 0.0504,
4318
+ "grad_norm": 1.1722393035888672,
4319
+ "learning_rate": 4.8741906673586334e-05,
4320
+ "loss": 1.1856,
4321
+ "step": 55200
4322
+ },
4323
+ {
4324
+ "epoch": 0.0506,
4325
+ "grad_norm": 0.7547242045402527,
4326
+ "learning_rate": 4.873693193840565e-05,
4327
+ "loss": 1.153,
4328
+ "step": 55300
4329
+ },
4330
+ {
4331
+ "epoch": 0.0508,
4332
+ "grad_norm": 0.9694270491600037,
4333
+ "learning_rate": 4.873194764199162e-05,
4334
+ "loss": 1.2389,
4335
+ "step": 55400
4336
+ },
4337
+ {
4338
+ "epoch": 0.051,
4339
+ "grad_norm": 0.6288232803344727,
4340
+ "learning_rate": 4.872695378635192e-05,
4341
+ "loss": 1.195,
4342
+ "step": 55500
4343
+ },
4344
+ {
4345
+ "epoch": 0.0512,
4346
+ "grad_norm": 1.1400961875915527,
4347
+ "learning_rate": 4.872195037349807e-05,
4348
+ "loss": 1.1903,
4349
+ "step": 55600
4350
+ },
4351
+ {
4352
+ "epoch": 0.0514,
4353
+ "grad_norm": 1.0738123655319214,
4354
+ "learning_rate": 4.871693740544545e-05,
4355
+ "loss": 1.1764,
4356
+ "step": 55700
4357
+ },
4358
+ {
4359
+ "epoch": 0.0516,
4360
+ "grad_norm": 1.2298240661621094,
4361
+ "learning_rate": 4.871191488421327e-05,
4362
+ "loss": 1.1701,
4363
+ "step": 55800
4364
+ },
4365
+ {
4366
+ "epoch": 0.0518,
4367
+ "grad_norm": 1.3240865468978882,
4368
+ "learning_rate": 4.8706882811824624e-05,
4369
+ "loss": 1.1828,
4370
+ "step": 55900
4371
+ },
4372
+ {
4373
+ "epoch": 0.052,
4374
+ "grad_norm": 1.4167003631591797,
4375
+ "learning_rate": 4.870184119030641e-05,
4376
+ "loss": 1.204,
4377
+ "step": 56000
4378
+ },
4379
+ {
4380
+ "epoch": 0.052,
4381
+ "eval_loss": 1.0775164365768433,
4382
+ "eval_runtime": 76.8889,
4383
+ "eval_samples_per_second": 200.848,
4384
+ "eval_steps_per_second": 3.147,
4385
+ "step": 56000
4386
+ },
4387
+ {
4388
+ "epoch": 0.0522,
4389
+ "grad_norm": 0.6648851037025452,
4390
+ "learning_rate": 4.86967900216894e-05,
4391
+ "loss": 1.174,
4392
+ "step": 56100
4393
+ },
4394
+ {
4395
+ "epoch": 0.0524,
4396
+ "grad_norm": 1.29317307472229,
4397
+ "learning_rate": 4.8691729308008196e-05,
4398
+ "loss": 1.1695,
4399
+ "step": 56200
4400
+ },
4401
+ {
4402
+ "epoch": 0.0526,
4403
+ "grad_norm": 1.3121986389160156,
4404
+ "learning_rate": 4.868665905130127e-05,
4405
+ "loss": 1.1941,
4406
+ "step": 56300
4407
+ },
4408
+ {
4409
+ "epoch": 0.0528,
4410
+ "grad_norm": 0.6604340672492981,
4411
+ "learning_rate": 4.868157925361091e-05,
4412
+ "loss": 1.1875,
4413
+ "step": 56400
4414
+ },
4415
+ {
4416
+ "epoch": 0.053,
4417
+ "grad_norm": 1.0366885662078857,
4418
+ "learning_rate": 4.867648991698325e-05,
4419
+ "loss": 1.2265,
4420
+ "step": 56500
4421
+ },
4422
+ {
4423
+ "epoch": 0.0532,
4424
+ "grad_norm": 1.382543683052063,
4425
+ "learning_rate": 4.867139104346829e-05,
4426
+ "loss": 1.2122,
4427
+ "step": 56600
4428
+ },
4429
+ {
4430
+ "epoch": 0.0534,
4431
+ "grad_norm": 1.0773979425430298,
4432
+ "learning_rate": 4.866628263511985e-05,
4433
+ "loss": 1.2375,
4434
+ "step": 56700
4435
+ },
4436
+ {
4437
+ "epoch": 0.0536,
4438
+ "grad_norm": 1.178758978843689,
4439
+ "learning_rate": 4.8661164693995584e-05,
4440
+ "loss": 1.1959,
4441
+ "step": 56800
4442
+ },
4443
+ {
4444
+ "epoch": 0.0538,
4445
+ "grad_norm": 0.7048764228820801,
4446
+ "learning_rate": 4.865603722215702e-05,
4447
+ "loss": 1.1841,
4448
+ "step": 56900
4449
+ },
4450
+ {
4451
+ "epoch": 0.054,
4452
+ "grad_norm": 1.3390711545944214,
4453
+ "learning_rate": 4.865090022166949e-05,
4454
+ "loss": 1.2033,
4455
+ "step": 57000
4456
+ },
4457
+ {
4458
+ "epoch": 0.054,
4459
+ "eval_loss": 1.0746017694473267,
4460
+ "eval_runtime": 77.1768,
4461
+ "eval_samples_per_second": 200.099,
4462
+ "eval_steps_per_second": 3.136,
4463
+ "step": 57000
4464
+ },
4465
+ {
4466
+ "epoch": 0.0542,
4467
+ "grad_norm": 1.0639598369598389,
4468
+ "learning_rate": 4.864575369460218e-05,
4469
+ "loss": 1.1948,
4470
+ "step": 57100
4471
+ },
4472
+ {
4473
+ "epoch": 0.0544,
4474
+ "grad_norm": 1.1349152326583862,
4475
+ "learning_rate": 4.86405976430281e-05,
4476
+ "loss": 1.1666,
4477
+ "step": 57200
4478
+ },
4479
+ {
4480
+ "epoch": 0.0546,
4481
+ "grad_norm": 1.0187245607376099,
4482
+ "learning_rate": 4.8635432069024125e-05,
4483
+ "loss": 1.1614,
4484
+ "step": 57300
4485
+ },
4486
+ {
4487
+ "epoch": 0.0548,
4488
+ "grad_norm": 0.6468742489814758,
4489
+ "learning_rate": 4.863025697467094e-05,
4490
+ "loss": 1.2043,
4491
+ "step": 57400
4492
+ },
4493
+ {
4494
+ "epoch": 0.055,
4495
+ "grad_norm": 1.1298869848251343,
4496
+ "learning_rate": 4.862507236205307e-05,
4497
+ "loss": 1.1884,
4498
+ "step": 57500
4499
+ },
4500
+ {
4501
+ "epoch": 0.0552,
4502
+ "grad_norm": 0.7240111827850342,
4503
+ "learning_rate": 4.861987823325887e-05,
4504
+ "loss": 1.186,
4505
+ "step": 57600
4506
+ },
4507
+ {
4508
+ "epoch": 0.0554,
4509
+ "grad_norm": 0.8047366142272949,
4510
+ "learning_rate": 4.861467459038056e-05,
4511
+ "loss": 1.2029,
4512
+ "step": 57700
4513
+ },
4514
+ {
4515
+ "epoch": 0.0556,
4516
+ "grad_norm": 0.8840340375900269,
4517
+ "learning_rate": 4.860946143551413e-05,
4518
+ "loss": 1.19,
4519
+ "step": 57800
4520
+ },
4521
+ {
4522
+ "epoch": 0.0558,
4523
+ "grad_norm": 1.1575409173965454,
4524
+ "learning_rate": 4.860423877075947e-05,
4525
+ "loss": 1.1637,
4526
+ "step": 57900
4527
+ },
4528
+ {
4529
+ "epoch": 0.056,
4530
+ "grad_norm": 0.6591224074363708,
4531
+ "learning_rate": 4.859900659822025e-05,
4532
+ "loss": 1.2203,
4533
+ "step": 58000
4534
+ },
4535
+ {
4536
+ "epoch": 0.056,
4537
+ "eval_loss": 1.0788133144378662,
4538
+ "eval_runtime": 76.7654,
4539
+ "eval_samples_per_second": 201.171,
4540
+ "eval_steps_per_second": 3.152,
4541
+ "step": 58000
4542
+ },
4543
+ {
4544
+ "epoch": 0.0562,
4545
+ "grad_norm": 1.3405015468597412,
4546
+ "learning_rate": 4.859376492000399e-05,
4547
+ "loss": 1.19,
4548
+ "step": 58100
4549
+ },
4550
+ {
4551
+ "epoch": 0.0564,
4552
+ "grad_norm": 1.1912270784378052,
4553
+ "learning_rate": 4.858851373822205e-05,
4554
+ "loss": 1.1521,
4555
+ "step": 58200
4556
+ },
4557
+ {
4558
+ "epoch": 0.0566,
4559
+ "grad_norm": 1.0169751644134521,
4560
+ "learning_rate": 4.85832530549896e-05,
4561
+ "loss": 1.2054,
4562
+ "step": 58300
4563
+ },
4564
+ {
4565
+ "epoch": 0.0568,
4566
+ "grad_norm": 0.6713104248046875,
4567
+ "learning_rate": 4.857798287242563e-05,
4568
+ "loss": 1.2033,
4569
+ "step": 58400
4570
+ },
4571
+ {
4572
+ "epoch": 0.057,
4573
+ "grad_norm": 1.2116252183914185,
4574
+ "learning_rate": 4.857270319265298e-05,
4575
+ "loss": 1.1919,
4576
+ "step": 58500
4577
+ },
4578
+ {
4579
+ "epoch": 0.0572,
4580
+ "grad_norm": 0.9526674151420593,
4581
+ "learning_rate": 4.856741401779831e-05,
4582
+ "loss": 1.1724,
4583
+ "step": 58600
4584
+ },
4585
+ {
4586
+ "epoch": 0.0574,
4587
+ "grad_norm": 1.458253264427185,
4588
+ "learning_rate": 4.856211534999209e-05,
4589
+ "loss": 1.1479,
4590
+ "step": 58700
4591
+ },
4592
+ {
4593
+ "epoch": 0.0576,
4594
+ "grad_norm": 1.173437237739563,
4595
+ "learning_rate": 4.855680719136862e-05,
4596
+ "loss": 1.2005,
4597
+ "step": 58800
4598
+ },
4599
+ {
4600
+ "epoch": 0.0578,
4601
+ "grad_norm": 0.7292013168334961,
4602
+ "learning_rate": 4.8551489544066034e-05,
4603
+ "loss": 1.1292,
4604
+ "step": 58900
4605
+ },
4606
+ {
4607
+ "epoch": 0.058,
4608
+ "grad_norm": 0.6017533540725708,
4609
+ "learning_rate": 4.854616241022627e-05,
4610
+ "loss": 1.1527,
4611
+ "step": 59000
4612
+ },
4613
+ {
4614
+ "epoch": 0.058,
4615
+ "eval_loss": 1.0688042640686035,
4616
+ "eval_runtime": 76.596,
4617
+ "eval_samples_per_second": 201.616,
4618
+ "eval_steps_per_second": 3.159,
4619
+ "step": 59000
4620
+ },
4621
+ {
4622
+ "epoch": 0.0582,
4623
+ "grad_norm": 0.8270254731178284,
4624
+ "learning_rate": 4.8540825791995114e-05,
4625
+ "loss": 1.1517,
4626
+ "step": 59100
4627
+ },
4628
+ {
4629
+ "epoch": 0.0584,
4630
+ "grad_norm": 1.1182663440704346,
4631
+ "learning_rate": 4.8535479691522136e-05,
4632
+ "loss": 1.2282,
4633
+ "step": 59200
4634
+ },
4635
+ {
4636
+ "epoch": 0.0586,
4637
+ "grad_norm": 1.1249291896820068,
4638
+ "learning_rate": 4.853012411096075e-05,
4639
+ "loss": 1.1314,
4640
+ "step": 59300
4641
+ },
4642
+ {
4643
+ "epoch": 0.0588,
4644
+ "grad_norm": 0.6025962233543396,
4645
+ "learning_rate": 4.85247590524682e-05,
4646
+ "loss": 1.1879,
4647
+ "step": 59400
4648
+ },
4649
+ {
4650
+ "epoch": 0.059,
4651
+ "grad_norm": 1.2914466857910156,
4652
+ "learning_rate": 4.85193845182055e-05,
4653
+ "loss": 1.1926,
4654
+ "step": 59500
4655
+ },
4656
+ {
4657
+ "epoch": 0.0592,
4658
+ "grad_norm": 0.7965525388717651,
4659
+ "learning_rate": 4.8514000510337544e-05,
4660
+ "loss": 1.2344,
4661
+ "step": 59600
4662
+ },
4663
+ {
4664
+ "epoch": 0.0594,
4665
+ "grad_norm": 0.6595709323883057,
4666
+ "learning_rate": 4.850860703103298e-05,
4667
+ "loss": 1.2056,
4668
+ "step": 59700
4669
+ },
4670
+ {
4671
+ "epoch": 0.0596,
4672
+ "grad_norm": 0.783892035484314,
4673
+ "learning_rate": 4.850320408246433e-05,
4674
+ "loss": 1.1343,
4675
+ "step": 59800
4676
+ },
4677
+ {
4678
+ "epoch": 0.0598,
4679
+ "grad_norm": 0.948952853679657,
4680
+ "learning_rate": 4.849779166680788e-05,
4681
+ "loss": 1.1607,
4682
+ "step": 59900
4683
+ },
4684
+ {
4685
+ "epoch": 0.06,
4686
+ "grad_norm": 0.725027322769165,
4687
+ "learning_rate": 4.849236978624375e-05,
4688
+ "loss": 1.2125,
4689
+ "step": 60000
4690
+ },
4691
+ {
4692
+ "epoch": 0.06,
4693
+ "eval_loss": 1.0838971138000488,
4694
+ "eval_runtime": 76.8451,
4695
+ "eval_samples_per_second": 200.963,
4696
+ "eval_steps_per_second": 3.149,
4697
+ "step": 60000
4698
+ },
4699
+ {
4700
+ "epoch": 0.0002,
4701
+ "grad_norm": 1.1788556575775146,
4702
+ "learning_rate": 4.848693844295589e-05,
4703
+ "loss": 1.1917,
4704
+ "step": 60100
4705
+ },
4706
+ {
4707
+ "epoch": 0.0004,
4708
+ "grad_norm": 1.3381775617599487,
4709
+ "learning_rate": 4.848149763913202e-05,
4710
+ "loss": 1.2108,
4711
+ "step": 60200
4712
+ },
4713
+ {
4714
+ "epoch": 0.0006,
4715
+ "grad_norm": 0.9748820066452026,
4716
+ "learning_rate": 4.847604737696372e-05,
4717
+ "loss": 1.2054,
4718
+ "step": 60300
4719
+ },
4720
+ {
4721
+ "epoch": 0.0008,
4722
+ "grad_norm": 1.3528317213058472,
4723
+ "learning_rate": 4.847058765864634e-05,
4724
+ "loss": 1.1582,
4725
+ "step": 60400
4726
+ },
4727
+ {
4728
+ "epoch": 0.001,
4729
+ "grad_norm": 1.0475611686706543,
4730
+ "learning_rate": 4.8465118486379065e-05,
4731
+ "loss": 1.1409,
4732
+ "step": 60500
4733
+ },
4734
+ {
4735
+ "epoch": 0.0012,
4736
+ "grad_norm": 0.667515754699707,
4737
+ "learning_rate": 4.8459639862364866e-05,
4738
+ "loss": 1.1548,
4739
+ "step": 60600
4740
+ },
4741
+ {
4742
+ "epoch": 0.0014,
4743
+ "grad_norm": 1.3529212474822998,
4744
+ "learning_rate": 4.845415178881053e-05,
4745
+ "loss": 1.1741,
4746
+ "step": 60700
4747
+ },
4748
+ {
4749
+ "epoch": 0.0016,
4750
+ "grad_norm": 1.2415704727172852,
4751
+ "learning_rate": 4.844865426792666e-05,
4752
+ "loss": 1.1689,
4753
+ "step": 60800
4754
+ },
4755
+ {
4756
+ "epoch": 0.0018,
4757
+ "grad_norm": 0.9598329663276672,
4758
+ "learning_rate": 4.844314730192766e-05,
4759
+ "loss": 1.2138,
4760
+ "step": 60900
4761
+ },
4762
+ {
4763
+ "epoch": 0.002,
4764
+ "grad_norm": 0.660463273525238,
4765
+ "learning_rate": 4.843763089303173e-05,
4766
+ "loss": 1.1897,
4767
+ "step": 61000
4768
+ },
4769
+ {
4770
+ "epoch": 0.002,
4771
+ "eval_loss": 1.0804229974746704,
4772
+ "eval_runtime": 77.9042,
4773
+ "eval_samples_per_second": 198.231,
4774
+ "eval_steps_per_second": 3.106,
4775
+ "step": 61000
4776
+ },
4777
+ {
4778
+ "epoch": 0.0022,
4779
+ "grad_norm": 1.3137476444244385,
4780
+ "learning_rate": 4.843210504346088e-05,
4781
+ "loss": 1.2149,
4782
+ "step": 61100
4783
+ },
4784
+ {
4785
+ "epoch": 0.0024,
4786
+ "grad_norm": 2.466374158859253,
4787
+ "learning_rate": 4.842656975544092e-05,
4788
+ "loss": 1.2294,
4789
+ "step": 61200
4790
+ },
4791
+ {
4792
+ "epoch": 0.0026,
4793
+ "grad_norm": 0.9236732721328735,
4794
+ "learning_rate": 4.842102503120146e-05,
4795
+ "loss": 1.2316,
4796
+ "step": 61300
4797
+ },
4798
+ {
4799
+ "epoch": 0.0028,
4800
+ "grad_norm": 0.9453101754188538,
4801
+ "learning_rate": 4.841547087297592e-05,
4802
+ "loss": 1.1903,
4803
+ "step": 61400
4804
+ },
4805
+ {
4806
+ "epoch": 0.003,
4807
+ "grad_norm": 1.0694693326950073,
4808
+ "learning_rate": 4.840990728300151e-05,
4809
+ "loss": 1.2027,
4810
+ "step": 61500
4811
+ },
4812
+ {
4813
+ "epoch": 0.0032,
4814
+ "grad_norm": 1.0661156177520752,
4815
+ "learning_rate": 4.8404334263519254e-05,
4816
+ "loss": 1.2268,
4817
+ "step": 61600
4818
+ },
4819
+ {
4820
+ "epoch": 0.0034,
4821
+ "grad_norm": 1.3803828954696655,
4822
+ "learning_rate": 4.839875181677394e-05,
4823
+ "loss": 1.2084,
4824
+ "step": 61700
4825
+ },
4826
+ {
4827
+ "epoch": 0.0036,
4828
+ "grad_norm": 0.896979033946991,
4829
+ "learning_rate": 4.839315994501421e-05,
4830
+ "loss": 1.1818,
4831
+ "step": 61800
4832
+ },
4833
+ {
4834
+ "epoch": 0.0038,
4835
+ "grad_norm": 1.1509560346603394,
4836
+ "learning_rate": 4.8387558650492446e-05,
4837
+ "loss": 1.226,
4838
+ "step": 61900
4839
+ },
4840
+ {
4841
+ "epoch": 0.004,
4842
+ "grad_norm": 1.2490339279174805,
4843
+ "learning_rate": 4.8381947935464854e-05,
4844
+ "loss": 1.2283,
4845
+ "step": 62000
4846
+ },
4847
+ {
4848
+ "epoch": 0.004,
4849
+ "eval_loss": 1.086965560913086,
4850
+ "eval_runtime": 75.4991,
4851
+ "eval_samples_per_second": 204.545,
4852
+ "eval_steps_per_second": 3.205,
4853
+ "step": 62000
4854
+ },
4855
+ {
4856
+ "epoch": 0.0042,
4857
+ "grad_norm": 1.0047966241836548,
4858
+ "learning_rate": 4.837632780219142e-05,
4859
+ "loss": 1.2006,
4860
+ "step": 62100
4861
+ },
4862
+ {
4863
+ "epoch": 0.0044,
4864
+ "grad_norm": 1.3791793584823608,
4865
+ "learning_rate": 4.837069825293596e-05,
4866
+ "loss": 1.2191,
4867
+ "step": 62200
4868
+ },
4869
+ {
4870
+ "epoch": 0.0046,
4871
+ "grad_norm": 1.4083282947540283,
4872
+ "learning_rate": 4.836505928996603e-05,
4873
+ "loss": 1.2232,
4874
+ "step": 62300
4875
+ },
4876
+ {
4877
+ "epoch": 0.0048,
4878
+ "grad_norm": 1.5420063734054565,
4879
+ "learning_rate": 4.835941091555301e-05,
4880
+ "loss": 1.2281,
4881
+ "step": 62400
4882
+ },
4883
+ {
4884
+ "epoch": 0.005,
4885
+ "grad_norm": 0.7661809921264648,
4886
+ "learning_rate": 4.8353753131972066e-05,
4887
+ "loss": 1.2262,
4888
+ "step": 62500
4889
+ },
4890
+ {
4891
+ "epoch": 0.0052,
4892
+ "grad_norm": 0.5983784198760986,
4893
+ "learning_rate": 4.8348085941502164e-05,
4894
+ "loss": 1.2203,
4895
+ "step": 62600
4896
+ },
4897
+ {
4898
+ "epoch": 0.0054,
4899
+ "grad_norm": 0.8108716011047363,
4900
+ "learning_rate": 4.8342409346426024e-05,
4901
+ "loss": 1.1536,
4902
+ "step": 62700
4903
+ },
4904
+ {
4905
+ "epoch": 0.0056,
4906
+ "grad_norm": 0.9011421203613281,
4907
+ "learning_rate": 4.83367233490302e-05,
4908
+ "loss": 1.2214,
4909
+ "step": 62800
4910
+ },
4911
+ {
4912
+ "epoch": 0.0058,
4913
+ "grad_norm": 0.6667259335517883,
4914
+ "learning_rate": 4.8331027951604995e-05,
4915
+ "loss": 1.1932,
4916
+ "step": 62900
4917
+ },
4918
+ {
4919
+ "epoch": 0.006,
4920
+ "grad_norm": 1.2265853881835938,
4921
+ "learning_rate": 4.8325323156444525e-05,
4922
+ "loss": 1.235,
4923
+ "step": 63000
4924
+ },
4925
+ {
4926
+ "epoch": 0.006,
4927
+ "eval_loss": 1.0849037170410156,
4928
+ "eval_runtime": 76.5492,
4929
+ "eval_samples_per_second": 201.74,
4930
+ "eval_steps_per_second": 3.161,
4931
+ "step": 63000
4932
+ },
4933
+ {
4934
+ "epoch": 0.0062,
4935
+ "grad_norm": 1.468518614768982,
4936
+ "learning_rate": 4.831960896584667e-05,
4937
+ "loss": 1.1886,
4938
+ "step": 63100
4939
+ },
4940
+ {
4941
+ "epoch": 0.0064,
4942
+ "grad_norm": 1.2378790378570557,
4943
+ "learning_rate": 4.831388538211312e-05,
4944
+ "loss": 1.1983,
4945
+ "step": 63200
4946
+ },
4947
+ {
4948
+ "epoch": 0.0066,
4949
+ "grad_norm": 1.2989089488983154,
4950
+ "learning_rate": 4.830815240754933e-05,
4951
+ "loss": 1.1894,
4952
+ "step": 63300
4953
+ },
4954
+ {
4955
+ "epoch": 0.0068,
4956
+ "grad_norm": 1.3696600198745728,
4957
+ "learning_rate": 4.830241004446453e-05,
4958
+ "loss": 1.1798,
4959
+ "step": 63400
4960
+ },
4961
+ {
4962
+ "epoch": 0.007,
4963
+ "grad_norm": 1.3715136051177979,
4964
+ "learning_rate": 4.829665829517175e-05,
4965
+ "loss": 1.2323,
4966
+ "step": 63500
4967
+ },
4968
+ {
4969
+ "epoch": 0.0072,
4970
+ "grad_norm": 0.7888614535331726,
4971
+ "learning_rate": 4.82908971619878e-05,
4972
+ "loss": 1.2098,
4973
+ "step": 63600
4974
+ },
4975
+ {
4976
+ "epoch": 0.0074,
4977
+ "grad_norm": 1.0456979274749756,
4978
+ "learning_rate": 4.828512664723326e-05,
4979
+ "loss": 1.21,
4980
+ "step": 63700
4981
+ },
4982
+ {
4983
+ "epoch": 0.0076,
4984
+ "grad_norm": 1.4525970220565796,
4985
+ "learning_rate": 4.827934675323248e-05,
4986
+ "loss": 1.191,
4987
+ "step": 63800
4988
+ },
4989
+ {
4990
+ "epoch": 0.0078,
4991
+ "grad_norm": 1.6751583814620972,
4992
+ "learning_rate": 4.8273557482313625e-05,
4993
+ "loss": 1.2084,
4994
+ "step": 63900
4995
+ },
4996
+ {
4997
+ "epoch": 0.008,
4998
+ "grad_norm": 0.7282904982566833,
4999
+ "learning_rate": 4.826775883680859e-05,
5000
+ "loss": 1.2376,
5001
+ "step": 64000
5002
+ },
5003
+ {
5004
+ "epoch": 0.008,
5005
+ "eval_loss": 1.0806148052215576,
5006
+ "eval_runtime": 75.7629,
5007
+ "eval_samples_per_second": 203.833,
5008
+ "eval_steps_per_second": 3.194,
5009
+ "step": 64000
5010
+ },
5011
+ {
5012
+ "epoch": 0.0082,
5013
+ "grad_norm": 1.0859407186508179,
5014
+ "learning_rate": 4.826195081905308e-05,
5015
+ "loss": 1.1807,
5016
+ "step": 64100
5017
+ },
5018
+ {
5019
+ "epoch": 0.0084,
5020
+ "grad_norm": 1.3917006254196167,
5021
+ "learning_rate": 4.8256133431386566e-05,
5022
+ "loss": 1.2012,
5023
+ "step": 64200
5024
+ },
5025
+ {
5026
+ "epoch": 0.0086,
5027
+ "grad_norm": 1.4448059797286987,
5028
+ "learning_rate": 4.825030667615228e-05,
5029
+ "loss": 1.2305,
5030
+ "step": 64300
5031
+ },
5032
+ {
5033
+ "epoch": 0.0088,
5034
+ "grad_norm": 1.0721293687820435,
5035
+ "learning_rate": 4.824447055569725e-05,
5036
+ "loss": 1.2332,
5037
+ "step": 64400
5038
+ },
5039
+ {
5040
+ "epoch": 0.009,
5041
+ "grad_norm": 0.9940403699874878,
5042
+ "learning_rate": 4.823862507237226e-05,
5043
+ "loss": 1.2096,
5044
+ "step": 64500
5045
+ },
5046
+ {
5047
+ "epoch": 0.0092,
5048
+ "grad_norm": 1.5473828315734863,
5049
+ "learning_rate": 4.823277022853187e-05,
5050
+ "loss": 1.1706,
5051
+ "step": 64600
5052
+ },
5053
+ {
5054
+ "epoch": 0.0094,
5055
+ "grad_norm": 1.3127409219741821,
5056
+ "learning_rate": 4.822690602653441e-05,
5057
+ "loss": 1.2051,
5058
+ "step": 64700
5059
+ },
5060
+ {
5061
+ "epoch": 0.0096,
5062
+ "grad_norm": 1.7532451152801514,
5063
+ "learning_rate": 4.822103246874198e-05,
5064
+ "loss": 1.196,
5065
+ "step": 64800
5066
+ },
5067
+ {
5068
+ "epoch": 0.0098,
5069
+ "grad_norm": 0.8706884980201721,
5070
+ "learning_rate": 4.8215149557520446e-05,
5071
+ "loss": 1.1862,
5072
+ "step": 64900
5073
+ },
5074
+ {
5075
+ "epoch": 0.01,
5076
+ "grad_norm": 1.5764431953430176,
5077
+ "learning_rate": 4.8209257295239455e-05,
5078
+ "loss": 1.2257,
5079
+ "step": 65000
5080
+ },
5081
+ {
5082
+ "epoch": 0.01,
5083
+ "eval_loss": 1.0817573070526123,
5084
+ "eval_runtime": 75.771,
5085
+ "eval_samples_per_second": 203.811,
5086
+ "eval_steps_per_second": 3.194,
5087
+ "step": 65000
5088
+ },
5089
+ {
5090
+ "epoch": 0.0102,
5091
+ "grad_norm": 1.467939019203186,
5092
+ "learning_rate": 4.820335568427239e-05,
5093
+ "loss": 1.2317,
5094
+ "step": 65100
5095
+ },
5096
+ {
5097
+ "epoch": 0.0104,
5098
+ "grad_norm": 1.270477533340454,
5099
+ "learning_rate": 4.819744472699643e-05,
5100
+ "loss": 1.2308,
5101
+ "step": 65200
5102
+ },
5103
+ {
5104
+ "epoch": 0.0106,
5105
+ "grad_norm": 1.073867917060852,
5106
+ "learning_rate": 4.8191524425792526e-05,
5107
+ "loss": 1.1991,
5108
+ "step": 65300
5109
+ },
5110
+ {
5111
+ "epoch": 0.0108,
5112
+ "grad_norm": 1.0844908952713013,
5113
+ "learning_rate": 4.818559478304534e-05,
5114
+ "loss": 1.1914,
5115
+ "step": 65400
5116
+ },
5117
+ {
5118
+ "epoch": 0.011,
5119
+ "grad_norm": 1.282365322113037,
5120
+ "learning_rate": 4.817965580114335e-05,
5121
+ "loss": 1.2035,
5122
+ "step": 65500
5123
+ },
5124
+ {
5125
+ "epoch": 0.0112,
5126
+ "grad_norm": 1.3751475811004639,
5127
+ "learning_rate": 4.817370748247878e-05,
5128
+ "loss": 1.215,
5129
+ "step": 65600
5130
+ },
5131
+ {
5132
+ "epoch": 0.0114,
5133
+ "grad_norm": 1.484107255935669,
5134
+ "learning_rate": 4.81677498294476e-05,
5135
+ "loss": 1.2298,
5136
+ "step": 65700
5137
+ },
5138
+ {
5139
+ "epoch": 0.0116,
5140
+ "grad_norm": 1.326803207397461,
5141
+ "learning_rate": 4.8161782844449566e-05,
5142
+ "loss": 1.1794,
5143
+ "step": 65800
5144
+ },
5145
+ {
5146
+ "epoch": 0.0118,
5147
+ "grad_norm": 1.6823039054870605,
5148
+ "learning_rate": 4.815580652988817e-05,
5149
+ "loss": 1.1896,
5150
+ "step": 65900
5151
+ },
5152
+ {
5153
+ "epoch": 0.012,
5154
+ "grad_norm": 1.1735076904296875,
5155
+ "learning_rate": 4.8149820888170673e-05,
5156
+ "loss": 1.2089,
5157
+ "step": 66000
5158
+ },
5159
+ {
5160
+ "epoch": 0.012,
5161
+ "eval_loss": 1.081894874572754,
5162
+ "eval_runtime": 75.5115,
5163
+ "eval_samples_per_second": 204.512,
5164
+ "eval_steps_per_second": 3.205,
5165
+ "step": 66000
5166
+ },
5167
+ {
5168
+ "epoch": 0.0122,
5169
+ "grad_norm": 1.0032376050949097,
5170
+ "learning_rate": 4.814382592170808e-05,
5171
+ "loss": 1.2197,
5172
+ "step": 66100
5173
+ },
5174
+ {
5175
+ "epoch": 0.0124,
5176
+ "grad_norm": 1.2638306617736816,
5177
+ "learning_rate": 4.813782163291519e-05,
5178
+ "loss": 1.2009,
5179
+ "step": 66200
5180
+ },
5181
+ {
5182
+ "epoch": 0.0126,
5183
+ "grad_norm": 1.2233041524887085,
5184
+ "learning_rate": 4.813180802421051e-05,
5185
+ "loss": 1.2069,
5186
+ "step": 66300
5187
+ },
5188
+ {
5189
+ "epoch": 0.0128,
5190
+ "grad_norm": 0.857825756072998,
5191
+ "learning_rate": 4.812578509801632e-05,
5192
+ "loss": 1.1942,
5193
+ "step": 66400
5194
+ },
5195
+ {
5196
+ "epoch": 0.013,
5197
+ "grad_norm": 0.8879494667053223,
5198
+ "learning_rate": 4.811975285675866e-05,
5199
+ "loss": 1.1689,
5200
+ "step": 66500
5201
+ },
5202
+ {
5203
+ "epoch": 0.0132,
5204
+ "grad_norm": 1.3842177391052246,
5205
+ "learning_rate": 4.811371130286731e-05,
5206
+ "loss": 1.1941,
5207
+ "step": 66600
5208
+ },
5209
+ {
5210
+ "epoch": 0.0134,
5211
+ "grad_norm": 1.303063988685608,
5212
+ "learning_rate": 4.810766043877582e-05,
5213
+ "loss": 1.194,
5214
+ "step": 66700
5215
+ },
5216
+ {
5217
+ "epoch": 0.0136,
5218
+ "grad_norm": 1.3135032653808594,
5219
+ "learning_rate": 4.810160026692147e-05,
5220
+ "loss": 1.1536,
5221
+ "step": 66800
5222
+ },
5223
+ {
5224
+ "epoch": 0.0138,
5225
+ "grad_norm": 0.8059789538383484,
5226
+ "learning_rate": 4.809553078974528e-05,
5227
+ "loss": 1.2083,
5228
+ "step": 66900
5229
+ },
5230
+ {
5231
+ "epoch": 0.014,
5232
+ "grad_norm": 1.493458867073059,
5233
+ "learning_rate": 4.808945200969206e-05,
5234
+ "loss": 1.2031,
5235
+ "step": 67000
5236
+ },
5237
+ {
5238
+ "epoch": 0.014,
5239
+ "eval_loss": 1.0807029008865356,
5240
+ "eval_runtime": 76.4746,
5241
+ "eval_samples_per_second": 201.936,
5242
+ "eval_steps_per_second": 3.164,
5243
+ "step": 67000
5244
+ },
5245
+ {
5246
+ "epoch": 0.0142,
5247
+ "grad_norm": 0.9932582378387451,
5248
+ "learning_rate": 4.808336392921033e-05,
5249
+ "loss": 1.1932,
5250
+ "step": 67100
5251
+ },
5252
+ {
5253
+ "epoch": 0.0144,
5254
+ "grad_norm": 1.1588648557662964,
5255
+ "learning_rate": 4.807726655075237e-05,
5256
+ "loss": 1.2004,
5257
+ "step": 67200
5258
+ },
5259
+ {
5260
+ "epoch": 0.0146,
5261
+ "grad_norm": 0.713295042514801,
5262
+ "learning_rate": 4.80711598767742e-05,
5263
+ "loss": 1.1336,
5264
+ "step": 67300
5265
+ },
5266
+ {
5267
+ "epoch": 0.0148,
5268
+ "grad_norm": 1.474853277206421,
5269
+ "learning_rate": 4.80650439097356e-05,
5270
+ "loss": 1.1909,
5271
+ "step": 67400
5272
+ },
5273
+ {
5274
+ "epoch": 0.015,
5275
+ "grad_norm": 1.0433249473571777,
5276
+ "learning_rate": 4.805891865210006e-05,
5277
+ "loss": 1.1868,
5278
+ "step": 67500
5279
+ },
5280
+ {
5281
+ "epoch": 0.0152,
5282
+ "grad_norm": 0.9942545294761658,
5283
+ "learning_rate": 4.8052784106334854e-05,
5284
+ "loss": 1.1896,
5285
+ "step": 67600
5286
+ },
5287
+ {
5288
+ "epoch": 0.0154,
5289
+ "grad_norm": 0.9021309018135071,
5290
+ "learning_rate": 4.804664027491096e-05,
5291
+ "loss": 1.2265,
5292
+ "step": 67700
5293
+ },
5294
+ {
5295
+ "epoch": 0.0156,
5296
+ "grad_norm": 1.4818402528762817,
5297
+ "learning_rate": 4.8040487160303126e-05,
5298
+ "loss": 1.2149,
5299
+ "step": 67800
5300
+ },
5301
+ {
5302
+ "epoch": 0.0158,
5303
+ "grad_norm": 0.74870365858078,
5304
+ "learning_rate": 4.803432476498981e-05,
5305
+ "loss": 1.1928,
5306
+ "step": 67900
5307
+ },
5308
+ {
5309
+ "epoch": 0.016,
5310
+ "grad_norm": 0.7827754020690918,
5311
+ "learning_rate": 4.8028153091453246e-05,
5312
+ "loss": 1.2062,
5313
+ "step": 68000
5314
+ },
5315
+ {
5316
+ "epoch": 0.016,
5317
+ "eval_loss": 1.0748348236083984,
5318
+ "eval_runtime": 75.9274,
5319
+ "eval_samples_per_second": 203.392,
5320
+ "eval_steps_per_second": 3.187,
5321
+ "step": 68000
5322
+ },
5323
+ {
5324
+ "epoch": 0.0162,
5325
+ "grad_norm": 1.2250913381576538,
5326
+ "learning_rate": 4.802197214217936e-05,
5327
+ "loss": 1.1412,
5328
+ "step": 68100
5329
+ },
5330
+ {
5331
+ "epoch": 0.0164,
5332
+ "grad_norm": 1.4763202667236328,
5333
+ "learning_rate": 4.801578191965785e-05,
5334
+ "loss": 1.173,
5335
+ "step": 68200
5336
+ },
5337
+ {
5338
+ "epoch": 0.0166,
5339
+ "grad_norm": 0.8980317115783691,
5340
+ "learning_rate": 4.800958242638214e-05,
5341
+ "loss": 1.1801,
5342
+ "step": 68300
5343
+ },
5344
+ {
5345
+ "epoch": 0.0168,
5346
+ "grad_norm": 1.2781926393508911,
5347
+ "learning_rate": 4.800337366484937e-05,
5348
+ "loss": 1.2012,
5349
+ "step": 68400
5350
+ },
5351
+ {
5352
+ "epoch": 0.017,
5353
+ "grad_norm": 0.8269230723381042,
5354
+ "learning_rate": 4.799715563756045e-05,
5355
+ "loss": 1.2319,
5356
+ "step": 68500
5357
+ },
5358
+ {
5359
+ "epoch": 0.0172,
5360
+ "grad_norm": 0.633537232875824,
5361
+ "learning_rate": 4.7990928347019984e-05,
5362
+ "loss": 1.2058,
5363
+ "step": 68600
5364
+ },
5365
+ {
5366
+ "epoch": 0.0174,
5367
+ "grad_norm": 1.39164400100708,
5368
+ "learning_rate": 4.7984691795736324e-05,
5369
+ "loss": 1.2066,
5370
+ "step": 68700
5371
+ },
5372
+ {
5373
+ "epoch": 0.0176,
5374
+ "grad_norm": 1.5555399656295776,
5375
+ "learning_rate": 4.7978445986221566e-05,
5376
+ "loss": 1.2088,
5377
+ "step": 68800
5378
+ },
5379
+ {
5380
+ "epoch": 0.0178,
5381
+ "grad_norm": 1.2505526542663574,
5382
+ "learning_rate": 4.7972190920991514e-05,
5383
+ "loss": 1.203,
5384
+ "step": 68900
5385
+ },
5386
+ {
5387
+ "epoch": 0.018,
5388
+ "grad_norm": 1.5910965204238892,
5389
+ "learning_rate": 4.7965926602565705e-05,
5390
+ "loss": 1.1877,
5391
+ "step": 69000
5392
+ },
5393
+ {
5394
+ "epoch": 0.018,
5395
+ "eval_loss": 1.0717748403549194,
5396
+ "eval_runtime": 75.7519,
5397
+ "eval_samples_per_second": 203.863,
5398
+ "eval_steps_per_second": 3.195,
5399
+ "step": 69000
5400
+ },
5401
+ {
5402
+ "epoch": 0.0182,
5403
+ "grad_norm": 0.7755507826805115,
5404
+ "learning_rate": 4.79596530334674e-05,
5405
+ "loss": 1.1864,
5406
+ "step": 69100
5407
+ },
5408
+ {
5409
+ "epoch": 0.0184,
5410
+ "grad_norm": 1.2141857147216797,
5411
+ "learning_rate": 4.79533702162236e-05,
5412
+ "loss": 1.1849,
5413
+ "step": 69200
5414
+ },
5415
+ {
5416
+ "epoch": 0.0186,
5417
+ "grad_norm": 1.399149775505066,
5418
+ "learning_rate": 4.794707815336503e-05,
5419
+ "loss": 1.1702,
5420
+ "step": 69300
5421
+ },
5422
+ {
5423
+ "epoch": 0.0188,
5424
+ "grad_norm": 1.3381379842758179,
5425
+ "learning_rate": 4.7940776847426114e-05,
5426
+ "loss": 1.2052,
5427
+ "step": 69400
5428
+ },
5429
+ {
5430
+ "epoch": 0.019,
5431
+ "grad_norm": 1.347264051437378,
5432
+ "learning_rate": 4.793446630094503e-05,
5433
+ "loss": 1.1998,
5434
+ "step": 69500
5435
+ },
5436
+ {
5437
+ "epoch": 0.0192,
5438
+ "grad_norm": 1.2072675228118896,
5439
+ "learning_rate": 4.792814651646367e-05,
5440
+ "loss": 1.2127,
5441
+ "step": 69600
5442
+ },
5443
+ {
5444
+ "epoch": 0.0194,
5445
+ "grad_norm": 0.7959086894989014,
5446
+ "learning_rate": 4.792181749652763e-05,
5447
+ "loss": 1.1474,
5448
+ "step": 69700
5449
+ },
5450
+ {
5451
+ "epoch": 0.0196,
5452
+ "grad_norm": 1.0272786617279053,
5453
+ "learning_rate": 4.7915479243686244e-05,
5454
+ "loss": 1.2033,
5455
+ "step": 69800
5456
+ },
5457
+ {
5458
+ "epoch": 0.0198,
5459
+ "grad_norm": 0.8985835909843445,
5460
+ "learning_rate": 4.790913176049256e-05,
5461
+ "loss": 1.1942,
5462
+ "step": 69900
5463
+ },
5464
+ {
5465
+ "epoch": 0.02,
5466
+ "grad_norm": 0.676177442073822,
5467
+ "learning_rate": 4.7902775049503346e-05,
5468
+ "loss": 1.1883,
5469
+ "step": 70000
5470
+ },
5471
+ {
5472
+ "epoch": 0.02,
5473
+ "eval_loss": 1.0733578205108643,
5474
+ "eval_runtime": 75.8186,
5475
+ "eval_samples_per_second": 203.684,
5476
+ "eval_steps_per_second": 3.192,
5477
+ "step": 70000
5478
+ },
5479
+ {
5480
+ "epoch": 0.0202,
5481
+ "grad_norm": 0.7747570872306824,
5482
+ "learning_rate": 4.789640911327907e-05,
5483
+ "loss": 1.1883,
5484
+ "step": 70100
5485
+ },
5486
+ {
5487
+ "epoch": 0.0204,
5488
+ "grad_norm": 1.1808815002441406,
5489
+ "learning_rate": 4.789003395438395e-05,
5490
+ "loss": 1.1932,
5491
+ "step": 70200
5492
+ },
5493
+ {
5494
+ "epoch": 0.0206,
5495
+ "grad_norm": 1.29102623462677,
5496
+ "learning_rate": 4.7883649575385894e-05,
5497
+ "loss": 1.1654,
5498
+ "step": 70300
5499
+ },
5500
+ {
5501
+ "epoch": 0.0208,
5502
+ "grad_norm": 0.8418052792549133,
5503
+ "learning_rate": 4.7877255978856516e-05,
5504
+ "loss": 1.1702,
5505
+ "step": 70400
5506
+ },
5507
+ {
5508
+ "epoch": 0.021,
5509
+ "grad_norm": 1.1825124025344849,
5510
+ "learning_rate": 4.787085316737116e-05,
5511
+ "loss": 1.1654,
5512
+ "step": 70500
5513
+ },
5514
+ {
5515
+ "epoch": 0.0212,
5516
+ "grad_norm": 1.301255702972412,
5517
+ "learning_rate": 4.78644411435089e-05,
5518
+ "loss": 1.2505,
5519
+ "step": 70600
5520
+ },
5521
+ {
5522
+ "epoch": 0.0214,
5523
+ "grad_norm": 1.2461885213851929,
5524
+ "learning_rate": 4.785801990985247e-05,
5525
+ "loss": 1.1907,
5526
+ "step": 70700
5527
+ },
5528
+ {
5529
+ "epoch": 0.0216,
5530
+ "grad_norm": 1.2957687377929688,
5531
+ "learning_rate": 4.7851589468988364e-05,
5532
+ "loss": 1.2244,
5533
+ "step": 70800
5534
+ },
5535
+ {
5536
+ "epoch": 0.0218,
5537
+ "grad_norm": 1.9566733837127686,
5538
+ "learning_rate": 4.7845149823506744e-05,
5539
+ "loss": 1.1688,
5540
+ "step": 70900
5541
+ },
5542
+ {
5543
+ "epoch": 0.022,
5544
+ "grad_norm": 0.9749345779418945,
5545
+ "learning_rate": 4.783870097600151e-05,
5546
+ "loss": 1.2178,
5547
+ "step": 71000
5548
+ },
5549
+ {
5550
+ "epoch": 0.022,
5551
+ "eval_loss": 1.076163649559021,
5552
+ "eval_runtime": 75.78,
5553
+ "eval_samples_per_second": 203.787,
5554
+ "eval_steps_per_second": 3.193,
5555
+ "step": 71000
5556
+ },
5557
+ {
5558
+ "epoch": 0.0222,
5559
+ "grad_norm": 1.1278064250946045,
5560
+ "learning_rate": 4.783224292907025e-05,
5561
+ "loss": 1.1899,
5562
+ "step": 71100
5563
+ },
5564
+ {
5565
+ "epoch": 0.0224,
5566
+ "grad_norm": 1.023586392402649,
5567
+ "learning_rate": 4.7825775685314277e-05,
5568
+ "loss": 1.1967,
5569
+ "step": 71200
5570
+ },
5571
+ {
5572
+ "epoch": 0.0226,
5573
+ "grad_norm": 1.2925764322280884,
5574
+ "learning_rate": 4.781929924733858e-05,
5575
+ "loss": 1.2154,
5576
+ "step": 71300
5577
+ },
5578
+ {
5579
+ "epoch": 0.0228,
5580
+ "grad_norm": 0.8185212016105652,
5581
+ "learning_rate": 4.781281361775188e-05,
5582
+ "loss": 1.195,
5583
+ "step": 71400
5584
+ },
5585
+ {
5586
+ "epoch": 0.023,
5587
+ "grad_norm": 0.8742319941520691,
5588
+ "learning_rate": 4.7806318799166586e-05,
5589
+ "loss": 1.1746,
5590
+ "step": 71500
5591
+ },
5592
+ {
5593
+ "epoch": 0.0232,
5594
+ "grad_norm": 1.2598085403442383,
5595
+ "learning_rate": 4.77998147941988e-05,
5596
+ "loss": 1.1781,
5597
+ "step": 71600
5598
+ },
5599
+ {
5600
+ "epoch": 0.0234,
5601
+ "grad_norm": 1.2358424663543701,
5602
+ "learning_rate": 4.7793301605468344e-05,
5603
+ "loss": 1.2345,
5604
+ "step": 71700
5605
+ },
5606
+ {
5607
+ "epoch": 0.0236,
5608
+ "grad_norm": 1.2528828382492065,
5609
+ "learning_rate": 4.778677923559872e-05,
5610
+ "loss": 1.2109,
5611
+ "step": 71800
5612
+ },
5613
+ {
5614
+ "epoch": 0.0238,
5615
+ "grad_norm": 0.5741105675697327,
5616
+ "learning_rate": 4.778024768721716e-05,
5617
+ "loss": 1.2076,
5618
+ "step": 71900
5619
+ },
5620
+ {
5621
+ "epoch": 0.024,
5622
+ "grad_norm": 1.3200185298919678,
5623
+ "learning_rate": 4.7773706962954545e-05,
5624
+ "loss": 1.2124,
5625
+ "step": 72000
5626
+ },
5627
+ {
5628
+ "epoch": 0.024,
5629
+ "eval_loss": 1.0720120668411255,
5630
+ "eval_runtime": 76.4471,
5631
+ "eval_samples_per_second": 202.009,
5632
+ "eval_steps_per_second": 3.166,
5633
+ "step": 72000
5634
+ },
5635
+ {
5636
+ "epoch": 0.0242,
5637
+ "grad_norm": 1.4096635580062866,
5638
+ "learning_rate": 4.776715706544549e-05,
5639
+ "loss": 1.2283,
5640
+ "step": 72100
5641
+ },
5642
+ {
5643
+ "epoch": 0.0244,
5644
+ "grad_norm": 1.5862853527069092,
5645
+ "learning_rate": 4.7760597997328295e-05,
5646
+ "loss": 1.1927,
5647
+ "step": 72200
5648
+ },
5649
+ {
5650
+ "epoch": 0.0246,
5651
+ "grad_norm": 1.3406593799591064,
5652
+ "learning_rate": 4.7754029761244945e-05,
5653
+ "loss": 1.1709,
5654
+ "step": 72300
5655
+ },
5656
+ {
5657
+ "epoch": 0.0248,
5658
+ "grad_norm": 1.189676284790039,
5659
+ "learning_rate": 4.774745235984113e-05,
5660
+ "loss": 1.2176,
5661
+ "step": 72400
5662
+ },
5663
+ {
5664
+ "epoch": 0.025,
5665
+ "grad_norm": 1.4424960613250732,
5666
+ "learning_rate": 4.7740865795766224e-05,
5667
+ "loss": 1.2212,
5668
+ "step": 72500
5669
+ },
5670
+ {
5671
+ "epoch": 0.0252,
5672
+ "grad_norm": 0.7654275298118591,
5673
+ "learning_rate": 4.77342700716733e-05,
5674
+ "loss": 1.2196,
5675
+ "step": 72600
5676
+ },
5677
+ {
5678
+ "epoch": 0.0254,
5679
+ "grad_norm": 1.1389504671096802,
5680
+ "learning_rate": 4.772766519021911e-05,
5681
+ "loss": 1.1937,
5682
+ "step": 72700
5683
+ },
5684
+ {
5685
+ "epoch": 0.0256,
5686
+ "grad_norm": 1.1204986572265625,
5687
+ "learning_rate": 4.772105115406409e-05,
5688
+ "loss": 1.1623,
5689
+ "step": 72800
5690
+ },
5691
+ {
5692
+ "epoch": 0.0258,
5693
+ "grad_norm": 1.2594044208526611,
5694
+ "learning_rate": 4.771442796587239e-05,
5695
+ "loss": 1.2127,
5696
+ "step": 72900
5697
+ },
5698
+ {
5699
+ "epoch": 0.026,
5700
+ "grad_norm": 1.3245586156845093,
5701
+ "learning_rate": 4.770779562831181e-05,
5702
+ "loss": 1.1919,
5703
+ "step": 73000
5704
+ },
5705
+ {
5706
+ "epoch": 0.026,
5707
+ "eval_loss": 1.0672369003295898,
5708
+ "eval_runtime": 76.1554,
5709
+ "eval_samples_per_second": 202.783,
5710
+ "eval_steps_per_second": 3.178,
5711
+ "step": 73000
5712
+ },
5713
+ {
5714
+ "epoch": 0.0262,
5715
+ "grad_norm": 0.813410222530365,
5716
+ "learning_rate": 4.770115414405388e-05,
5717
+ "loss": 1.224,
5718
+ "step": 73100
5719
+ },
5720
+ {
5721
+ "epoch": 0.0264,
5722
+ "grad_norm": 1.3278921842575073,
5723
+ "learning_rate": 4.769450351577377e-05,
5724
+ "loss": 1.2304,
5725
+ "step": 73200
5726
+ },
5727
+ {
5728
+ "epoch": 0.0266,
5729
+ "grad_norm": 1.1676868200302124,
5730
+ "learning_rate": 4.768784374615036e-05,
5731
+ "loss": 1.2144,
5732
+ "step": 73300
5733
+ },
5734
+ {
5735
+ "epoch": 0.0268,
5736
+ "grad_norm": 1.2270694971084595,
5737
+ "learning_rate": 4.7681174837866196e-05,
5738
+ "loss": 1.2584,
5739
+ "step": 73400
5740
+ },
5741
+ {
5742
+ "epoch": 0.027,
5743
+ "grad_norm": 1.5095762014389038,
5744
+ "learning_rate": 4.7674496793607525e-05,
5745
+ "loss": 1.1892,
5746
+ "step": 73500
5747
+ },
5748
+ {
5749
+ "epoch": 0.0272,
5750
+ "grad_norm": 1.0437262058258057,
5751
+ "learning_rate": 4.766780961606426e-05,
5752
+ "loss": 1.2003,
5753
+ "step": 73600
5754
+ },
5755
+ {
5756
+ "epoch": 0.0274,
5757
+ "grad_norm": 0.6719204187393188,
5758
+ "learning_rate": 4.766111330793e-05,
5759
+ "loss": 1.2145,
5760
+ "step": 73700
5761
+ },
5762
+ {
5763
+ "epoch": 0.0276,
5764
+ "grad_norm": 0.7166513204574585,
5765
+ "learning_rate": 4.765440787190199e-05,
5766
+ "loss": 1.2463,
5767
+ "step": 73800
5768
+ },
5769
+ {
5770
+ "epoch": 0.0278,
5771
+ "grad_norm": 0.9765319228172302,
5772
+ "learning_rate": 4.7647693310681204e-05,
5773
+ "loss": 1.2095,
5774
+ "step": 73900
5775
+ },
5776
+ {
5777
+ "epoch": 0.028,
5778
+ "grad_norm": 1.298134446144104,
5779
+ "learning_rate": 4.7640969626972265e-05,
5780
+ "loss": 1.2089,
5781
+ "step": 74000
5782
+ },
5783
+ {
5784
+ "epoch": 0.028,
5785
+ "eval_loss": 1.0727263689041138,
5786
+ "eval_runtime": 76.0016,
5787
+ "eval_samples_per_second": 203.193,
5788
+ "eval_steps_per_second": 3.184,
5789
+ "step": 74000
5790
+ },
5791
+ {
5792
+ "epoch": 0.0282,
5793
+ "grad_norm": 1.1968761682510376,
5794
+ "learning_rate": 4.763423682348347e-05,
5795
+ "loss": 1.1719,
5796
+ "step": 74100
5797
+ },
5798
+ {
5799
+ "epoch": 0.0284,
5800
+ "grad_norm": 1.1887174844741821,
5801
+ "learning_rate": 4.762749490292678e-05,
5802
+ "loss": 1.1961,
5803
+ "step": 74200
5804
+ },
5805
+ {
5806
+ "epoch": 0.0286,
5807
+ "grad_norm": 1.4029371738433838,
5808
+ "learning_rate": 4.762074386801786e-05,
5809
+ "loss": 1.1609,
5810
+ "step": 74300
5811
+ },
5812
+ {
5813
+ "epoch": 0.0288,
5814
+ "grad_norm": 1.3785122632980347,
5815
+ "learning_rate": 4.761398372147601e-05,
5816
+ "loss": 1.1931,
5817
+ "step": 74400
5818
+ },
5819
+ {
5820
+ "epoch": 0.029,
5821
+ "grad_norm": 1.1329565048217773,
5822
+ "learning_rate": 4.760721446602422e-05,
5823
+ "loss": 1.2107,
5824
+ "step": 74500
5825
+ },
5826
+ {
5827
+ "epoch": 0.0292,
5828
+ "grad_norm": 1.2266113758087158,
5829
+ "learning_rate": 4.760043610438915e-05,
5830
+ "loss": 1.1708,
5831
+ "step": 74600
5832
+ },
5833
+ {
5834
+ "epoch": 0.0294,
5835
+ "grad_norm": 1.2526196241378784,
5836
+ "learning_rate": 4.759364863930112e-05,
5837
+ "loss": 1.2073,
5838
+ "step": 74700
5839
+ },
5840
+ {
5841
+ "epoch": 0.0296,
5842
+ "grad_norm": 1.3959336280822754,
5843
+ "learning_rate": 4.7586852073494113e-05,
5844
+ "loss": 1.1995,
5845
+ "step": 74800
5846
+ },
5847
+ {
5848
+ "epoch": 0.0298,
5849
+ "grad_norm": 1.2470852136611938,
5850
+ "learning_rate": 4.7580046409705806e-05,
5851
+ "loss": 1.2227,
5852
+ "step": 74900
5853
+ },
5854
+ {
5855
+ "epoch": 0.03,
5856
+ "grad_norm": 1.0915220975875854,
5857
+ "learning_rate": 4.7573231650677495e-05,
5858
+ "loss": 1.1955,
5859
+ "step": 75000
5860
+ },
5861
+ {
5862
+ "epoch": 0.03,
5863
+ "eval_loss": 1.0732471942901611,
5864
+ "eval_runtime": 75.8455,
5865
+ "eval_samples_per_second": 203.611,
5866
+ "eval_steps_per_second": 3.191,
5867
+ "step": 75000
5868
+ },
5869
+ {
5870
+ "epoch": 0.0302,
5871
+ "grad_norm": 1.4608689546585083,
5872
+ "learning_rate": 4.756640779915418e-05,
5873
+ "loss": 1.1588,
5874
+ "step": 75100
5875
+ },
5876
+ {
5877
+ "epoch": 0.0304,
5878
+ "grad_norm": 1.2811450958251953,
5879
+ "learning_rate": 4.755957485788449e-05,
5880
+ "loss": 1.1722,
5881
+ "step": 75200
5882
+ },
5883
+ {
5884
+ "epoch": 0.0306,
5885
+ "grad_norm": 1.3260635137557983,
5886
+ "learning_rate": 4.755273282962075e-05,
5887
+ "loss": 1.2238,
5888
+ "step": 75300
5889
+ },
5890
+ {
5891
+ "epoch": 0.0308,
5892
+ "grad_norm": 1.219567060470581,
5893
+ "learning_rate": 4.754588171711893e-05,
5894
+ "loss": 1.2718,
5895
+ "step": 75400
5896
+ },
5897
+ {
5898
+ "epoch": 0.031,
5899
+ "grad_norm": 1.368947982788086,
5900
+ "learning_rate": 4.753902152313865e-05,
5901
+ "loss": 1.1998,
5902
+ "step": 75500
5903
+ },
5904
+ {
5905
+ "epoch": 0.0312,
5906
+ "grad_norm": 1.3364487886428833,
5907
+ "learning_rate": 4.7532152250443194e-05,
5908
+ "loss": 1.2043,
5909
+ "step": 75600
5910
+ },
5911
+ {
5912
+ "epoch": 0.0314,
5913
+ "grad_norm": 1.348130702972412,
5914
+ "learning_rate": 4.7525273901799506e-05,
5915
+ "loss": 1.1834,
5916
+ "step": 75700
5917
+ },
5918
+ {
5919
+ "epoch": 0.0316,
5920
+ "grad_norm": 1.1862202882766724,
5921
+ "learning_rate": 4.751838647997818e-05,
5922
+ "loss": 1.2061,
5923
+ "step": 75800
5924
+ },
5925
+ {
5926
+ "epoch": 0.0318,
5927
+ "grad_norm": 0.7471460103988647,
5928
+ "learning_rate": 4.7511489987753476e-05,
5929
+ "loss": 1.1866,
5930
+ "step": 75900
5931
+ },
5932
+ {
5933
+ "epoch": 0.032,
5934
+ "grad_norm": 1.4090434312820435,
5935
+ "learning_rate": 4.75045844279033e-05,
5936
+ "loss": 1.1878,
5937
+ "step": 76000
5938
+ },
5939
+ {
5940
+ "epoch": 0.032,
5941
+ "eval_loss": 1.0745600461959839,
5942
+ "eval_runtime": 76.306,
5943
+ "eval_samples_per_second": 202.382,
5944
+ "eval_steps_per_second": 3.171,
5945
+ "step": 76000
5946
+ },
5947
+ {
5948
+ "epoch": 0.0322,
5949
+ "grad_norm": 1.591199278831482,
5950
+ "learning_rate": 4.7497669803209204e-05,
5951
+ "loss": 1.1824,
5952
+ "step": 76100
5953
+ },
5954
+ {
5955
+ "epoch": 0.0324,
5956
+ "grad_norm": 0.8325656652450562,
5957
+ "learning_rate": 4.749074611645641e-05,
5958
+ "loss": 1.1723,
5959
+ "step": 76200
5960
+ },
5961
+ {
5962
+ "epoch": 0.0326,
5963
+ "grad_norm": 0.8313425779342651,
5964
+ "learning_rate": 4.748381337043376e-05,
5965
+ "loss": 1.2033,
5966
+ "step": 76300
5967
+ },
5968
+ {
5969
+ "epoch": 0.0328,
5970
+ "grad_norm": 1.4721826314926147,
5971
+ "learning_rate": 4.7476871567933775e-05,
5972
+ "loss": 1.1988,
5973
+ "step": 76400
5974
+ },
5975
+ {
5976
+ "epoch": 0.033,
5977
+ "grad_norm": 0.9206506013870239,
5978
+ "learning_rate": 4.746992071175261e-05,
5979
+ "loss": 1.1844,
5980
+ "step": 76500
5981
+ },
5982
+ {
5983
+ "epoch": 0.0332,
5984
+ "grad_norm": 1.0820422172546387,
5985
+ "learning_rate": 4.746296080469007e-05,
5986
+ "loss": 1.1902,
5987
+ "step": 76600
5988
+ },
5989
+ {
5990
+ "epoch": 0.0334,
5991
+ "grad_norm": 0.9319769144058228,
5992
+ "learning_rate": 4.745599184954961e-05,
5993
+ "loss": 1.2031,
5994
+ "step": 76700
5995
+ },
5996
+ {
5997
+ "epoch": 0.0336,
5998
+ "grad_norm": 1.1914819478988647,
5999
+ "learning_rate": 4.744901384913831e-05,
6000
+ "loss": 1.166,
6001
+ "step": 76800
6002
+ },
6003
+ {
6004
+ "epoch": 0.0338,
6005
+ "grad_norm": 0.8440219163894653,
6006
+ "learning_rate": 4.7442026806266914e-05,
6007
+ "loss": 1.1493,
6008
+ "step": 76900
6009
+ },
6010
+ {
6011
+ "epoch": 0.034,
6012
+ "grad_norm": 1.001518726348877,
6013
+ "learning_rate": 4.7435030723749813e-05,
6014
+ "loss": 1.1835,
6015
+ "step": 77000
6016
+ },
6017
+ {
6018
+ "epoch": 0.034,
6019
+ "eval_loss": 1.0681182146072388,
6020
+ "eval_runtime": 76.1301,
6021
+ "eval_samples_per_second": 202.85,
6022
+ "eval_steps_per_second": 3.179,
6023
+ "step": 77000
6024
+ },
6025
+ {
6026
+ "epoch": 0.0342,
6027
+ "grad_norm": 1.347307562828064,
6028
+ "learning_rate": 4.742802560440501e-05,
6029
+ "loss": 1.2213,
6030
+ "step": 77100
6031
+ },
6032
+ {
6033
+ "epoch": 0.0344,
6034
+ "grad_norm": 1.1187894344329834,
6035
+ "learning_rate": 4.742101145105419e-05,
6036
+ "loss": 1.1949,
6037
+ "step": 77200
6038
+ },
6039
+ {
6040
+ "epoch": 0.0346,
6041
+ "grad_norm": 0.8066337704658508,
6042
+ "learning_rate": 4.741398826652262e-05,
6043
+ "loss": 1.2008,
6044
+ "step": 77300
6045
+ },
6046
+ {
6047
+ "epoch": 0.0348,
6048
+ "grad_norm": 1.0704104900360107,
6049
+ "learning_rate": 4.740695605363927e-05,
6050
+ "loss": 1.1804,
6051
+ "step": 77400
6052
+ },
6053
+ {
6054
+ "epoch": 0.035,
6055
+ "grad_norm": 1.104546070098877,
6056
+ "learning_rate": 4.7399914815236704e-05,
6057
+ "loss": 1.2232,
6058
+ "step": 77500
6059
+ },
6060
+ {
6061
+ "epoch": 0.0352,
6062
+ "grad_norm": 1.1818023920059204,
6063
+ "learning_rate": 4.7392864554151126e-05,
6064
+ "loss": 1.2062,
6065
+ "step": 77600
6066
+ },
6067
+ {
6068
+ "epoch": 0.0354,
6069
+ "grad_norm": 1.3036936521530151,
6070
+ "learning_rate": 4.738580527322238e-05,
6071
+ "loss": 1.1905,
6072
+ "step": 77700
6073
+ },
6074
+ {
6075
+ "epoch": 0.0356,
6076
+ "grad_norm": 1.1169214248657227,
6077
+ "learning_rate": 4.737873697529395e-05,
6078
+ "loss": 1.1759,
6079
+ "step": 77800
6080
+ },
6081
+ {
6082
+ "epoch": 0.0358,
6083
+ "grad_norm": 0.8993995189666748,
6084
+ "learning_rate": 4.7371659663212934e-05,
6085
+ "loss": 1.1677,
6086
+ "step": 77900
6087
+ },
6088
+ {
6089
+ "epoch": 0.036,
6090
+ "grad_norm": 1.258747935295105,
6091
+ "learning_rate": 4.736457333983009e-05,
6092
+ "loss": 1.2166,
6093
+ "step": 78000
6094
+ },
6095
+ {
6096
+ "epoch": 0.036,
6097
+ "eval_loss": 1.0701075792312622,
6098
+ "eval_runtime": 75.9209,
6099
+ "eval_samples_per_second": 203.409,
6100
+ "eval_steps_per_second": 3.188,
6101
+ "step": 78000
6102
+ },
6103
+ {
6104
+ "epoch": 0.0362,
6105
+ "grad_norm": 1.269551396369934,
6106
+ "learning_rate": 4.735747800799978e-05,
6107
+ "loss": 1.2185,
6108
+ "step": 78100
6109
+ },
6110
+ {
6111
+ "epoch": 0.0364,
6112
+ "grad_norm": 1.3016119003295898,
6113
+ "learning_rate": 4.735037367057999e-05,
6114
+ "loss": 1.182,
6115
+ "step": 78200
6116
+ },
6117
+ {
6118
+ "epoch": 0.0366,
6119
+ "grad_norm": 1.1407994031906128,
6120
+ "learning_rate": 4.734326033043238e-05,
6121
+ "loss": 1.2102,
6122
+ "step": 78300
6123
+ },
6124
+ {
6125
+ "epoch": 0.0368,
6126
+ "grad_norm": 1.1673243045806885,
6127
+ "learning_rate": 4.7336137990422164e-05,
6128
+ "loss": 1.1902,
6129
+ "step": 78400
6130
+ },
6131
+ {
6132
+ "epoch": 0.037,
6133
+ "grad_norm": 0.9958565831184387,
6134
+ "learning_rate": 4.732900665341824e-05,
6135
+ "loss": 1.2112,
6136
+ "step": 78500
6137
+ },
6138
+ {
6139
+ "epoch": 0.0372,
6140
+ "grad_norm": 0.6769017577171326,
6141
+ "learning_rate": 4.732186632229311e-05,
6142
+ "loss": 1.1933,
6143
+ "step": 78600
6144
+ },
6145
+ {
6146
+ "epoch": 0.0374,
6147
+ "grad_norm": 0.6430754661560059,
6148
+ "learning_rate": 4.7314716999922896e-05,
6149
+ "loss": 1.1851,
6150
+ "step": 78700
6151
+ },
6152
+ {
6153
+ "epoch": 0.0376,
6154
+ "grad_norm": 1.103901982307434,
6155
+ "learning_rate": 4.7307558689187334e-05,
6156
+ "loss": 1.2234,
6157
+ "step": 78800
6158
+ },
6159
+ {
6160
+ "epoch": 0.0378,
6161
+ "grad_norm": 1.143268346786499,
6162
+ "learning_rate": 4.73003913929698e-05,
6163
+ "loss": 1.1609,
6164
+ "step": 78900
6165
+ },
6166
+ {
6167
+ "epoch": 0.038,
6168
+ "grad_norm": 1.2543673515319824,
6169
+ "learning_rate": 4.7293215114157284e-05,
6170
+ "loss": 1.1862,
6171
+ "step": 79000
6172
+ },
6173
+ {
6174
+ "epoch": 0.038,
6175
+ "eval_loss": 1.075058937072754,
6176
+ "eval_runtime": 77.0151,
6177
+ "eval_samples_per_second": 200.519,
6178
+ "eval_steps_per_second": 3.142,
6179
+ "step": 79000
6180
+ },
6181
+ {
6182
+ "epoch": 0.0382,
6183
+ "grad_norm": 1.0687370300292969,
6184
+ "learning_rate": 4.728602985564039e-05,
6185
+ "loss": 1.1878,
6186
+ "step": 79100
6187
+ },
6188
+ {
6189
+ "epoch": 0.0384,
6190
+ "grad_norm": 1.230892539024353,
6191
+ "learning_rate": 4.727883562031333e-05,
6192
+ "loss": 1.1561,
6193
+ "step": 79200
6194
+ },
6195
+ {
6196
+ "epoch": 0.0386,
6197
+ "grad_norm": 1.0465742349624634,
6198
+ "learning_rate": 4.727163241107395e-05,
6199
+ "loss": 1.1677,
6200
+ "step": 79300
6201
+ },
6202
+ {
6203
+ "epoch": 0.0388,
6204
+ "grad_norm": 0.6553373336791992,
6205
+ "learning_rate": 4.726442023082369e-05,
6206
+ "loss": 1.2035,
6207
+ "step": 79400
6208
+ },
6209
+ {
6210
+ "epoch": 0.039,
6211
+ "grad_norm": 0.9347487688064575,
6212
+ "learning_rate": 4.725719908246763e-05,
6213
+ "loss": 1.2116,
6214
+ "step": 79500
6215
+ },
6216
+ {
6217
+ "epoch": 0.0392,
6218
+ "grad_norm": 1.0414602756500244,
6219
+ "learning_rate": 4.724996896891445e-05,
6220
+ "loss": 1.2237,
6221
+ "step": 79600
6222
+ },
6223
+ {
6224
+ "epoch": 0.0394,
6225
+ "grad_norm": 1.1857577562332153,
6226
+ "learning_rate": 4.724272989307642e-05,
6227
+ "loss": 1.1653,
6228
+ "step": 79700
6229
+ },
6230
+ {
6231
+ "epoch": 0.0396,
6232
+ "grad_norm": 1.3574703931808472,
6233
+ "learning_rate": 4.7235481857869446e-05,
6234
+ "loss": 1.2176,
6235
+ "step": 79800
6236
+ },
6237
+ {
6238
+ "epoch": 0.0398,
6239
+ "grad_norm": 1.3188464641571045,
6240
+ "learning_rate": 4.722822486621304e-05,
6241
+ "loss": 1.1872,
6242
+ "step": 79900
6243
+ },
6244
+ {
6245
+ "epoch": 0.04,
6246
+ "grad_norm": 1.1241661310195923,
6247
+ "learning_rate": 4.722095892103032e-05,
6248
+ "loss": 1.1926,
6249
+ "step": 80000
6250
+ },
6251
+ {
6252
+ "epoch": 0.04,
6253
+ "eval_loss": 1.0716365575790405,
6254
+ "eval_runtime": 76.5906,
6255
+ "eval_samples_per_second": 201.63,
6256
+ "eval_steps_per_second": 3.16,
6257
+ "step": 80000
6258
+ },
6259
+ {
6260
+ "epoch": 0.0402,
6261
+ "grad_norm": 0.9855309724807739,
6262
+ "learning_rate": 4.721368402524801e-05,
6263
+ "loss": 1.1427,
6264
+ "step": 80100
6265
+ },
6266
+ {
6267
+ "epoch": 0.0404,
6268
+ "grad_norm": 0.6458451151847839,
6269
+ "learning_rate": 4.720640018179642e-05,
6270
+ "loss": 1.2032,
6271
+ "step": 80200
6272
+ },
6273
+ {
6274
+ "epoch": 0.0406,
6275
+ "grad_norm": 1.1878600120544434,
6276
+ "learning_rate": 4.71991073936095e-05,
6277
+ "loss": 1.1879,
6278
+ "step": 80300
6279
+ },
6280
+ {
6281
+ "epoch": 0.0408,
6282
+ "grad_norm": 0.8349748253822327,
6283
+ "learning_rate": 4.719180566362477e-05,
6284
+ "loss": 1.1355,
6285
+ "step": 80400
6286
+ },
6287
+ {
6288
+ "epoch": 0.041,
6289
+ "grad_norm": 1.1937662363052368,
6290
+ "learning_rate": 4.7184494994783376e-05,
6291
+ "loss": 1.2018,
6292
+ "step": 80500
6293
+ },
6294
+ {
6295
+ "epoch": 0.0412,
6296
+ "grad_norm": 1.3011997938156128,
6297
+ "learning_rate": 4.7177175390030054e-05,
6298
+ "loss": 1.1697,
6299
+ "step": 80600
6300
+ },
6301
+ {
6302
+ "epoch": 0.0414,
6303
+ "grad_norm": 1.1909871101379395,
6304
+ "learning_rate": 4.7169846852313137e-05,
6305
+ "loss": 1.2126,
6306
+ "step": 80700
6307
+ },
6308
+ {
6309
+ "epoch": 0.0416,
6310
+ "grad_norm": 1.5078299045562744,
6311
+ "learning_rate": 4.7162509384584555e-05,
6312
+ "loss": 1.1983,
6313
+ "step": 80800
6314
+ },
6315
+ {
6316
+ "epoch": 0.0418,
6317
+ "grad_norm": 1.3141160011291504,
6318
+ "learning_rate": 4.715516298979984e-05,
6319
+ "loss": 1.2118,
6320
+ "step": 80900
6321
+ },
6322
+ {
6323
+ "epoch": 0.042,
6324
+ "grad_norm": 1.3565207719802856,
6325
+ "learning_rate": 4.714780767091813e-05,
6326
+ "loss": 1.2054,
6327
+ "step": 81000
6328
+ },
6329
+ {
6330
+ "epoch": 0.042,
6331
+ "eval_loss": 1.0669591426849365,
6332
+ "eval_runtime": 75.959,
6333
+ "eval_samples_per_second": 203.307,
6334
+ "eval_steps_per_second": 3.186,
6335
+ "step": 81000
6336
+ },
6337
+ {
6338
+ "epoch": 0.0422,
6339
+ "grad_norm": 1.3890715837478638,
6340
+ "learning_rate": 4.714044343090214e-05,
6341
+ "loss": 1.1917,
6342
+ "step": 81100
6343
+ },
6344
+ {
6345
+ "epoch": 0.0424,
6346
+ "grad_norm": 0.9992968440055847,
6347
+ "learning_rate": 4.713307027271817e-05,
6348
+ "loss": 1.1869,
6349
+ "step": 81200
6350
+ },
6351
+ {
6352
+ "epoch": 0.0426,
6353
+ "grad_norm": 0.8716880679130554,
6354
+ "learning_rate": 4.712568819933615e-05,
6355
+ "loss": 1.1941,
6356
+ "step": 81300
6357
+ },
6358
+ {
6359
+ "epoch": 0.0428,
6360
+ "grad_norm": 1.243594765663147,
6361
+ "learning_rate": 4.711829721372957e-05,
6362
+ "loss": 1.1667,
6363
+ "step": 81400
6364
+ },
6365
+ {
6366
+ "epoch": 0.043,
6367
+ "grad_norm": 0.6567416191101074,
6368
+ "learning_rate": 4.7110897318875516e-05,
6369
+ "loss": 1.2105,
6370
+ "step": 81500
6371
+ },
6372
+ {
6373
+ "epoch": 0.0432,
6374
+ "grad_norm": 0.5886017084121704,
6375
+ "learning_rate": 4.710348851775467e-05,
6376
+ "loss": 1.1867,
6377
+ "step": 81600
6378
+ },
6379
+ {
6380
+ "epoch": 0.0434,
6381
+ "grad_norm": 0.6296970248222351,
6382
+ "learning_rate": 4.709607081335129e-05,
6383
+ "loss": 1.1702,
6384
+ "step": 81700
6385
+ },
6386
+ {
6387
+ "epoch": 0.0436,
6388
+ "grad_norm": 0.9896938800811768,
6389
+ "learning_rate": 4.7088644208653226e-05,
6390
+ "loss": 1.1628,
6391
+ "step": 81800
6392
+ },
6393
+ {
6394
+ "epoch": 0.0438,
6395
+ "grad_norm": 0.7199723720550537,
6396
+ "learning_rate": 4.708120870665192e-05,
6397
+ "loss": 1.1792,
6398
+ "step": 81900
6399
+ },
6400
+ {
6401
+ "epoch": 0.044,
6402
+ "grad_norm": 1.3148512840270996,
6403
+ "learning_rate": 4.707376431034238e-05,
6404
+ "loss": 1.185,
6405
+ "step": 82000
6406
+ },
6407
+ {
6408
+ "epoch": 0.044,
6409
+ "eval_loss": 1.0709099769592285,
6410
+ "eval_runtime": 75.8635,
6411
+ "eval_samples_per_second": 203.563,
6412
+ "eval_steps_per_second": 3.19,
6413
+ "step": 82000
6414
+ },
6415
+ {
6416
+ "epoch": 0.0442,
6417
+ "grad_norm": 0.6634069681167603,
6418
+ "learning_rate": 4.706631102272323e-05,
6419
+ "loss": 1.1633,
6420
+ "step": 82100
6421
+ },
6422
+ {
6423
+ "epoch": 0.0444,
6424
+ "grad_norm": 1.3700015544891357,
6425
+ "learning_rate": 4.705884884679663e-05,
6426
+ "loss": 1.1712,
6427
+ "step": 82200
6428
+ },
6429
+ {
6430
+ "epoch": 0.0446,
6431
+ "grad_norm": 1.1697111129760742,
6432
+ "learning_rate": 4.705137778556835e-05,
6433
+ "loss": 1.1902,
6434
+ "step": 82300
6435
+ },
6436
+ {
6437
+ "epoch": 0.0448,
6438
+ "grad_norm": 1.4012552499771118,
6439
+ "learning_rate": 4.7043897842047735e-05,
6440
+ "loss": 1.216,
6441
+ "step": 82400
6442
+ },
6443
+ {
6444
+ "epoch": 0.045,
6445
+ "grad_norm": 1.2128801345825195,
6446
+ "learning_rate": 4.7036409019247706e-05,
6447
+ "loss": 1.2169,
6448
+ "step": 82500
6449
+ },
6450
+ {
6451
+ "epoch": 0.0452,
6452
+ "grad_norm": 1.435831904411316,
6453
+ "learning_rate": 4.7028911320184766e-05,
6454
+ "loss": 1.1839,
6455
+ "step": 82600
6456
+ },
6457
+ {
6458
+ "epoch": 0.0454,
6459
+ "grad_norm": 0.8126788139343262,
6460
+ "learning_rate": 4.702140474787898e-05,
6461
+ "loss": 1.1652,
6462
+ "step": 82700
6463
+ },
6464
+ {
6465
+ "epoch": 0.0456,
6466
+ "grad_norm": 1.1946730613708496,
6467
+ "learning_rate": 4.7013889305353985e-05,
6468
+ "loss": 1.2277,
6469
+ "step": 82800
6470
+ },
6471
+ {
6472
+ "epoch": 0.0458,
6473
+ "grad_norm": 0.6007882952690125,
6474
+ "learning_rate": 4.700636499563702e-05,
6475
+ "loss": 1.1586,
6476
+ "step": 82900
6477
+ },
6478
+ {
6479
+ "epoch": 0.046,
6480
+ "grad_norm": 0.6656979322433472,
6481
+ "learning_rate": 4.699883182175886e-05,
6482
+ "loss": 1.1902,
6483
+ "step": 83000
6484
+ },
6485
+ {
6486
+ "epoch": 0.046,
6487
+ "eval_loss": 1.072899580001831,
6488
+ "eval_runtime": 77.2342,
6489
+ "eval_samples_per_second": 199.95,
6490
+ "eval_steps_per_second": 3.133,
6491
+ "step": 83000
6492
+ },
6493
+ {
6494
+ "epoch": 0.0462,
6495
+ "grad_norm": 1.5463351011276245,
6496
+ "learning_rate": 4.6991289786753876e-05,
6497
+ "loss": 1.1988,
6498
+ "step": 83100
6499
+ },
6500
+ {
6501
+ "epoch": 0.0464,
6502
+ "grad_norm": 1.202536940574646,
6503
+ "learning_rate": 4.698373889366e-05,
6504
+ "loss": 1.1983,
6505
+ "step": 83200
6506
+ },
6507
+ {
6508
+ "epoch": 0.0466,
6509
+ "grad_norm": 0.7186087369918823,
6510
+ "learning_rate": 4.6976179145518724e-05,
6511
+ "loss": 1.15,
6512
+ "step": 83300
6513
+ },
6514
+ {
6515
+ "epoch": 0.0468,
6516
+ "grad_norm": 1.3059759140014648,
6517
+ "learning_rate": 4.6968610545375116e-05,
6518
+ "loss": 1.1896,
6519
+ "step": 83400
6520
+ },
6521
+ {
6522
+ "epoch": 0.047,
6523
+ "grad_norm": 0.8425590991973877,
6524
+ "learning_rate": 4.696103309627781e-05,
6525
+ "loss": 1.1747,
6526
+ "step": 83500
6527
+ },
6528
+ {
6529
+ "epoch": 0.0472,
6530
+ "grad_norm": 1.1745330095291138,
6531
+ "learning_rate": 4.695344680127899e-05,
6532
+ "loss": 1.1591,
6533
+ "step": 83600
6534
+ },
6535
+ {
6536
+ "epoch": 0.0474,
6537
+ "grad_norm": 0.6429449915885925,
6538
+ "learning_rate": 4.694585166343443e-05,
6539
+ "loss": 1.1893,
6540
+ "step": 83700
6541
+ },
6542
+ {
6543
+ "epoch": 0.0476,
6544
+ "grad_norm": 1.5323892831802368,
6545
+ "learning_rate": 4.693824768580344e-05,
6546
+ "loss": 1.2037,
6547
+ "step": 83800
6548
+ },
6549
+ {
6550
+ "epoch": 0.0478,
6551
+ "grad_norm": 1.2719688415527344,
6552
+ "learning_rate": 4.693063487144891e-05,
6553
+ "loss": 1.191,
6554
+ "step": 83900
6555
+ },
6556
+ {
6557
+ "epoch": 0.048,
6558
+ "grad_norm": 1.1735507249832153,
6559
+ "learning_rate": 4.6923013223437276e-05,
6560
+ "loss": 1.1904,
6561
+ "step": 84000
6562
+ },
6563
+ {
6564
+ "epoch": 0.048,
6565
+ "eval_loss": 1.0721956491470337,
6566
+ "eval_runtime": 76.3531,
6567
+ "eval_samples_per_second": 202.258,
6568
+ "eval_steps_per_second": 3.169,
6569
+ "step": 84000
6570
+ },
6571
+ {
6572
+ "epoch": 0.0482,
6573
+ "grad_norm": 1.1949045658111572,
6574
+ "learning_rate": 4.6915382744838536e-05,
6575
+ "loss": 1.1507,
6576
+ "step": 84100
6577
+ },
6578
+ {
6579
+ "epoch": 0.0484,
6580
+ "grad_norm": 1.074385404586792,
6581
+ "learning_rate": 4.690774343872625e-05,
6582
+ "loss": 1.1504,
6583
+ "step": 84200
6584
+ },
6585
+ {
6586
+ "epoch": 0.0486,
6587
+ "grad_norm": 1.0720473527908325,
6588
+ "learning_rate": 4.690009530817753e-05,
6589
+ "loss": 1.1758,
6590
+ "step": 84300
6591
+ },
6592
+ {
6593
+ "epoch": 0.0488,
6594
+ "grad_norm": 1.0596733093261719,
6595
+ "learning_rate": 4.6892438356273024e-05,
6596
+ "loss": 1.1778,
6597
+ "step": 84400
6598
+ },
6599
+ {
6600
+ "epoch": 0.049,
6601
+ "grad_norm": 1.2753647565841675,
6602
+ "learning_rate": 4.688477258609698e-05,
6603
+ "loss": 1.1827,
6604
+ "step": 84500
6605
+ },
6606
+ {
6607
+ "epoch": 0.0492,
6608
+ "grad_norm": 1.2803727388381958,
6609
+ "learning_rate": 4.687709800073715e-05,
6610
+ "loss": 1.164,
6611
+ "step": 84600
6612
+ },
6613
+ {
6614
+ "epoch": 0.0494,
6615
+ "grad_norm": 1.4797301292419434,
6616
+ "learning_rate": 4.6869414603284865e-05,
6617
+ "loss": 1.1748,
6618
+ "step": 84700
6619
+ },
6620
+ {
6621
+ "epoch": 0.0496,
6622
+ "grad_norm": 1.1455540657043457,
6623
+ "learning_rate": 4.6861722396834996e-05,
6624
+ "loss": 1.1918,
6625
+ "step": 84800
6626
+ },
6627
+ {
6628
+ "epoch": 0.0498,
6629
+ "grad_norm": 1.1636658906936646,
6630
+ "learning_rate": 4.6854021384485954e-05,
6631
+ "loss": 1.208,
6632
+ "step": 84900
6633
+ },
6634
+ {
6635
+ "epoch": 0.05,
6636
+ "grad_norm": 1.267817735671997,
6637
+ "learning_rate": 4.684631156933971e-05,
6638
+ "loss": 1.1679,
6639
+ "step": 85000
6640
+ },
6641
+ {
6642
+ "epoch": 0.05,
6643
+ "eval_loss": 1.0709259510040283,
6644
+ "eval_runtime": 76.3729,
6645
+ "eval_samples_per_second": 202.205,
6646
+ "eval_steps_per_second": 3.169,
6647
+ "step": 85000
6648
+ },
6649
+ {
6650
+ "epoch": 0.0502,
6651
+ "grad_norm": 1.5029271841049194,
6652
+ "learning_rate": 4.683859295450178e-05,
6653
+ "loss": 1.1459,
6654
+ "step": 85100
6655
+ },
6656
+ {
6657
+ "epoch": 0.0504,
6658
+ "grad_norm": 0.7328454256057739,
6659
+ "learning_rate": 4.683086554308123e-05,
6660
+ "loss": 1.1861,
6661
+ "step": 85200
6662
+ },
6663
+ {
6664
+ "epoch": 0.0506,
6665
+ "grad_norm": 1.114625334739685,
6666
+ "learning_rate": 4.682312933819063e-05,
6667
+ "loss": 1.1609,
6668
+ "step": 85300
6669
+ },
6670
+ {
6671
+ "epoch": 0.0508,
6672
+ "grad_norm": 1.4052484035491943,
6673
+ "learning_rate": 4.681538434294615e-05,
6674
+ "loss": 1.1534,
6675
+ "step": 85400
6676
+ },
6677
+ {
6678
+ "epoch": 0.051,
6679
+ "grad_norm": 0.7364799976348877,
6680
+ "learning_rate": 4.6807630560467475e-05,
6681
+ "loss": 1.1973,
6682
+ "step": 85500
6683
+ },
6684
+ {
6685
+ "epoch": 0.0512,
6686
+ "grad_norm": 0.701787531375885,
6687
+ "learning_rate": 4.679986799387781e-05,
6688
+ "loss": 1.1743,
6689
+ "step": 85600
6690
+ },
6691
+ {
6692
+ "epoch": 0.0514,
6693
+ "grad_norm": 1.331763744354248,
6694
+ "learning_rate": 4.679209664630393e-05,
6695
+ "loss": 1.1516,
6696
+ "step": 85700
6697
+ },
6698
+ {
6699
+ "epoch": 0.0516,
6700
+ "grad_norm": 0.9733197689056396,
6701
+ "learning_rate": 4.6784316520876124e-05,
6702
+ "loss": 1.1646,
6703
+ "step": 85800
6704
+ },
6705
+ {
6706
+ "epoch": 0.0518,
6707
+ "grad_norm": 0.7415294051170349,
6708
+ "learning_rate": 4.677652762072823e-05,
6709
+ "loss": 1.2005,
6710
+ "step": 85900
6711
+ },
6712
+ {
6713
+ "epoch": 0.052,
6714
+ "grad_norm": 1.1027395725250244,
6715
+ "learning_rate": 4.6768729948997606e-05,
6716
+ "loss": 1.1601,
6717
+ "step": 86000
6718
+ },
6719
+ {
6720
+ "epoch": 0.052,
6721
+ "eval_loss": 1.0681675672531128,
6722
+ "eval_runtime": 76.2441,
6723
+ "eval_samples_per_second": 202.547,
6724
+ "eval_steps_per_second": 3.174,
6725
+ "step": 86000
6726
+ },
6727
+ {
6728
+ "epoch": 0.0522,
6729
+ "grad_norm": 0.7156331539154053,
6730
+ "learning_rate": 4.676092350882517e-05,
6731
+ "loss": 1.1854,
6732
+ "step": 86100
6733
+ },
6734
+ {
6735
+ "epoch": 0.0524,
6736
+ "grad_norm": 1.3423713445663452,
6737
+ "learning_rate": 4.675310830335534e-05,
6738
+ "loss": 1.2135,
6739
+ "step": 86200
6740
+ },
6741
+ {
6742
+ "epoch": 0.0526,
6743
+ "grad_norm": 1.1925442218780518,
6744
+ "learning_rate": 4.6745284335736095e-05,
6745
+ "loss": 1.1414,
6746
+ "step": 86300
6747
+ },
6748
+ {
6749
+ "epoch": 0.0528,
6750
+ "grad_norm": 1.1717417240142822,
6751
+ "learning_rate": 4.673745160911891e-05,
6752
+ "loss": 1.184,
6753
+ "step": 86400
6754
+ },
6755
+ {
6756
+ "epoch": 0.053,
6757
+ "grad_norm": 1.0722715854644775,
6758
+ "learning_rate": 4.672961012665883e-05,
6759
+ "loss": 1.1685,
6760
+ "step": 86500
6761
+ },
6762
+ {
6763
+ "epoch": 0.0532,
6764
+ "grad_norm": 1.293058156967163,
6765
+ "learning_rate": 4.6721759891514386e-05,
6766
+ "loss": 1.1639,
6767
+ "step": 86600
6768
+ },
6769
+ {
6770
+ "epoch": 0.0534,
6771
+ "grad_norm": 1.1121761798858643,
6772
+ "learning_rate": 4.671390090684765e-05,
6773
+ "loss": 1.1693,
6774
+ "step": 86700
6775
+ },
6776
+ {
6777
+ "epoch": 0.0536,
6778
+ "grad_norm": 1.1979039907455444,
6779
+ "learning_rate": 4.6706033175824226e-05,
6780
+ "loss": 1.2123,
6781
+ "step": 86800
6782
+ },
6783
+ {
6784
+ "epoch": 0.0538,
6785
+ "grad_norm": 1.3003602027893066,
6786
+ "learning_rate": 4.669815670161324e-05,
6787
+ "loss": 1.1529,
6788
+ "step": 86900
6789
+ },
6790
+ {
6791
+ "epoch": 0.054,
6792
+ "grad_norm": 0.627068817615509,
6793
+ "learning_rate": 4.669027148738732e-05,
6794
+ "loss": 1.1901,
6795
+ "step": 87000
6796
+ },
6797
+ {
6798
+ "epoch": 0.054,
6799
+ "eval_loss": 1.0730499029159546,
6800
+ "eval_runtime": 76.271,
6801
+ "eval_samples_per_second": 202.475,
6802
+ "eval_steps_per_second": 3.173,
6803
+ "step": 87000
6804
+ },
6805
+ {
6806
+ "epoch": 0.0542,
6807
+ "grad_norm": 1.0153006315231323,
6808
+ "learning_rate": 4.6682377536322644e-05,
6809
+ "loss": 1.1295,
6810
+ "step": 87100
6811
+ },
6812
+ {
6813
+ "epoch": 0.0544,
6814
+ "grad_norm": 1.3619033098220825,
6815
+ "learning_rate": 4.667447485159889e-05,
6816
+ "loss": 1.1759,
6817
+ "step": 87200
6818
+ },
6819
+ {
6820
+ "epoch": 0.0546,
6821
+ "grad_norm": 0.8665468692779541,
6822
+ "learning_rate": 4.666656343639926e-05,
6823
+ "loss": 1.1602,
6824
+ "step": 87300
6825
+ },
6826
+ {
6827
+ "epoch": 0.0548,
6828
+ "grad_norm": 0.7338219285011292,
6829
+ "learning_rate": 4.665864329391046e-05,
6830
+ "loss": 1.1856,
6831
+ "step": 87400
6832
+ },
6833
+ {
6834
+ "epoch": 0.055,
6835
+ "grad_norm": 0.7363407611846924,
6836
+ "learning_rate": 4.665071442732274e-05,
6837
+ "loss": 1.1629,
6838
+ "step": 87500
6839
+ },
6840
+ {
6841
+ "epoch": 0.0552,
6842
+ "grad_norm": 0.9836055636405945,
6843
+ "learning_rate": 4.664277683982984e-05,
6844
+ "loss": 1.1755,
6845
+ "step": 87600
6846
+ },
6847
+ {
6848
+ "epoch": 0.0554,
6849
+ "grad_norm": 1.0638995170593262,
6850
+ "learning_rate": 4.663483053462901e-05,
6851
+ "loss": 1.186,
6852
+ "step": 87700
6853
+ },
6854
+ {
6855
+ "epoch": 0.0556,
6856
+ "grad_norm": 0.9050219058990479,
6857
+ "learning_rate": 4.662687551492103e-05,
6858
+ "loss": 1.2357,
6859
+ "step": 87800
6860
+ },
6861
+ {
6862
+ "epoch": 0.0558,
6863
+ "grad_norm": 0.917178213596344,
6864
+ "learning_rate": 4.661891178391018e-05,
6865
+ "loss": 1.1573,
6866
+ "step": 87900
6867
+ },
6868
+ {
6869
+ "epoch": 0.056,
6870
+ "grad_norm": 1.2023630142211914,
6871
+ "learning_rate": 4.661093934480425e-05,
6872
+ "loss": 1.1795,
6873
+ "step": 88000
6874
+ },
6875
+ {
6876
+ "epoch": 0.056,
6877
+ "eval_loss": 1.0689297914505005,
6878
+ "eval_runtime": 77.0471,
6879
+ "eval_samples_per_second": 200.436,
6880
+ "eval_steps_per_second": 3.141,
6881
+ "step": 88000
6882
+ },
6883
+ {
6884
+ "epoch": 0.0562,
6885
+ "grad_norm": 1.2633955478668213,
6886
+ "learning_rate": 4.660295820081453e-05,
6887
+ "loss": 1.1501,
6888
+ "step": 88100
6889
+ },
6890
+ {
6891
+ "epoch": 0.0564,
6892
+ "grad_norm": 0.5867215991020203,
6893
+ "learning_rate": 4.6594968355155835e-05,
6894
+ "loss": 1.2096,
6895
+ "step": 88200
6896
+ },
6897
+ {
6898
+ "epoch": 0.0566,
6899
+ "grad_norm": 1.3425019979476929,
6900
+ "learning_rate": 4.658696981104646e-05,
6901
+ "loss": 1.2016,
6902
+ "step": 88300
6903
+ },
6904
+ {
6905
+ "epoch": 0.0568,
6906
+ "grad_norm": 0.8101886510848999,
6907
+ "learning_rate": 4.657896257170825e-05,
6908
+ "loss": 1.1512,
6909
+ "step": 88400
6910
+ },
6911
+ {
6912
+ "epoch": 0.057,
6913
+ "grad_norm": 1.43784761428833,
6914
+ "learning_rate": 4.6570946640366474e-05,
6915
+ "loss": 1.1536,
6916
+ "step": 88500
6917
+ },
6918
+ {
6919
+ "epoch": 0.0572,
6920
+ "grad_norm": 0.766494870185852,
6921
+ "learning_rate": 4.6562922020249984e-05,
6922
+ "loss": 1.1521,
6923
+ "step": 88600
6924
+ },
6925
+ {
6926
+ "epoch": 0.0574,
6927
+ "grad_norm": 1.5485390424728394,
6928
+ "learning_rate": 4.6554888714591076e-05,
6929
+ "loss": 1.176,
6930
+ "step": 88700
6931
+ },
6932
+ {
6933
+ "epoch": 0.0576,
6934
+ "grad_norm": 0.8266467452049255,
6935
+ "learning_rate": 4.654684672662557e-05,
6936
+ "loss": 1.1514,
6937
+ "step": 88800
6938
+ },
6939
+ {
6940
+ "epoch": 0.0578,
6941
+ "grad_norm": 1.2086583375930786,
6942
+ "learning_rate": 4.6538796059592784e-05,
6943
+ "loss": 1.177,
6944
+ "step": 88900
6945
+ },
6946
+ {
6947
+ "epoch": 0.058,
6948
+ "grad_norm": 1.4609780311584473,
6949
+ "learning_rate": 4.6530736716735526e-05,
6950
+ "loss": 1.1447,
6951
+ "step": 89000
6952
+ },
6953
+ {
6954
+ "epoch": 0.058,
6955
+ "eval_loss": 1.0664150714874268,
6956
+ "eval_runtime": 76.3509,
6957
+ "eval_samples_per_second": 202.264,
6958
+ "eval_steps_per_second": 3.17,
6959
+ "step": 89000
6960
+ },
6961
+ {
6962
+ "epoch": 0.0582,
6963
+ "grad_norm": 1.0640435218811035,
6964
+ "learning_rate": 4.652266870130008e-05,
6965
+ "loss": 1.1392,
6966
+ "step": 89100
6967
+ },
6968
+ {
6969
+ "epoch": 0.0584,
6970
+ "grad_norm": 1.3286436796188354,
6971
+ "learning_rate": 4.651459201653626e-05,
6972
+ "loss": 1.222,
6973
+ "step": 89200
6974
+ },
6975
+ {
6976
+ "epoch": 0.0586,
6977
+ "grad_norm": 0.7577000260353088,
6978
+ "learning_rate": 4.650650666569736e-05,
6979
+ "loss": 1.1842,
6980
+ "step": 89300
6981
+ },
6982
+ {
6983
+ "epoch": 0.0588,
6984
+ "grad_norm": 1.0623698234558105,
6985
+ "learning_rate": 4.6498412652040137e-05,
6986
+ "loss": 1.2071,
6987
+ "step": 89400
6988
+ },
6989
+ {
6990
+ "epoch": 0.059,
6991
+ "grad_norm": 0.9597827792167664,
6992
+ "learning_rate": 4.6490309978824866e-05,
6993
+ "loss": 1.1781,
6994
+ "step": 89500
6995
+ },
6996
+ {
6997
+ "epoch": 0.0592,
6998
+ "grad_norm": 1.126639485359192,
6999
+ "learning_rate": 4.6482198649315306e-05,
7000
+ "loss": 1.1897,
7001
+ "step": 89600
7002
+ },
7003
+ {
7004
+ "epoch": 0.0594,
7005
+ "grad_norm": 1.1724388599395752,
7006
+ "learning_rate": 4.64740786667787e-05,
7007
+ "loss": 1.1567,
7008
+ "step": 89700
7009
+ },
7010
+ {
7011
+ "epoch": 0.0596,
7012
+ "grad_norm": 1.14126718044281,
7013
+ "learning_rate": 4.6465950034485776e-05,
7014
+ "loss": 1.1819,
7015
+ "step": 89800
7016
+ },
7017
+ {
7018
+ "epoch": 0.0598,
7019
+ "grad_norm": 0.8016234040260315,
7020
+ "learning_rate": 4.645781275571075e-05,
7021
+ "loss": 1.1906,
7022
+ "step": 89900
7023
+ },
7024
+ {
7025
+ "epoch": 0.06,
7026
+ "grad_norm": 1.3095015287399292,
7027
+ "learning_rate": 4.644966683373131e-05,
7028
+ "loss": 1.1976,
7029
+ "step": 90000
7030
+ },
7031
+ {
7032
+ "epoch": 0.06,
7033
+ "eval_loss": 1.0730445384979248,
7034
+ "eval_runtime": 76.1401,
7035
+ "eval_samples_per_second": 202.823,
7036
+ "eval_steps_per_second": 3.178,
7037
+ "step": 90000
7038
+ },
7039
+ {
7040
+ "epoch": 0.0602,
7041
+ "grad_norm": 0.5794508457183838,
7042
+ "learning_rate": 4.6441512271828626e-05,
7043
+ "loss": 1.1478,
7044
+ "step": 90100
7045
+ },
7046
+ {
7047
+ "epoch": 0.0604,
7048
+ "grad_norm": 0.9965047240257263,
7049
+ "learning_rate": 4.6433349073287366e-05,
7050
+ "loss": 1.201,
7051
+ "step": 90200
7052
+ },
7053
+ {
7054
+ "epoch": 0.0606,
7055
+ "grad_norm": 1.280166506767273,
7056
+ "learning_rate": 4.642517724139567e-05,
7057
+ "loss": 1.1542,
7058
+ "step": 90300
7059
+ },
7060
+ {
7061
+ "epoch": 0.0608,
7062
+ "grad_norm": 0.7828945517539978,
7063
+ "learning_rate": 4.641699677944514e-05,
7064
+ "loss": 1.186,
7065
+ "step": 90400
7066
+ },
7067
+ {
7068
+ "epoch": 0.061,
7069
+ "grad_norm": 1.096155047416687,
7070
+ "learning_rate": 4.640880769073087e-05,
7071
+ "loss": 1.1969,
7072
+ "step": 90500
7073
+ },
7074
+ {
7075
+ "epoch": 0.0612,
7076
+ "grad_norm": 0.7447170615196228,
7077
+ "learning_rate": 4.6400609978551416e-05,
7078
+ "loss": 1.1482,
7079
+ "step": 90600
7080
+ },
7081
+ {
7082
+ "epoch": 0.0614,
7083
+ "grad_norm": 0.8162779808044434,
7084
+ "learning_rate": 4.639240364620882e-05,
7085
+ "loss": 1.2072,
7086
+ "step": 90700
7087
+ },
7088
+ {
7089
+ "epoch": 0.0616,
7090
+ "grad_norm": 1.2612018585205078,
7091
+ "learning_rate": 4.638418869700861e-05,
7092
+ "loss": 1.1402,
7093
+ "step": 90800
7094
+ },
7095
+ {
7096
+ "epoch": 0.0618,
7097
+ "grad_norm": 0.8543398380279541,
7098
+ "learning_rate": 4.637596513425974e-05,
7099
+ "loss": 1.1718,
7100
+ "step": 90900
7101
+ },
7102
+ {
7103
+ "epoch": 0.062,
7104
+ "grad_norm": 1.2375905513763428,
7105
+ "learning_rate": 4.636773296127467e-05,
7106
+ "loss": 1.1587,
7107
+ "step": 91000
7108
+ },
7109
+ {
7110
+ "epoch": 0.062,
7111
+ "eval_loss": 1.0713858604431152,
7112
+ "eval_runtime": 76.3385,
7113
+ "eval_samples_per_second": 202.296,
7114
+ "eval_steps_per_second": 3.17,
7115
+ "step": 91000
7116
  }
7117
  ],
7118
  "logging_steps": 100,
 
7132
  "attributes": {}
7133
  }
7134
  },
7135
+ "total_flos": 3.970894657486848e+18,
7136
  "train_batch_size": 64,
7137
  "trial_name": null,
7138
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b6ae00380f8558778cd5ee84adf2e34d3acc852a57545540e601bcec753dc98c
3
  size 5777
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dd3ce0d8d8d7eebf502ef39400e4cf1a772a55755bed316d453e5ed6e3921245
3
  size 5777