| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 1.2404149751917004, | |
| "eval_steps": 500, | |
| "global_step": 5500, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.0022552999548940008, | |
| "grad_norm": 3.71875, | |
| "learning_rate": 1.9970000000000004e-05, | |
| "loss": 1.2486, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.0045105999097880016, | |
| "grad_norm": 2.9375, | |
| "learning_rate": 1.993666666666667e-05, | |
| "loss": 0.9533, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.006765899864682003, | |
| "grad_norm": 2.71875, | |
| "learning_rate": 1.9903333333333333e-05, | |
| "loss": 0.8758, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.009021199819576003, | |
| "grad_norm": 2.640625, | |
| "learning_rate": 1.987e-05, | |
| "loss": 0.8479, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.011276499774470004, | |
| "grad_norm": 2.5625, | |
| "learning_rate": 1.983666666666667e-05, | |
| "loss": 0.8127, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.013531799729364006, | |
| "grad_norm": 2.375, | |
| "learning_rate": 1.9803333333333334e-05, | |
| "loss": 0.812, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.015787099684258007, | |
| "grad_norm": 2.421875, | |
| "learning_rate": 1.9770000000000002e-05, | |
| "loss": 0.7799, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.018042399639152006, | |
| "grad_norm": 2.796875, | |
| "learning_rate": 1.9736666666666667e-05, | |
| "loss": 0.8005, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.02029769959404601, | |
| "grad_norm": 2.40625, | |
| "learning_rate": 1.9703333333333335e-05, | |
| "loss": 0.7766, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.02255299954894001, | |
| "grad_norm": 2.578125, | |
| "learning_rate": 1.9670000000000003e-05, | |
| "loss": 0.7611, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.02480829950383401, | |
| "grad_norm": 2.375, | |
| "learning_rate": 1.9636666666666668e-05, | |
| "loss": 0.7492, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.02706359945872801, | |
| "grad_norm": 2.421875, | |
| "learning_rate": 1.9603333333333333e-05, | |
| "loss": 0.7518, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.02931889941362201, | |
| "grad_norm": 2.296875, | |
| "learning_rate": 1.957e-05, | |
| "loss": 0.7677, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.031574199368516014, | |
| "grad_norm": 2.609375, | |
| "learning_rate": 1.953666666666667e-05, | |
| "loss": 0.7275, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.03382949932341001, | |
| "grad_norm": 2.65625, | |
| "learning_rate": 1.9503333333333334e-05, | |
| "loss": 0.7348, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.03608479927830401, | |
| "grad_norm": 2.421875, | |
| "learning_rate": 1.947e-05, | |
| "loss": 0.7438, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.03834009923319801, | |
| "grad_norm": 2.203125, | |
| "learning_rate": 1.943666666666667e-05, | |
| "loss": 0.7227, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.04059539918809202, | |
| "grad_norm": 2.453125, | |
| "learning_rate": 1.9403333333333334e-05, | |
| "loss": 0.7117, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.04285069914298602, | |
| "grad_norm": 2.1875, | |
| "learning_rate": 1.9370000000000003e-05, | |
| "loss": 0.7232, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.04510599909788002, | |
| "grad_norm": 2.25, | |
| "learning_rate": 1.9336666666666667e-05, | |
| "loss": 0.7289, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.04736129905277402, | |
| "grad_norm": 2.265625, | |
| "learning_rate": 1.9303333333333335e-05, | |
| "loss": 0.6979, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.04961659900766802, | |
| "grad_norm": 2.25, | |
| "learning_rate": 1.9270000000000004e-05, | |
| "loss": 0.6891, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.05187189896256202, | |
| "grad_norm": 2.1875, | |
| "learning_rate": 1.9236666666666668e-05, | |
| "loss": 0.7168, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.05412719891745602, | |
| "grad_norm": 2.578125, | |
| "learning_rate": 1.9203333333333333e-05, | |
| "loss": 0.6879, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 0.05638249887235002, | |
| "grad_norm": 2.4375, | |
| "learning_rate": 1.917e-05, | |
| "loss": 0.6775, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.05863779882724402, | |
| "grad_norm": 2.28125, | |
| "learning_rate": 1.913666666666667e-05, | |
| "loss": 0.6832, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 0.06089309878213803, | |
| "grad_norm": 2.203125, | |
| "learning_rate": 1.9103333333333337e-05, | |
| "loss": 0.6553, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 0.06314839873703203, | |
| "grad_norm": 2.265625, | |
| "learning_rate": 1.9070000000000002e-05, | |
| "loss": 0.6733, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 0.06540369869192603, | |
| "grad_norm": 2.1875, | |
| "learning_rate": 1.9036666666666667e-05, | |
| "loss": 0.6811, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 0.06765899864682003, | |
| "grad_norm": 2.40625, | |
| "learning_rate": 1.9003333333333335e-05, | |
| "loss": 0.668, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.06991429860171403, | |
| "grad_norm": 2.265625, | |
| "learning_rate": 1.8970000000000003e-05, | |
| "loss": 0.6659, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 0.07216959855660803, | |
| "grad_norm": 2.328125, | |
| "learning_rate": 1.8936666666666668e-05, | |
| "loss": 0.6776, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 0.07442489851150202, | |
| "grad_norm": 2.5625, | |
| "learning_rate": 1.8903333333333336e-05, | |
| "loss": 0.6605, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 0.07668019846639602, | |
| "grad_norm": 2.265625, | |
| "learning_rate": 1.887e-05, | |
| "loss": 0.6537, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 0.07893549842129004, | |
| "grad_norm": 2.28125, | |
| "learning_rate": 1.883666666666667e-05, | |
| "loss": 0.6474, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.08119079837618404, | |
| "grad_norm": 2.390625, | |
| "learning_rate": 1.8803333333333337e-05, | |
| "loss": 0.6272, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 0.08344609833107804, | |
| "grad_norm": 2.28125, | |
| "learning_rate": 1.877e-05, | |
| "loss": 0.6406, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 0.08570139828597204, | |
| "grad_norm": 2.296875, | |
| "learning_rate": 1.8736666666666666e-05, | |
| "loss": 0.6386, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 0.08795669824086604, | |
| "grad_norm": 2.359375, | |
| "learning_rate": 1.8703333333333334e-05, | |
| "loss": 0.621, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 0.09021199819576003, | |
| "grad_norm": 2.28125, | |
| "learning_rate": 1.8670000000000003e-05, | |
| "loss": 0.6657, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.09246729815065403, | |
| "grad_norm": 2.953125, | |
| "learning_rate": 1.8636666666666667e-05, | |
| "loss": 0.6331, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 0.09472259810554803, | |
| "grad_norm": 2.75, | |
| "learning_rate": 1.8603333333333335e-05, | |
| "loss": 0.6434, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 0.09697789806044203, | |
| "grad_norm": 2.328125, | |
| "learning_rate": 1.857e-05, | |
| "loss": 0.6152, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 0.09923319801533605, | |
| "grad_norm": 2.40625, | |
| "learning_rate": 1.8536666666666668e-05, | |
| "loss": 0.6462, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 0.10148849797023005, | |
| "grad_norm": 2.8125, | |
| "learning_rate": 1.8503333333333336e-05, | |
| "loss": 0.5954, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.10374379792512405, | |
| "grad_norm": 2.140625, | |
| "learning_rate": 1.847e-05, | |
| "loss": 0.6304, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 0.10599909788001805, | |
| "grad_norm": 2.359375, | |
| "learning_rate": 1.8436666666666666e-05, | |
| "loss": 0.6318, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 0.10825439783491204, | |
| "grad_norm": 2.375, | |
| "learning_rate": 1.8403333333333334e-05, | |
| "loss": 0.626, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 0.11050969778980604, | |
| "grad_norm": 2.53125, | |
| "learning_rate": 1.8370000000000002e-05, | |
| "loss": 0.6112, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 0.11276499774470004, | |
| "grad_norm": 2.359375, | |
| "learning_rate": 1.8336666666666667e-05, | |
| "loss": 0.6057, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.11502029769959404, | |
| "grad_norm": 2.59375, | |
| "learning_rate": 1.8303333333333335e-05, | |
| "loss": 0.5819, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 0.11727559765448804, | |
| "grad_norm": 2.65625, | |
| "learning_rate": 1.827e-05, | |
| "loss": 0.6126, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 0.11953089760938204, | |
| "grad_norm": 2.34375, | |
| "learning_rate": 1.8236666666666668e-05, | |
| "loss": 0.6287, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 0.12178619756427606, | |
| "grad_norm": 2.4375, | |
| "learning_rate": 1.8203333333333336e-05, | |
| "loss": 0.586, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 0.12404149751917005, | |
| "grad_norm": 2.28125, | |
| "learning_rate": 1.817e-05, | |
| "loss": 0.6016, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.12629679747406405, | |
| "grad_norm": 2.421875, | |
| "learning_rate": 1.813666666666667e-05, | |
| "loss": 0.582, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 0.12855209742895804, | |
| "grad_norm": 2.375, | |
| "learning_rate": 1.8103333333333333e-05, | |
| "loss": 0.5885, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 0.13080739738385205, | |
| "grad_norm": 2.515625, | |
| "learning_rate": 1.807e-05, | |
| "loss": 0.584, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 0.13306269733874607, | |
| "grad_norm": 2.484375, | |
| "learning_rate": 1.803666666666667e-05, | |
| "loss": 0.5487, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 0.13531799729364005, | |
| "grad_norm": 2.5, | |
| "learning_rate": 1.8003333333333334e-05, | |
| "loss": 0.5923, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.13757329724853407, | |
| "grad_norm": 2.375, | |
| "learning_rate": 1.7970000000000002e-05, | |
| "loss": 0.5666, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 0.13982859720342805, | |
| "grad_norm": 3.09375, | |
| "learning_rate": 1.793666666666667e-05, | |
| "loss": 0.5466, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 0.14208389715832206, | |
| "grad_norm": 2.5, | |
| "learning_rate": 1.7903333333333335e-05, | |
| "loss": 0.5908, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 0.14433919711321605, | |
| "grad_norm": 2.515625, | |
| "learning_rate": 1.787e-05, | |
| "loss": 0.5542, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 0.14659449706811006, | |
| "grad_norm": 2.515625, | |
| "learning_rate": 1.7836666666666668e-05, | |
| "loss": 0.5659, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.14884979702300405, | |
| "grad_norm": 2.578125, | |
| "learning_rate": 1.7803333333333336e-05, | |
| "loss": 0.5361, | |
| "step": 660 | |
| }, | |
| { | |
| "epoch": 0.15110509697789806, | |
| "grad_norm": 2.4375, | |
| "learning_rate": 1.777e-05, | |
| "loss": 0.555, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 0.15336039693279205, | |
| "grad_norm": 2.609375, | |
| "learning_rate": 1.773666666666667e-05, | |
| "loss": 0.5435, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 0.15561569688768606, | |
| "grad_norm": 2.46875, | |
| "learning_rate": 1.7703333333333334e-05, | |
| "loss": 0.5713, | |
| "step": 690 | |
| }, | |
| { | |
| "epoch": 0.15787099684258007, | |
| "grad_norm": 2.40625, | |
| "learning_rate": 1.7670000000000002e-05, | |
| "loss": 0.559, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.16012629679747406, | |
| "grad_norm": 2.421875, | |
| "learning_rate": 1.763666666666667e-05, | |
| "loss": 0.5696, | |
| "step": 710 | |
| }, | |
| { | |
| "epoch": 0.16238159675236807, | |
| "grad_norm": 2.640625, | |
| "learning_rate": 1.7603333333333335e-05, | |
| "loss": 0.5345, | |
| "step": 720 | |
| }, | |
| { | |
| "epoch": 0.16463689670726206, | |
| "grad_norm": 2.4375, | |
| "learning_rate": 1.757e-05, | |
| "loss": 0.5774, | |
| "step": 730 | |
| }, | |
| { | |
| "epoch": 0.16689219666215607, | |
| "grad_norm": 2.375, | |
| "learning_rate": 1.7536666666666668e-05, | |
| "loss": 0.5448, | |
| "step": 740 | |
| }, | |
| { | |
| "epoch": 0.16914749661705006, | |
| "grad_norm": 2.515625, | |
| "learning_rate": 1.7503333333333336e-05, | |
| "loss": 0.5436, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 0.17140279657194407, | |
| "grad_norm": 2.34375, | |
| "learning_rate": 1.7470000000000004e-05, | |
| "loss": 0.5383, | |
| "step": 760 | |
| }, | |
| { | |
| "epoch": 0.17365809652683806, | |
| "grad_norm": 2.375, | |
| "learning_rate": 1.743666666666667e-05, | |
| "loss": 0.5385, | |
| "step": 770 | |
| }, | |
| { | |
| "epoch": 0.17591339648173207, | |
| "grad_norm": 2.734375, | |
| "learning_rate": 1.7403333333333333e-05, | |
| "loss": 0.5367, | |
| "step": 780 | |
| }, | |
| { | |
| "epoch": 0.17816869643662608, | |
| "grad_norm": 2.46875, | |
| "learning_rate": 1.737e-05, | |
| "loss": 0.5622, | |
| "step": 790 | |
| }, | |
| { | |
| "epoch": 0.18042399639152007, | |
| "grad_norm": 2.59375, | |
| "learning_rate": 1.733666666666667e-05, | |
| "loss": 0.5064, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.18267929634641408, | |
| "grad_norm": 2.4375, | |
| "learning_rate": 1.7303333333333334e-05, | |
| "loss": 0.528, | |
| "step": 810 | |
| }, | |
| { | |
| "epoch": 0.18493459630130807, | |
| "grad_norm": 2.53125, | |
| "learning_rate": 1.7270000000000002e-05, | |
| "loss": 0.5117, | |
| "step": 820 | |
| }, | |
| { | |
| "epoch": 0.18718989625620208, | |
| "grad_norm": 2.625, | |
| "learning_rate": 1.7236666666666667e-05, | |
| "loss": 0.5477, | |
| "step": 830 | |
| }, | |
| { | |
| "epoch": 0.18944519621109607, | |
| "grad_norm": 2.421875, | |
| "learning_rate": 1.7203333333333335e-05, | |
| "loss": 0.5131, | |
| "step": 840 | |
| }, | |
| { | |
| "epoch": 0.19170049616599008, | |
| "grad_norm": 2.96875, | |
| "learning_rate": 1.7170000000000003e-05, | |
| "loss": 0.4921, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 0.19395579612088407, | |
| "grad_norm": 2.5625, | |
| "learning_rate": 1.7136666666666668e-05, | |
| "loss": 0.4937, | |
| "step": 860 | |
| }, | |
| { | |
| "epoch": 0.19621109607577808, | |
| "grad_norm": 2.53125, | |
| "learning_rate": 1.7103333333333333e-05, | |
| "loss": 0.508, | |
| "step": 870 | |
| }, | |
| { | |
| "epoch": 0.1984663960306721, | |
| "grad_norm": 2.625, | |
| "learning_rate": 1.707e-05, | |
| "loss": 0.5266, | |
| "step": 880 | |
| }, | |
| { | |
| "epoch": 0.20072169598556608, | |
| "grad_norm": 2.96875, | |
| "learning_rate": 1.703666666666667e-05, | |
| "loss": 0.5097, | |
| "step": 890 | |
| }, | |
| { | |
| "epoch": 0.2029769959404601, | |
| "grad_norm": 2.390625, | |
| "learning_rate": 1.7003333333333334e-05, | |
| "loss": 0.4993, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.20523229589535408, | |
| "grad_norm": 2.65625, | |
| "learning_rate": 1.6970000000000002e-05, | |
| "loss": 0.482, | |
| "step": 910 | |
| }, | |
| { | |
| "epoch": 0.2074875958502481, | |
| "grad_norm": 2.796875, | |
| "learning_rate": 1.6936666666666667e-05, | |
| "loss": 0.496, | |
| "step": 920 | |
| }, | |
| { | |
| "epoch": 0.20974289580514208, | |
| "grad_norm": 2.734375, | |
| "learning_rate": 1.6903333333333335e-05, | |
| "loss": 0.4805, | |
| "step": 930 | |
| }, | |
| { | |
| "epoch": 0.2119981957600361, | |
| "grad_norm": 2.609375, | |
| "learning_rate": 1.6870000000000003e-05, | |
| "loss": 0.5179, | |
| "step": 940 | |
| }, | |
| { | |
| "epoch": 0.21425349571493008, | |
| "grad_norm": 2.5, | |
| "learning_rate": 1.6836666666666668e-05, | |
| "loss": 0.4581, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 0.2165087956698241, | |
| "grad_norm": 2.671875, | |
| "learning_rate": 1.6803333333333332e-05, | |
| "loss": 0.4656, | |
| "step": 960 | |
| }, | |
| { | |
| "epoch": 0.21876409562471807, | |
| "grad_norm": 2.640625, | |
| "learning_rate": 1.677e-05, | |
| "loss": 0.4973, | |
| "step": 970 | |
| }, | |
| { | |
| "epoch": 0.2210193955796121, | |
| "grad_norm": 2.609375, | |
| "learning_rate": 1.673666666666667e-05, | |
| "loss": 0.4915, | |
| "step": 980 | |
| }, | |
| { | |
| "epoch": 0.2232746955345061, | |
| "grad_norm": 2.546875, | |
| "learning_rate": 1.6703333333333333e-05, | |
| "loss": 0.4807, | |
| "step": 990 | |
| }, | |
| { | |
| "epoch": 0.2255299954894001, | |
| "grad_norm": 2.484375, | |
| "learning_rate": 1.667e-05, | |
| "loss": 0.5139, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.2277852954442941, | |
| "grad_norm": 2.703125, | |
| "learning_rate": 1.6636666666666666e-05, | |
| "loss": 0.4795, | |
| "step": 1010 | |
| }, | |
| { | |
| "epoch": 0.23004059539918809, | |
| "grad_norm": 2.640625, | |
| "learning_rate": 1.6603333333333334e-05, | |
| "loss": 0.4759, | |
| "step": 1020 | |
| }, | |
| { | |
| "epoch": 0.2322958953540821, | |
| "grad_norm": 2.8125, | |
| "learning_rate": 1.6570000000000002e-05, | |
| "loss": 0.4646, | |
| "step": 1030 | |
| }, | |
| { | |
| "epoch": 0.23455119530897608, | |
| "grad_norm": 2.75, | |
| "learning_rate": 1.6536666666666667e-05, | |
| "loss": 0.4653, | |
| "step": 1040 | |
| }, | |
| { | |
| "epoch": 0.2368064952638701, | |
| "grad_norm": 2.640625, | |
| "learning_rate": 1.6503333333333335e-05, | |
| "loss": 0.4609, | |
| "step": 1050 | |
| }, | |
| { | |
| "epoch": 0.23906179521876408, | |
| "grad_norm": 2.6875, | |
| "learning_rate": 1.647e-05, | |
| "loss": 0.4676, | |
| "step": 1060 | |
| }, | |
| { | |
| "epoch": 0.2413170951736581, | |
| "grad_norm": 2.78125, | |
| "learning_rate": 1.6436666666666668e-05, | |
| "loss": 0.4495, | |
| "step": 1070 | |
| }, | |
| { | |
| "epoch": 0.2435723951285521, | |
| "grad_norm": 2.6875, | |
| "learning_rate": 1.6403333333333336e-05, | |
| "loss": 0.4443, | |
| "step": 1080 | |
| }, | |
| { | |
| "epoch": 0.2458276950834461, | |
| "grad_norm": 2.59375, | |
| "learning_rate": 1.637e-05, | |
| "loss": 0.4341, | |
| "step": 1090 | |
| }, | |
| { | |
| "epoch": 0.2480829950383401, | |
| "grad_norm": 2.84375, | |
| "learning_rate": 1.633666666666667e-05, | |
| "loss": 0.4294, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.2503382949932341, | |
| "grad_norm": 2.625, | |
| "learning_rate": 1.6303333333333337e-05, | |
| "loss": 0.439, | |
| "step": 1110 | |
| }, | |
| { | |
| "epoch": 0.2525935949481281, | |
| "grad_norm": 3.046875, | |
| "learning_rate": 1.6270000000000002e-05, | |
| "loss": 0.443, | |
| "step": 1120 | |
| }, | |
| { | |
| "epoch": 0.2548488949030221, | |
| "grad_norm": 2.65625, | |
| "learning_rate": 1.6236666666666667e-05, | |
| "loss": 0.4389, | |
| "step": 1130 | |
| }, | |
| { | |
| "epoch": 0.2571041948579161, | |
| "grad_norm": 2.859375, | |
| "learning_rate": 1.6203333333333335e-05, | |
| "loss": 0.46, | |
| "step": 1140 | |
| }, | |
| { | |
| "epoch": 0.2593594948128101, | |
| "grad_norm": 2.78125, | |
| "learning_rate": 1.6170000000000003e-05, | |
| "loss": 0.4469, | |
| "step": 1150 | |
| }, | |
| { | |
| "epoch": 0.2616147947677041, | |
| "grad_norm": 2.671875, | |
| "learning_rate": 1.6136666666666667e-05, | |
| "loss": 0.4485, | |
| "step": 1160 | |
| }, | |
| { | |
| "epoch": 0.2638700947225981, | |
| "grad_norm": 3.046875, | |
| "learning_rate": 1.6103333333333336e-05, | |
| "loss": 0.4414, | |
| "step": 1170 | |
| }, | |
| { | |
| "epoch": 0.26612539467749213, | |
| "grad_norm": 2.84375, | |
| "learning_rate": 1.607e-05, | |
| "loss": 0.4126, | |
| "step": 1180 | |
| }, | |
| { | |
| "epoch": 0.2683806946323861, | |
| "grad_norm": 3.078125, | |
| "learning_rate": 1.603666666666667e-05, | |
| "loss": 0.433, | |
| "step": 1190 | |
| }, | |
| { | |
| "epoch": 0.2706359945872801, | |
| "grad_norm": 2.859375, | |
| "learning_rate": 1.6003333333333337e-05, | |
| "loss": 0.4404, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.2728912945421741, | |
| "grad_norm": 2.921875, | |
| "learning_rate": 1.597e-05, | |
| "loss": 0.4279, | |
| "step": 1210 | |
| }, | |
| { | |
| "epoch": 0.27514659449706813, | |
| "grad_norm": 2.9375, | |
| "learning_rate": 1.5936666666666666e-05, | |
| "loss": 0.4333, | |
| "step": 1220 | |
| }, | |
| { | |
| "epoch": 0.2774018944519621, | |
| "grad_norm": 2.828125, | |
| "learning_rate": 1.5903333333333334e-05, | |
| "loss": 0.435, | |
| "step": 1230 | |
| }, | |
| { | |
| "epoch": 0.2796571944068561, | |
| "grad_norm": 2.9375, | |
| "learning_rate": 1.5870000000000002e-05, | |
| "loss": 0.4123, | |
| "step": 1240 | |
| }, | |
| { | |
| "epoch": 0.2819124943617501, | |
| "grad_norm": 3.03125, | |
| "learning_rate": 1.5836666666666667e-05, | |
| "loss": 0.4065, | |
| "step": 1250 | |
| }, | |
| { | |
| "epoch": 0.28416779431664413, | |
| "grad_norm": 3.21875, | |
| "learning_rate": 1.5803333333333335e-05, | |
| "loss": 0.4287, | |
| "step": 1260 | |
| }, | |
| { | |
| "epoch": 0.2864230942715381, | |
| "grad_norm": 2.96875, | |
| "learning_rate": 1.577e-05, | |
| "loss": 0.4649, | |
| "step": 1270 | |
| }, | |
| { | |
| "epoch": 0.2886783942264321, | |
| "grad_norm": 3.046875, | |
| "learning_rate": 1.5736666666666668e-05, | |
| "loss": 0.4076, | |
| "step": 1280 | |
| }, | |
| { | |
| "epoch": 0.29093369418132614, | |
| "grad_norm": 3.125, | |
| "learning_rate": 1.5703333333333336e-05, | |
| "loss": 0.421, | |
| "step": 1290 | |
| }, | |
| { | |
| "epoch": 0.2931889941362201, | |
| "grad_norm": 3.5625, | |
| "learning_rate": 1.567e-05, | |
| "loss": 0.3982, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.2954442940911141, | |
| "grad_norm": 2.828125, | |
| "learning_rate": 1.563666666666667e-05, | |
| "loss": 0.4121, | |
| "step": 1310 | |
| }, | |
| { | |
| "epoch": 0.2976995940460081, | |
| "grad_norm": 3.0, | |
| "learning_rate": 1.5603333333333334e-05, | |
| "loss": 0.4032, | |
| "step": 1320 | |
| }, | |
| { | |
| "epoch": 0.29995489400090214, | |
| "grad_norm": 2.890625, | |
| "learning_rate": 1.5570000000000002e-05, | |
| "loss": 0.423, | |
| "step": 1330 | |
| }, | |
| { | |
| "epoch": 0.3022101939557961, | |
| "grad_norm": 2.875, | |
| "learning_rate": 1.553666666666667e-05, | |
| "loss": 0.4193, | |
| "step": 1340 | |
| }, | |
| { | |
| "epoch": 0.3044654939106901, | |
| "grad_norm": 3.09375, | |
| "learning_rate": 1.5503333333333335e-05, | |
| "loss": 0.3834, | |
| "step": 1350 | |
| }, | |
| { | |
| "epoch": 0.3067207938655841, | |
| "grad_norm": 3.46875, | |
| "learning_rate": 1.547e-05, | |
| "loss": 0.4204, | |
| "step": 1360 | |
| }, | |
| { | |
| "epoch": 0.30897609382047814, | |
| "grad_norm": 2.65625, | |
| "learning_rate": 1.5436666666666667e-05, | |
| "loss": 0.4036, | |
| "step": 1370 | |
| }, | |
| { | |
| "epoch": 0.3112313937753721, | |
| "grad_norm": 2.8125, | |
| "learning_rate": 1.5403333333333335e-05, | |
| "loss": 0.3845, | |
| "step": 1380 | |
| }, | |
| { | |
| "epoch": 0.3134866937302661, | |
| "grad_norm": 3.234375, | |
| "learning_rate": 1.537e-05, | |
| "loss": 0.3615, | |
| "step": 1390 | |
| }, | |
| { | |
| "epoch": 0.31574199368516015, | |
| "grad_norm": 2.6875, | |
| "learning_rate": 1.533666666666667e-05, | |
| "loss": 0.3754, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.31799729364005414, | |
| "grad_norm": 3.15625, | |
| "learning_rate": 1.5303333333333333e-05, | |
| "loss": 0.3984, | |
| "step": 1410 | |
| }, | |
| { | |
| "epoch": 0.3202525935949481, | |
| "grad_norm": 3.515625, | |
| "learning_rate": 1.527e-05, | |
| "loss": 0.4009, | |
| "step": 1420 | |
| }, | |
| { | |
| "epoch": 0.3225078935498421, | |
| "grad_norm": 3.171875, | |
| "learning_rate": 1.523666666666667e-05, | |
| "loss": 0.3939, | |
| "step": 1430 | |
| }, | |
| { | |
| "epoch": 0.32476319350473615, | |
| "grad_norm": 3.34375, | |
| "learning_rate": 1.5203333333333334e-05, | |
| "loss": 0.3621, | |
| "step": 1440 | |
| }, | |
| { | |
| "epoch": 0.32701849345963013, | |
| "grad_norm": 3.71875, | |
| "learning_rate": 1.517e-05, | |
| "loss": 0.3901, | |
| "step": 1450 | |
| }, | |
| { | |
| "epoch": 0.3292737934145241, | |
| "grad_norm": 3.015625, | |
| "learning_rate": 1.5136666666666669e-05, | |
| "loss": 0.3602, | |
| "step": 1460 | |
| }, | |
| { | |
| "epoch": 0.33152909336941816, | |
| "grad_norm": 2.75, | |
| "learning_rate": 1.5103333333333335e-05, | |
| "loss": 0.3793, | |
| "step": 1470 | |
| }, | |
| { | |
| "epoch": 0.33378439332431215, | |
| "grad_norm": 3.140625, | |
| "learning_rate": 1.507e-05, | |
| "loss": 0.3698, | |
| "step": 1480 | |
| }, | |
| { | |
| "epoch": 0.33603969327920613, | |
| "grad_norm": 3.03125, | |
| "learning_rate": 1.5036666666666668e-05, | |
| "loss": 0.3785, | |
| "step": 1490 | |
| }, | |
| { | |
| "epoch": 0.3382949932341001, | |
| "grad_norm": 3.265625, | |
| "learning_rate": 1.5003333333333334e-05, | |
| "loss": 0.378, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.34055029318899416, | |
| "grad_norm": 3.515625, | |
| "learning_rate": 1.4970000000000002e-05, | |
| "loss": 0.3588, | |
| "step": 1510 | |
| }, | |
| { | |
| "epoch": 0.34280559314388814, | |
| "grad_norm": 3.125, | |
| "learning_rate": 1.4936666666666669e-05, | |
| "loss": 0.3602, | |
| "step": 1520 | |
| }, | |
| { | |
| "epoch": 0.34506089309878213, | |
| "grad_norm": 3.40625, | |
| "learning_rate": 1.4903333333333334e-05, | |
| "loss": 0.3342, | |
| "step": 1530 | |
| }, | |
| { | |
| "epoch": 0.3473161930536761, | |
| "grad_norm": 3.203125, | |
| "learning_rate": 1.4870000000000002e-05, | |
| "loss": 0.3603, | |
| "step": 1540 | |
| }, | |
| { | |
| "epoch": 0.34957149300857016, | |
| "grad_norm": 3.078125, | |
| "learning_rate": 1.4836666666666668e-05, | |
| "loss": 0.3346, | |
| "step": 1550 | |
| }, | |
| { | |
| "epoch": 0.35182679296346414, | |
| "grad_norm": 2.9375, | |
| "learning_rate": 1.4803333333333334e-05, | |
| "loss": 0.3419, | |
| "step": 1560 | |
| }, | |
| { | |
| "epoch": 0.3540820929183581, | |
| "grad_norm": 3.28125, | |
| "learning_rate": 1.4770000000000003e-05, | |
| "loss": 0.3459, | |
| "step": 1570 | |
| }, | |
| { | |
| "epoch": 0.35633739287325217, | |
| "grad_norm": 2.890625, | |
| "learning_rate": 1.4736666666666667e-05, | |
| "loss": 0.3671, | |
| "step": 1580 | |
| }, | |
| { | |
| "epoch": 0.35859269282814615, | |
| "grad_norm": 3.328125, | |
| "learning_rate": 1.4703333333333334e-05, | |
| "loss": 0.3479, | |
| "step": 1590 | |
| }, | |
| { | |
| "epoch": 0.36084799278304014, | |
| "grad_norm": 3.125, | |
| "learning_rate": 1.4670000000000002e-05, | |
| "loss": 0.3564, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.3631032927379341, | |
| "grad_norm": 3.171875, | |
| "learning_rate": 1.4636666666666668e-05, | |
| "loss": 0.3432, | |
| "step": 1610 | |
| }, | |
| { | |
| "epoch": 0.36535859269282817, | |
| "grad_norm": 3.15625, | |
| "learning_rate": 1.4603333333333333e-05, | |
| "loss": 0.3485, | |
| "step": 1620 | |
| }, | |
| { | |
| "epoch": 0.36761389264772215, | |
| "grad_norm": 3.265625, | |
| "learning_rate": 1.4570000000000001e-05, | |
| "loss": 0.3608, | |
| "step": 1630 | |
| }, | |
| { | |
| "epoch": 0.36986919260261614, | |
| "grad_norm": 3.0625, | |
| "learning_rate": 1.4536666666666668e-05, | |
| "loss": 0.3593, | |
| "step": 1640 | |
| }, | |
| { | |
| "epoch": 0.3721244925575101, | |
| "grad_norm": 3.0, | |
| "learning_rate": 1.4503333333333334e-05, | |
| "loss": 0.3225, | |
| "step": 1650 | |
| }, | |
| { | |
| "epoch": 0.37437979251240416, | |
| "grad_norm": 3.078125, | |
| "learning_rate": 1.4470000000000002e-05, | |
| "loss": 0.3608, | |
| "step": 1660 | |
| }, | |
| { | |
| "epoch": 0.37663509246729815, | |
| "grad_norm": 3.046875, | |
| "learning_rate": 1.4436666666666668e-05, | |
| "loss": 0.3625, | |
| "step": 1670 | |
| }, | |
| { | |
| "epoch": 0.37889039242219213, | |
| "grad_norm": 3.25, | |
| "learning_rate": 1.4403333333333333e-05, | |
| "loss": 0.342, | |
| "step": 1680 | |
| }, | |
| { | |
| "epoch": 0.3811456923770862, | |
| "grad_norm": 3.453125, | |
| "learning_rate": 1.4370000000000001e-05, | |
| "loss": 0.3633, | |
| "step": 1690 | |
| }, | |
| { | |
| "epoch": 0.38340099233198016, | |
| "grad_norm": 3.21875, | |
| "learning_rate": 1.4336666666666668e-05, | |
| "loss": 0.3485, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 0.38565629228687415, | |
| "grad_norm": 4.0, | |
| "learning_rate": 1.4303333333333334e-05, | |
| "loss": 0.3415, | |
| "step": 1710 | |
| }, | |
| { | |
| "epoch": 0.38791159224176813, | |
| "grad_norm": 3.609375, | |
| "learning_rate": 1.4270000000000002e-05, | |
| "loss": 0.3303, | |
| "step": 1720 | |
| }, | |
| { | |
| "epoch": 0.3901668921966622, | |
| "grad_norm": 3.71875, | |
| "learning_rate": 1.4236666666666667e-05, | |
| "loss": 0.3049, | |
| "step": 1730 | |
| }, | |
| { | |
| "epoch": 0.39242219215155616, | |
| "grad_norm": 2.828125, | |
| "learning_rate": 1.4203333333333333e-05, | |
| "loss": 0.3412, | |
| "step": 1740 | |
| }, | |
| { | |
| "epoch": 0.39467749210645015, | |
| "grad_norm": 3.125, | |
| "learning_rate": 1.4170000000000002e-05, | |
| "loss": 0.3199, | |
| "step": 1750 | |
| }, | |
| { | |
| "epoch": 0.3969327920613442, | |
| "grad_norm": 4.5, | |
| "learning_rate": 1.4136666666666668e-05, | |
| "loss": 0.3247, | |
| "step": 1760 | |
| }, | |
| { | |
| "epoch": 0.39918809201623817, | |
| "grad_norm": 3.671875, | |
| "learning_rate": 1.4103333333333336e-05, | |
| "loss": 0.3338, | |
| "step": 1770 | |
| }, | |
| { | |
| "epoch": 0.40144339197113216, | |
| "grad_norm": 3.234375, | |
| "learning_rate": 1.407e-05, | |
| "loss": 0.3122, | |
| "step": 1780 | |
| }, | |
| { | |
| "epoch": 0.40369869192602614, | |
| "grad_norm": 3.71875, | |
| "learning_rate": 1.4036666666666667e-05, | |
| "loss": 0.3121, | |
| "step": 1790 | |
| }, | |
| { | |
| "epoch": 0.4059539918809202, | |
| "grad_norm": 3.03125, | |
| "learning_rate": 1.4003333333333335e-05, | |
| "loss": 0.3229, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 0.40820929183581417, | |
| "grad_norm": 3.390625, | |
| "learning_rate": 1.3970000000000002e-05, | |
| "loss": 0.2885, | |
| "step": 1810 | |
| }, | |
| { | |
| "epoch": 0.41046459179070816, | |
| "grad_norm": 3.125, | |
| "learning_rate": 1.3936666666666666e-05, | |
| "loss": 0.2934, | |
| "step": 1820 | |
| }, | |
| { | |
| "epoch": 0.41271989174560214, | |
| "grad_norm": 3.234375, | |
| "learning_rate": 1.3903333333333335e-05, | |
| "loss": 0.2783, | |
| "step": 1830 | |
| }, | |
| { | |
| "epoch": 0.4149751917004962, | |
| "grad_norm": 3.921875, | |
| "learning_rate": 1.3870000000000001e-05, | |
| "loss": 0.3128, | |
| "step": 1840 | |
| }, | |
| { | |
| "epoch": 0.41723049165539017, | |
| "grad_norm": 3.078125, | |
| "learning_rate": 1.3836666666666667e-05, | |
| "loss": 0.3074, | |
| "step": 1850 | |
| }, | |
| { | |
| "epoch": 0.41948579161028415, | |
| "grad_norm": 3.40625, | |
| "learning_rate": 1.3803333333333336e-05, | |
| "loss": 0.2985, | |
| "step": 1860 | |
| }, | |
| { | |
| "epoch": 0.4217410915651782, | |
| "grad_norm": 3.40625, | |
| "learning_rate": 1.377e-05, | |
| "loss": 0.2824, | |
| "step": 1870 | |
| }, | |
| { | |
| "epoch": 0.4239963915200722, | |
| "grad_norm": 3.453125, | |
| "learning_rate": 1.3736666666666667e-05, | |
| "loss": 0.2961, | |
| "step": 1880 | |
| }, | |
| { | |
| "epoch": 0.42625169147496617, | |
| "grad_norm": 3.5, | |
| "learning_rate": 1.3703333333333335e-05, | |
| "loss": 0.2968, | |
| "step": 1890 | |
| }, | |
| { | |
| "epoch": 0.42850699142986015, | |
| "grad_norm": 4.09375, | |
| "learning_rate": 1.3670000000000001e-05, | |
| "loss": 0.3198, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 0.4307622913847542, | |
| "grad_norm": 3.296875, | |
| "learning_rate": 1.3636666666666668e-05, | |
| "loss": 0.2763, | |
| "step": 1910 | |
| }, | |
| { | |
| "epoch": 0.4330175913396482, | |
| "grad_norm": 3.40625, | |
| "learning_rate": 1.3603333333333336e-05, | |
| "loss": 0.2945, | |
| "step": 1920 | |
| }, | |
| { | |
| "epoch": 0.43527289129454216, | |
| "grad_norm": 3.140625, | |
| "learning_rate": 1.357e-05, | |
| "loss": 0.3013, | |
| "step": 1930 | |
| }, | |
| { | |
| "epoch": 0.43752819124943615, | |
| "grad_norm": 3.453125, | |
| "learning_rate": 1.3536666666666667e-05, | |
| "loss": 0.2897, | |
| "step": 1940 | |
| }, | |
| { | |
| "epoch": 0.4397834912043302, | |
| "grad_norm": 3.203125, | |
| "learning_rate": 1.3503333333333335e-05, | |
| "loss": 0.2591, | |
| "step": 1950 | |
| }, | |
| { | |
| "epoch": 0.4420387911592242, | |
| "grad_norm": 3.15625, | |
| "learning_rate": 1.3470000000000001e-05, | |
| "loss": 0.3079, | |
| "step": 1960 | |
| }, | |
| { | |
| "epoch": 0.44429409111411816, | |
| "grad_norm": 3.65625, | |
| "learning_rate": 1.3436666666666666e-05, | |
| "loss": 0.2955, | |
| "step": 1970 | |
| }, | |
| { | |
| "epoch": 0.4465493910690122, | |
| "grad_norm": 3.1875, | |
| "learning_rate": 1.3403333333333334e-05, | |
| "loss": 0.2737, | |
| "step": 1980 | |
| }, | |
| { | |
| "epoch": 0.4488046910239062, | |
| "grad_norm": 3.546875, | |
| "learning_rate": 1.337e-05, | |
| "loss": 0.2929, | |
| "step": 1990 | |
| }, | |
| { | |
| "epoch": 0.4510599909788002, | |
| "grad_norm": 2.828125, | |
| "learning_rate": 1.3336666666666667e-05, | |
| "loss": 0.2924, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.45331529093369416, | |
| "grad_norm": 4.3125, | |
| "learning_rate": 1.3303333333333335e-05, | |
| "loss": 0.2744, | |
| "step": 2010 | |
| }, | |
| { | |
| "epoch": 0.4555705908885882, | |
| "grad_norm": 3.15625, | |
| "learning_rate": 1.327e-05, | |
| "loss": 0.275, | |
| "step": 2020 | |
| }, | |
| { | |
| "epoch": 0.4578258908434822, | |
| "grad_norm": 3.578125, | |
| "learning_rate": 1.3236666666666668e-05, | |
| "loss": 0.2695, | |
| "step": 2030 | |
| }, | |
| { | |
| "epoch": 0.46008119079837617, | |
| "grad_norm": 3.421875, | |
| "learning_rate": 1.3203333333333335e-05, | |
| "loss": 0.2761, | |
| "step": 2040 | |
| }, | |
| { | |
| "epoch": 0.46233649075327016, | |
| "grad_norm": 3.375, | |
| "learning_rate": 1.3170000000000001e-05, | |
| "loss": 0.2953, | |
| "step": 2050 | |
| }, | |
| { | |
| "epoch": 0.4645917907081642, | |
| "grad_norm": 3.8125, | |
| "learning_rate": 1.3136666666666669e-05, | |
| "loss": 0.2901, | |
| "step": 2060 | |
| }, | |
| { | |
| "epoch": 0.4668470906630582, | |
| "grad_norm": 3.359375, | |
| "learning_rate": 1.3103333333333334e-05, | |
| "loss": 0.2906, | |
| "step": 2070 | |
| }, | |
| { | |
| "epoch": 0.46910239061795217, | |
| "grad_norm": 3.546875, | |
| "learning_rate": 1.307e-05, | |
| "loss": 0.2747, | |
| "step": 2080 | |
| }, | |
| { | |
| "epoch": 0.4713576905728462, | |
| "grad_norm": 3.59375, | |
| "learning_rate": 1.3036666666666668e-05, | |
| "loss": 0.2728, | |
| "step": 2090 | |
| }, | |
| { | |
| "epoch": 0.4736129905277402, | |
| "grad_norm": 3.0, | |
| "learning_rate": 1.3003333333333335e-05, | |
| "loss": 0.2464, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 0.4758682904826342, | |
| "grad_norm": 4.15625, | |
| "learning_rate": 1.2970000000000001e-05, | |
| "loss": 0.2853, | |
| "step": 2110 | |
| }, | |
| { | |
| "epoch": 0.47812359043752817, | |
| "grad_norm": 3.078125, | |
| "learning_rate": 1.293666666666667e-05, | |
| "loss": 0.2751, | |
| "step": 2120 | |
| }, | |
| { | |
| "epoch": 0.4803788903924222, | |
| "grad_norm": 3.109375, | |
| "learning_rate": 1.2903333333333334e-05, | |
| "loss": 0.2579, | |
| "step": 2130 | |
| }, | |
| { | |
| "epoch": 0.4826341903473162, | |
| "grad_norm": 3.109375, | |
| "learning_rate": 1.287e-05, | |
| "loss": 0.2758, | |
| "step": 2140 | |
| }, | |
| { | |
| "epoch": 0.4848894903022102, | |
| "grad_norm": 4.5, | |
| "learning_rate": 1.2836666666666669e-05, | |
| "loss": 0.2691, | |
| "step": 2150 | |
| }, | |
| { | |
| "epoch": 0.4871447902571042, | |
| "grad_norm": 3.90625, | |
| "learning_rate": 1.2803333333333335e-05, | |
| "loss": 0.2439, | |
| "step": 2160 | |
| }, | |
| { | |
| "epoch": 0.4894000902119982, | |
| "grad_norm": 3.59375, | |
| "learning_rate": 1.277e-05, | |
| "loss": 0.2501, | |
| "step": 2170 | |
| }, | |
| { | |
| "epoch": 0.4916553901668922, | |
| "grad_norm": 2.953125, | |
| "learning_rate": 1.2736666666666668e-05, | |
| "loss": 0.2561, | |
| "step": 2180 | |
| }, | |
| { | |
| "epoch": 0.4939106901217862, | |
| "grad_norm": 3.296875, | |
| "learning_rate": 1.2703333333333334e-05, | |
| "loss": 0.2318, | |
| "step": 2190 | |
| }, | |
| { | |
| "epoch": 0.4961659900766802, | |
| "grad_norm": 3.328125, | |
| "learning_rate": 1.267e-05, | |
| "loss": 0.2397, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 0.4984212900315742, | |
| "grad_norm": 3.6875, | |
| "learning_rate": 1.2636666666666669e-05, | |
| "loss": 0.2504, | |
| "step": 2210 | |
| }, | |
| { | |
| "epoch": 0.5006765899864682, | |
| "grad_norm": 3.6875, | |
| "learning_rate": 1.2603333333333334e-05, | |
| "loss": 0.257, | |
| "step": 2220 | |
| }, | |
| { | |
| "epoch": 0.5029318899413622, | |
| "grad_norm": 3.34375, | |
| "learning_rate": 1.257e-05, | |
| "loss": 0.2578, | |
| "step": 2230 | |
| }, | |
| { | |
| "epoch": 0.5051871898962562, | |
| "grad_norm": 3.578125, | |
| "learning_rate": 1.2536666666666668e-05, | |
| "loss": 0.2626, | |
| "step": 2240 | |
| }, | |
| { | |
| "epoch": 0.5074424898511503, | |
| "grad_norm": 3.609375, | |
| "learning_rate": 1.2503333333333334e-05, | |
| "loss": 0.2523, | |
| "step": 2250 | |
| }, | |
| { | |
| "epoch": 0.5096977898060442, | |
| "grad_norm": 3.28125, | |
| "learning_rate": 1.2470000000000003e-05, | |
| "loss": 0.2452, | |
| "step": 2260 | |
| }, | |
| { | |
| "epoch": 0.5119530897609382, | |
| "grad_norm": 5.125, | |
| "learning_rate": 1.2436666666666667e-05, | |
| "loss": 0.2278, | |
| "step": 2270 | |
| }, | |
| { | |
| "epoch": 0.5142083897158322, | |
| "grad_norm": 3.46875, | |
| "learning_rate": 1.2403333333333334e-05, | |
| "loss": 0.235, | |
| "step": 2280 | |
| }, | |
| { | |
| "epoch": 0.5164636896707262, | |
| "grad_norm": 3.78125, | |
| "learning_rate": 1.2370000000000002e-05, | |
| "loss": 0.2427, | |
| "step": 2290 | |
| }, | |
| { | |
| "epoch": 0.5187189896256202, | |
| "grad_norm": 3.328125, | |
| "learning_rate": 1.2336666666666668e-05, | |
| "loss": 0.2522, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 0.5209742895805142, | |
| "grad_norm": 3.296875, | |
| "learning_rate": 1.2303333333333333e-05, | |
| "loss": 0.2325, | |
| "step": 2310 | |
| }, | |
| { | |
| "epoch": 0.5232295895354082, | |
| "grad_norm": 3.21875, | |
| "learning_rate": 1.2270000000000001e-05, | |
| "loss": 0.2595, | |
| "step": 2320 | |
| }, | |
| { | |
| "epoch": 0.5254848894903023, | |
| "grad_norm": 3.3125, | |
| "learning_rate": 1.2236666666666668e-05, | |
| "loss": 0.2683, | |
| "step": 2330 | |
| }, | |
| { | |
| "epoch": 0.5277401894451962, | |
| "grad_norm": 3.515625, | |
| "learning_rate": 1.2203333333333334e-05, | |
| "loss": 0.2327, | |
| "step": 2340 | |
| }, | |
| { | |
| "epoch": 0.5299954894000902, | |
| "grad_norm": 3.359375, | |
| "learning_rate": 1.2170000000000002e-05, | |
| "loss": 0.2305, | |
| "step": 2350 | |
| }, | |
| { | |
| "epoch": 0.5322507893549843, | |
| "grad_norm": 4.03125, | |
| "learning_rate": 1.2136666666666668e-05, | |
| "loss": 0.24, | |
| "step": 2360 | |
| }, | |
| { | |
| "epoch": 0.5345060893098782, | |
| "grad_norm": 3.171875, | |
| "learning_rate": 1.2103333333333333e-05, | |
| "loss": 0.2226, | |
| "step": 2370 | |
| }, | |
| { | |
| "epoch": 0.5367613892647722, | |
| "grad_norm": 3.046875, | |
| "learning_rate": 1.2070000000000001e-05, | |
| "loss": 0.2288, | |
| "step": 2380 | |
| }, | |
| { | |
| "epoch": 0.5390166892196662, | |
| "grad_norm": 3.46875, | |
| "learning_rate": 1.2036666666666668e-05, | |
| "loss": 0.2564, | |
| "step": 2390 | |
| }, | |
| { | |
| "epoch": 0.5412719891745602, | |
| "grad_norm": 3.703125, | |
| "learning_rate": 1.2003333333333334e-05, | |
| "loss": 0.2115, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 0.5435272891294542, | |
| "grad_norm": 3.46875, | |
| "learning_rate": 1.1970000000000002e-05, | |
| "loss": 0.2255, | |
| "step": 2410 | |
| }, | |
| { | |
| "epoch": 0.5457825890843482, | |
| "grad_norm": 3.765625, | |
| "learning_rate": 1.1936666666666667e-05, | |
| "loss": 0.2214, | |
| "step": 2420 | |
| }, | |
| { | |
| "epoch": 0.5480378890392422, | |
| "grad_norm": 3.9375, | |
| "learning_rate": 1.1903333333333333e-05, | |
| "loss": 0.2212, | |
| "step": 2430 | |
| }, | |
| { | |
| "epoch": 0.5502931889941363, | |
| "grad_norm": 3.796875, | |
| "learning_rate": 1.1870000000000002e-05, | |
| "loss": 0.2266, | |
| "step": 2440 | |
| }, | |
| { | |
| "epoch": 0.5525484889490302, | |
| "grad_norm": 3.203125, | |
| "learning_rate": 1.1836666666666668e-05, | |
| "loss": 0.2291, | |
| "step": 2450 | |
| }, | |
| { | |
| "epoch": 0.5548037889039242, | |
| "grad_norm": 4.6875, | |
| "learning_rate": 1.1803333333333333e-05, | |
| "loss": 0.212, | |
| "step": 2460 | |
| }, | |
| { | |
| "epoch": 0.5570590888588183, | |
| "grad_norm": 2.953125, | |
| "learning_rate": 1.177e-05, | |
| "loss": 0.2133, | |
| "step": 2470 | |
| }, | |
| { | |
| "epoch": 0.5593143888137122, | |
| "grad_norm": 4.1875, | |
| "learning_rate": 1.1736666666666667e-05, | |
| "loss": 0.2606, | |
| "step": 2480 | |
| }, | |
| { | |
| "epoch": 0.5615696887686062, | |
| "grad_norm": 3.53125, | |
| "learning_rate": 1.1703333333333334e-05, | |
| "loss": 0.2446, | |
| "step": 2490 | |
| }, | |
| { | |
| "epoch": 0.5638249887235002, | |
| "grad_norm": 3.546875, | |
| "learning_rate": 1.1670000000000002e-05, | |
| "loss": 0.2264, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.5660802886783942, | |
| "grad_norm": 3.921875, | |
| "learning_rate": 1.1636666666666666e-05, | |
| "loss": 0.2218, | |
| "step": 2510 | |
| }, | |
| { | |
| "epoch": 0.5683355886332883, | |
| "grad_norm": 3.015625, | |
| "learning_rate": 1.1603333333333335e-05, | |
| "loss": 0.196, | |
| "step": 2520 | |
| }, | |
| { | |
| "epoch": 0.5705908885881822, | |
| "grad_norm": 3.59375, | |
| "learning_rate": 1.1570000000000001e-05, | |
| "loss": 0.2327, | |
| "step": 2530 | |
| }, | |
| { | |
| "epoch": 0.5728461885430762, | |
| "grad_norm": 3.125, | |
| "learning_rate": 1.1536666666666667e-05, | |
| "loss": 0.2224, | |
| "step": 2540 | |
| }, | |
| { | |
| "epoch": 0.5751014884979703, | |
| "grad_norm": 3.765625, | |
| "learning_rate": 1.1503333333333336e-05, | |
| "loss": 0.2198, | |
| "step": 2550 | |
| }, | |
| { | |
| "epoch": 0.5773567884528642, | |
| "grad_norm": 3.28125, | |
| "learning_rate": 1.147e-05, | |
| "loss": 0.2146, | |
| "step": 2560 | |
| }, | |
| { | |
| "epoch": 0.5796120884077582, | |
| "grad_norm": 4.0625, | |
| "learning_rate": 1.1436666666666667e-05, | |
| "loss": 0.2217, | |
| "step": 2570 | |
| }, | |
| { | |
| "epoch": 0.5818673883626523, | |
| "grad_norm": 3.515625, | |
| "learning_rate": 1.1403333333333335e-05, | |
| "loss": 0.2039, | |
| "step": 2580 | |
| }, | |
| { | |
| "epoch": 0.5841226883175462, | |
| "grad_norm": 3.484375, | |
| "learning_rate": 1.1370000000000001e-05, | |
| "loss": 0.218, | |
| "step": 2590 | |
| }, | |
| { | |
| "epoch": 0.5863779882724403, | |
| "grad_norm": 3.921875, | |
| "learning_rate": 1.1336666666666668e-05, | |
| "loss": 0.2031, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 0.5886332882273342, | |
| "grad_norm": 3.796875, | |
| "learning_rate": 1.1303333333333336e-05, | |
| "loss": 0.1942, | |
| "step": 2610 | |
| }, | |
| { | |
| "epoch": 0.5908885881822282, | |
| "grad_norm": 4.03125, | |
| "learning_rate": 1.127e-05, | |
| "loss": 0.203, | |
| "step": 2620 | |
| }, | |
| { | |
| "epoch": 0.5931438881371223, | |
| "grad_norm": 3.25, | |
| "learning_rate": 1.1236666666666667e-05, | |
| "loss": 0.2204, | |
| "step": 2630 | |
| }, | |
| { | |
| "epoch": 0.5953991880920162, | |
| "grad_norm": 3.53125, | |
| "learning_rate": 1.1203333333333335e-05, | |
| "loss": 0.2046, | |
| "step": 2640 | |
| }, | |
| { | |
| "epoch": 0.5976544880469102, | |
| "grad_norm": 4.0, | |
| "learning_rate": 1.1170000000000001e-05, | |
| "loss": 0.2083, | |
| "step": 2650 | |
| }, | |
| { | |
| "epoch": 0.5999097880018043, | |
| "grad_norm": 4.15625, | |
| "learning_rate": 1.1136666666666666e-05, | |
| "loss": 0.2206, | |
| "step": 2660 | |
| }, | |
| { | |
| "epoch": 0.6021650879566982, | |
| "grad_norm": 4.0625, | |
| "learning_rate": 1.1103333333333334e-05, | |
| "loss": 0.2108, | |
| "step": 2670 | |
| }, | |
| { | |
| "epoch": 0.6044203879115922, | |
| "grad_norm": 3.90625, | |
| "learning_rate": 1.107e-05, | |
| "loss": 0.1931, | |
| "step": 2680 | |
| }, | |
| { | |
| "epoch": 0.6066756878664863, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 1.1036666666666667e-05, | |
| "loss": 0.1909, | |
| "step": 2690 | |
| }, | |
| { | |
| "epoch": 0.6089309878213802, | |
| "grad_norm": 3.328125, | |
| "learning_rate": 1.1003333333333335e-05, | |
| "loss": 0.1994, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 0.6111862877762743, | |
| "grad_norm": 3.0625, | |
| "learning_rate": 1.097e-05, | |
| "loss": 0.1967, | |
| "step": 2710 | |
| }, | |
| { | |
| "epoch": 0.6134415877311682, | |
| "grad_norm": 3.546875, | |
| "learning_rate": 1.0936666666666666e-05, | |
| "loss": 0.2082, | |
| "step": 2720 | |
| }, | |
| { | |
| "epoch": 0.6156968876860622, | |
| "grad_norm": 3.03125, | |
| "learning_rate": 1.0903333333333335e-05, | |
| "loss": 0.2245, | |
| "step": 2730 | |
| }, | |
| { | |
| "epoch": 0.6179521876409563, | |
| "grad_norm": 3.25, | |
| "learning_rate": 1.0870000000000001e-05, | |
| "loss": 0.1893, | |
| "step": 2740 | |
| }, | |
| { | |
| "epoch": 0.6202074875958502, | |
| "grad_norm": 3.671875, | |
| "learning_rate": 1.0836666666666666e-05, | |
| "loss": 0.2133, | |
| "step": 2750 | |
| }, | |
| { | |
| "epoch": 0.6224627875507442, | |
| "grad_norm": 3.625, | |
| "learning_rate": 1.0803333333333334e-05, | |
| "loss": 0.1912, | |
| "step": 2760 | |
| }, | |
| { | |
| "epoch": 0.6247180875056383, | |
| "grad_norm": 3.609375, | |
| "learning_rate": 1.077e-05, | |
| "loss": 0.1967, | |
| "step": 2770 | |
| }, | |
| { | |
| "epoch": 0.6269733874605322, | |
| "grad_norm": 3.1875, | |
| "learning_rate": 1.0736666666666668e-05, | |
| "loss": 0.1858, | |
| "step": 2780 | |
| }, | |
| { | |
| "epoch": 0.6292286874154263, | |
| "grad_norm": 3.546875, | |
| "learning_rate": 1.0703333333333335e-05, | |
| "loss": 0.1995, | |
| "step": 2790 | |
| }, | |
| { | |
| "epoch": 0.6314839873703203, | |
| "grad_norm": 4.875, | |
| "learning_rate": 1.0670000000000001e-05, | |
| "loss": 0.1911, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 0.6337392873252142, | |
| "grad_norm": 4.3125, | |
| "learning_rate": 1.063666666666667e-05, | |
| "loss": 0.1938, | |
| "step": 2810 | |
| }, | |
| { | |
| "epoch": 0.6359945872801083, | |
| "grad_norm": 4.625, | |
| "learning_rate": 1.0603333333333334e-05, | |
| "loss": 0.215, | |
| "step": 2820 | |
| }, | |
| { | |
| "epoch": 0.6382498872350022, | |
| "grad_norm": 2.78125, | |
| "learning_rate": 1.057e-05, | |
| "loss": 0.2065, | |
| "step": 2830 | |
| }, | |
| { | |
| "epoch": 0.6405051871898962, | |
| "grad_norm": 3.0625, | |
| "learning_rate": 1.0536666666666669e-05, | |
| "loss": 0.1796, | |
| "step": 2840 | |
| }, | |
| { | |
| "epoch": 0.6427604871447903, | |
| "grad_norm": 3.796875, | |
| "learning_rate": 1.0503333333333335e-05, | |
| "loss": 0.1766, | |
| "step": 2850 | |
| }, | |
| { | |
| "epoch": 0.6450157870996842, | |
| "grad_norm": 4.5, | |
| "learning_rate": 1.047e-05, | |
| "loss": 0.1652, | |
| "step": 2860 | |
| }, | |
| { | |
| "epoch": 0.6472710870545783, | |
| "grad_norm": 3.421875, | |
| "learning_rate": 1.0436666666666668e-05, | |
| "loss": 0.1858, | |
| "step": 2870 | |
| }, | |
| { | |
| "epoch": 0.6495263870094723, | |
| "grad_norm": 3.28125, | |
| "learning_rate": 1.0403333333333334e-05, | |
| "loss": 0.1756, | |
| "step": 2880 | |
| }, | |
| { | |
| "epoch": 0.6517816869643662, | |
| "grad_norm": 3.265625, | |
| "learning_rate": 1.037e-05, | |
| "loss": 0.176, | |
| "step": 2890 | |
| }, | |
| { | |
| "epoch": 0.6540369869192603, | |
| "grad_norm": 3.203125, | |
| "learning_rate": 1.0336666666666669e-05, | |
| "loss": 0.1903, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 0.6562922868741543, | |
| "grad_norm": 4.0, | |
| "learning_rate": 1.0303333333333334e-05, | |
| "loss": 0.1878, | |
| "step": 2910 | |
| }, | |
| { | |
| "epoch": 0.6585475868290482, | |
| "grad_norm": 4.21875, | |
| "learning_rate": 1.027e-05, | |
| "loss": 0.1806, | |
| "step": 2920 | |
| }, | |
| { | |
| "epoch": 0.6608028867839423, | |
| "grad_norm": 3.109375, | |
| "learning_rate": 1.0236666666666668e-05, | |
| "loss": 0.1777, | |
| "step": 2930 | |
| }, | |
| { | |
| "epoch": 0.6630581867388363, | |
| "grad_norm": 4.0625, | |
| "learning_rate": 1.0203333333333334e-05, | |
| "loss": 0.1851, | |
| "step": 2940 | |
| }, | |
| { | |
| "epoch": 0.6653134866937302, | |
| "grad_norm": 2.90625, | |
| "learning_rate": 1.017e-05, | |
| "loss": 0.1684, | |
| "step": 2950 | |
| }, | |
| { | |
| "epoch": 0.6675687866486243, | |
| "grad_norm": 3.625, | |
| "learning_rate": 1.0136666666666667e-05, | |
| "loss": 0.1687, | |
| "step": 2960 | |
| }, | |
| { | |
| "epoch": 0.6698240866035182, | |
| "grad_norm": 3.375, | |
| "learning_rate": 1.0103333333333334e-05, | |
| "loss": 0.1723, | |
| "step": 2970 | |
| }, | |
| { | |
| "epoch": 0.6720793865584123, | |
| "grad_norm": 2.96875, | |
| "learning_rate": 1.007e-05, | |
| "loss": 0.1795, | |
| "step": 2980 | |
| }, | |
| { | |
| "epoch": 0.6743346865133063, | |
| "grad_norm": 3.484375, | |
| "learning_rate": 1.0036666666666668e-05, | |
| "loss": 0.1718, | |
| "step": 2990 | |
| }, | |
| { | |
| "epoch": 0.6765899864682002, | |
| "grad_norm": 3.5625, | |
| "learning_rate": 1.0003333333333333e-05, | |
| "loss": 0.1691, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.6788452864230943, | |
| "grad_norm": 3.203125, | |
| "learning_rate": 9.970000000000001e-06, | |
| "loss": 0.1805, | |
| "step": 3010 | |
| }, | |
| { | |
| "epoch": 0.6811005863779883, | |
| "grad_norm": 2.78125, | |
| "learning_rate": 9.936666666666668e-06, | |
| "loss": 0.1844, | |
| "step": 3020 | |
| }, | |
| { | |
| "epoch": 0.6833558863328822, | |
| "grad_norm": 4.21875, | |
| "learning_rate": 9.903333333333334e-06, | |
| "loss": 0.1612, | |
| "step": 3030 | |
| }, | |
| { | |
| "epoch": 0.6856111862877763, | |
| "grad_norm": 3.140625, | |
| "learning_rate": 9.87e-06, | |
| "loss": 0.1719, | |
| "step": 3040 | |
| }, | |
| { | |
| "epoch": 0.6878664862426703, | |
| "grad_norm": 3.78125, | |
| "learning_rate": 9.836666666666668e-06, | |
| "loss": 0.1639, | |
| "step": 3050 | |
| }, | |
| { | |
| "epoch": 0.6901217861975643, | |
| "grad_norm": 3.59375, | |
| "learning_rate": 9.803333333333333e-06, | |
| "loss": 0.1555, | |
| "step": 3060 | |
| }, | |
| { | |
| "epoch": 0.6923770861524583, | |
| "grad_norm": 3.109375, | |
| "learning_rate": 9.770000000000001e-06, | |
| "loss": 0.1695, | |
| "step": 3070 | |
| }, | |
| { | |
| "epoch": 0.6946323861073522, | |
| "grad_norm": 3.203125, | |
| "learning_rate": 9.736666666666668e-06, | |
| "loss": 0.1684, | |
| "step": 3080 | |
| }, | |
| { | |
| "epoch": 0.6968876860622463, | |
| "grad_norm": 3.546875, | |
| "learning_rate": 9.703333333333334e-06, | |
| "loss": 0.1669, | |
| "step": 3090 | |
| }, | |
| { | |
| "epoch": 0.6991429860171403, | |
| "grad_norm": 3.6875, | |
| "learning_rate": 9.67e-06, | |
| "loss": 0.1789, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 0.7013982859720342, | |
| "grad_norm": 3.578125, | |
| "learning_rate": 9.636666666666667e-06, | |
| "loss": 0.1776, | |
| "step": 3110 | |
| }, | |
| { | |
| "epoch": 0.7036535859269283, | |
| "grad_norm": 3.125, | |
| "learning_rate": 9.603333333333335e-06, | |
| "loss": 0.1561, | |
| "step": 3120 | |
| }, | |
| { | |
| "epoch": 0.7059088858818223, | |
| "grad_norm": 3.125, | |
| "learning_rate": 9.57e-06, | |
| "loss": 0.1609, | |
| "step": 3130 | |
| }, | |
| { | |
| "epoch": 0.7081641858367163, | |
| "grad_norm": 3.75, | |
| "learning_rate": 9.536666666666668e-06, | |
| "loss": 0.1398, | |
| "step": 3140 | |
| }, | |
| { | |
| "epoch": 0.7104194857916103, | |
| "grad_norm": 3.3125, | |
| "learning_rate": 9.503333333333334e-06, | |
| "loss": 0.167, | |
| "step": 3150 | |
| }, | |
| { | |
| "epoch": 0.7126747857465043, | |
| "grad_norm": 3.75, | |
| "learning_rate": 9.47e-06, | |
| "loss": 0.1546, | |
| "step": 3160 | |
| }, | |
| { | |
| "epoch": 0.7149300857013983, | |
| "grad_norm": 3.546875, | |
| "learning_rate": 9.436666666666667e-06, | |
| "loss": 0.1555, | |
| "step": 3170 | |
| }, | |
| { | |
| "epoch": 0.7171853856562923, | |
| "grad_norm": 3.15625, | |
| "learning_rate": 9.403333333333334e-06, | |
| "loss": 0.1766, | |
| "step": 3180 | |
| }, | |
| { | |
| "epoch": 0.7194406856111862, | |
| "grad_norm": 3.390625, | |
| "learning_rate": 9.370000000000002e-06, | |
| "loss": 0.1705, | |
| "step": 3190 | |
| }, | |
| { | |
| "epoch": 0.7216959855660803, | |
| "grad_norm": 3.671875, | |
| "learning_rate": 9.336666666666666e-06, | |
| "loss": 0.1784, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 0.7239512855209743, | |
| "grad_norm": 3.125, | |
| "learning_rate": 9.303333333333335e-06, | |
| "loss": 0.1705, | |
| "step": 3210 | |
| }, | |
| { | |
| "epoch": 0.7262065854758682, | |
| "grad_norm": 3.28125, | |
| "learning_rate": 9.270000000000001e-06, | |
| "loss": 0.1562, | |
| "step": 3220 | |
| }, | |
| { | |
| "epoch": 0.7284618854307623, | |
| "grad_norm": 2.96875, | |
| "learning_rate": 9.236666666666667e-06, | |
| "loss": 0.1421, | |
| "step": 3230 | |
| }, | |
| { | |
| "epoch": 0.7307171853856563, | |
| "grad_norm": 3.609375, | |
| "learning_rate": 9.203333333333334e-06, | |
| "loss": 0.1663, | |
| "step": 3240 | |
| }, | |
| { | |
| "epoch": 0.7329724853405503, | |
| "grad_norm": 2.84375, | |
| "learning_rate": 9.17e-06, | |
| "loss": 0.1729, | |
| "step": 3250 | |
| }, | |
| { | |
| "epoch": 0.7352277852954443, | |
| "grad_norm": 2.921875, | |
| "learning_rate": 9.136666666666667e-06, | |
| "loss": 0.1572, | |
| "step": 3260 | |
| }, | |
| { | |
| "epoch": 0.7374830852503383, | |
| "grad_norm": 2.75, | |
| "learning_rate": 9.103333333333335e-06, | |
| "loss": 0.1574, | |
| "step": 3270 | |
| }, | |
| { | |
| "epoch": 0.7397383852052323, | |
| "grad_norm": 4.0, | |
| "learning_rate": 9.070000000000001e-06, | |
| "loss": 0.158, | |
| "step": 3280 | |
| }, | |
| { | |
| "epoch": 0.7419936851601263, | |
| "grad_norm": 3.140625, | |
| "learning_rate": 9.036666666666668e-06, | |
| "loss": 0.1743, | |
| "step": 3290 | |
| }, | |
| { | |
| "epoch": 0.7442489851150202, | |
| "grad_norm": 3.125, | |
| "learning_rate": 9.003333333333334e-06, | |
| "loss": 0.1492, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 0.7465042850699143, | |
| "grad_norm": 3.578125, | |
| "learning_rate": 8.97e-06, | |
| "loss": 0.1544, | |
| "step": 3310 | |
| }, | |
| { | |
| "epoch": 0.7487595850248083, | |
| "grad_norm": 3.046875, | |
| "learning_rate": 8.936666666666669e-06, | |
| "loss": 0.154, | |
| "step": 3320 | |
| }, | |
| { | |
| "epoch": 0.7510148849797023, | |
| "grad_norm": 3.234375, | |
| "learning_rate": 8.903333333333333e-06, | |
| "loss": 0.1515, | |
| "step": 3330 | |
| }, | |
| { | |
| "epoch": 0.7532701849345963, | |
| "grad_norm": 3.234375, | |
| "learning_rate": 8.870000000000001e-06, | |
| "loss": 0.1601, | |
| "step": 3340 | |
| }, | |
| { | |
| "epoch": 0.7555254848894903, | |
| "grad_norm": 5.375, | |
| "learning_rate": 8.836666666666668e-06, | |
| "loss": 0.1541, | |
| "step": 3350 | |
| }, | |
| { | |
| "epoch": 0.7577807848443843, | |
| "grad_norm": 3.0, | |
| "learning_rate": 8.803333333333334e-06, | |
| "loss": 0.137, | |
| "step": 3360 | |
| }, | |
| { | |
| "epoch": 0.7600360847992783, | |
| "grad_norm": 4.3125, | |
| "learning_rate": 8.77e-06, | |
| "loss": 0.1518, | |
| "step": 3370 | |
| }, | |
| { | |
| "epoch": 0.7622913847541724, | |
| "grad_norm": 2.96875, | |
| "learning_rate": 8.736666666666667e-06, | |
| "loss": 0.1557, | |
| "step": 3380 | |
| }, | |
| { | |
| "epoch": 0.7645466847090663, | |
| "grad_norm": 3.171875, | |
| "learning_rate": 8.703333333333334e-06, | |
| "loss": 0.1459, | |
| "step": 3390 | |
| }, | |
| { | |
| "epoch": 0.7668019846639603, | |
| "grad_norm": 3.390625, | |
| "learning_rate": 8.67e-06, | |
| "loss": 0.1457, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 0.7690572846188543, | |
| "grad_norm": 2.828125, | |
| "learning_rate": 8.636666666666668e-06, | |
| "loss": 0.1437, | |
| "step": 3410 | |
| }, | |
| { | |
| "epoch": 0.7713125845737483, | |
| "grad_norm": 3.53125, | |
| "learning_rate": 8.603333333333333e-06, | |
| "loss": 0.1575, | |
| "step": 3420 | |
| }, | |
| { | |
| "epoch": 0.7735678845286423, | |
| "grad_norm": 2.765625, | |
| "learning_rate": 8.570000000000001e-06, | |
| "loss": 0.1405, | |
| "step": 3430 | |
| }, | |
| { | |
| "epoch": 0.7758231844835363, | |
| "grad_norm": 2.46875, | |
| "learning_rate": 8.536666666666667e-06, | |
| "loss": 0.1479, | |
| "step": 3440 | |
| }, | |
| { | |
| "epoch": 0.7780784844384303, | |
| "grad_norm": 3.140625, | |
| "learning_rate": 8.503333333333334e-06, | |
| "loss": 0.1513, | |
| "step": 3450 | |
| }, | |
| { | |
| "epoch": 0.7803337843933243, | |
| "grad_norm": 3.3125, | |
| "learning_rate": 8.47e-06, | |
| "loss": 0.1437, | |
| "step": 3460 | |
| }, | |
| { | |
| "epoch": 0.7825890843482183, | |
| "grad_norm": 2.875, | |
| "learning_rate": 8.436666666666667e-06, | |
| "loss": 0.1434, | |
| "step": 3470 | |
| }, | |
| { | |
| "epoch": 0.7848443843031123, | |
| "grad_norm": 2.34375, | |
| "learning_rate": 8.403333333333335e-06, | |
| "loss": 0.1442, | |
| "step": 3480 | |
| }, | |
| { | |
| "epoch": 0.7870996842580064, | |
| "grad_norm": 3.578125, | |
| "learning_rate": 8.370000000000001e-06, | |
| "loss": 0.1449, | |
| "step": 3490 | |
| }, | |
| { | |
| "epoch": 0.7893549842129003, | |
| "grad_norm": 3.453125, | |
| "learning_rate": 8.336666666666668e-06, | |
| "loss": 0.151, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 0.7916102841677943, | |
| "grad_norm": 2.796875, | |
| "learning_rate": 8.303333333333334e-06, | |
| "loss": 0.1407, | |
| "step": 3510 | |
| }, | |
| { | |
| "epoch": 0.7938655841226884, | |
| "grad_norm": 3.015625, | |
| "learning_rate": 8.27e-06, | |
| "loss": 0.1566, | |
| "step": 3520 | |
| }, | |
| { | |
| "epoch": 0.7961208840775823, | |
| "grad_norm": 3.328125, | |
| "learning_rate": 8.236666666666667e-06, | |
| "loss": 0.1574, | |
| "step": 3530 | |
| }, | |
| { | |
| "epoch": 0.7983761840324763, | |
| "grad_norm": 2.78125, | |
| "learning_rate": 8.203333333333335e-06, | |
| "loss": 0.1434, | |
| "step": 3540 | |
| }, | |
| { | |
| "epoch": 0.8006314839873703, | |
| "grad_norm": 2.671875, | |
| "learning_rate": 8.17e-06, | |
| "loss": 0.1379, | |
| "step": 3550 | |
| }, | |
| { | |
| "epoch": 0.8028867839422643, | |
| "grad_norm": 2.984375, | |
| "learning_rate": 8.136666666666668e-06, | |
| "loss": 0.1685, | |
| "step": 3560 | |
| }, | |
| { | |
| "epoch": 0.8051420838971584, | |
| "grad_norm": 2.875, | |
| "learning_rate": 8.103333333333334e-06, | |
| "loss": 0.1564, | |
| "step": 3570 | |
| }, | |
| { | |
| "epoch": 0.8073973838520523, | |
| "grad_norm": 3.765625, | |
| "learning_rate": 8.07e-06, | |
| "loss": 0.1399, | |
| "step": 3580 | |
| }, | |
| { | |
| "epoch": 0.8096526838069463, | |
| "grad_norm": 3.71875, | |
| "learning_rate": 8.036666666666667e-06, | |
| "loss": 0.1422, | |
| "step": 3590 | |
| }, | |
| { | |
| "epoch": 0.8119079837618404, | |
| "grad_norm": 3.015625, | |
| "learning_rate": 8.003333333333334e-06, | |
| "loss": 0.1439, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 0.8141632837167343, | |
| "grad_norm": 3.3125, | |
| "learning_rate": 7.970000000000002e-06, | |
| "loss": 0.1473, | |
| "step": 3610 | |
| }, | |
| { | |
| "epoch": 0.8164185836716283, | |
| "grad_norm": 3.484375, | |
| "learning_rate": 7.936666666666666e-06, | |
| "loss": 0.1598, | |
| "step": 3620 | |
| }, | |
| { | |
| "epoch": 0.8186738836265224, | |
| "grad_norm": 3.671875, | |
| "learning_rate": 7.903333333333334e-06, | |
| "loss": 0.1431, | |
| "step": 3630 | |
| }, | |
| { | |
| "epoch": 0.8209291835814163, | |
| "grad_norm": 3.375, | |
| "learning_rate": 7.870000000000001e-06, | |
| "loss": 0.1338, | |
| "step": 3640 | |
| }, | |
| { | |
| "epoch": 0.8231844835363104, | |
| "grad_norm": 4.34375, | |
| "learning_rate": 7.836666666666667e-06, | |
| "loss": 0.1437, | |
| "step": 3650 | |
| }, | |
| { | |
| "epoch": 0.8254397834912043, | |
| "grad_norm": 4.5625, | |
| "learning_rate": 7.803333333333334e-06, | |
| "loss": 0.1383, | |
| "step": 3660 | |
| }, | |
| { | |
| "epoch": 0.8276950834460983, | |
| "grad_norm": 2.84375, | |
| "learning_rate": 7.77e-06, | |
| "loss": 0.1452, | |
| "step": 3670 | |
| }, | |
| { | |
| "epoch": 0.8299503834009924, | |
| "grad_norm": 3.6875, | |
| "learning_rate": 7.736666666666667e-06, | |
| "loss": 0.1566, | |
| "step": 3680 | |
| }, | |
| { | |
| "epoch": 0.8322056833558863, | |
| "grad_norm": 3.4375, | |
| "learning_rate": 7.703333333333333e-06, | |
| "loss": 0.1416, | |
| "step": 3690 | |
| }, | |
| { | |
| "epoch": 0.8344609833107803, | |
| "grad_norm": 3.21875, | |
| "learning_rate": 7.670000000000001e-06, | |
| "loss": 0.1296, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 0.8367162832656744, | |
| "grad_norm": 2.78125, | |
| "learning_rate": 7.636666666666668e-06, | |
| "loss": 0.1422, | |
| "step": 3710 | |
| }, | |
| { | |
| "epoch": 0.8389715832205683, | |
| "grad_norm": 3.765625, | |
| "learning_rate": 7.603333333333334e-06, | |
| "loss": 0.1448, | |
| "step": 3720 | |
| }, | |
| { | |
| "epoch": 0.8412268831754623, | |
| "grad_norm": 2.859375, | |
| "learning_rate": 7.57e-06, | |
| "loss": 0.135, | |
| "step": 3730 | |
| }, | |
| { | |
| "epoch": 0.8434821831303564, | |
| "grad_norm": 3.0, | |
| "learning_rate": 7.536666666666668e-06, | |
| "loss": 0.1428, | |
| "step": 3740 | |
| }, | |
| { | |
| "epoch": 0.8457374830852503, | |
| "grad_norm": 3.28125, | |
| "learning_rate": 7.503333333333333e-06, | |
| "loss": 0.138, | |
| "step": 3750 | |
| }, | |
| { | |
| "epoch": 0.8479927830401444, | |
| "grad_norm": 3.375, | |
| "learning_rate": 7.4700000000000005e-06, | |
| "loss": 0.125, | |
| "step": 3760 | |
| }, | |
| { | |
| "epoch": 0.8502480829950383, | |
| "grad_norm": 2.296875, | |
| "learning_rate": 7.436666666666668e-06, | |
| "loss": 0.1317, | |
| "step": 3770 | |
| }, | |
| { | |
| "epoch": 0.8525033829499323, | |
| "grad_norm": 3.296875, | |
| "learning_rate": 7.403333333333333e-06, | |
| "loss": 0.1258, | |
| "step": 3780 | |
| }, | |
| { | |
| "epoch": 0.8547586829048264, | |
| "grad_norm": 2.671875, | |
| "learning_rate": 7.370000000000001e-06, | |
| "loss": 0.1403, | |
| "step": 3790 | |
| }, | |
| { | |
| "epoch": 0.8570139828597203, | |
| "grad_norm": 4.03125, | |
| "learning_rate": 7.336666666666668e-06, | |
| "loss": 0.1466, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 0.8592692828146143, | |
| "grad_norm": 2.546875, | |
| "learning_rate": 7.3033333333333334e-06, | |
| "loss": 0.1262, | |
| "step": 3810 | |
| }, | |
| { | |
| "epoch": 0.8615245827695084, | |
| "grad_norm": 1.9921875, | |
| "learning_rate": 7.270000000000001e-06, | |
| "loss": 0.1427, | |
| "step": 3820 | |
| }, | |
| { | |
| "epoch": 0.8637798827244023, | |
| "grad_norm": 3.546875, | |
| "learning_rate": 7.236666666666667e-06, | |
| "loss": 0.1193, | |
| "step": 3830 | |
| }, | |
| { | |
| "epoch": 0.8660351826792964, | |
| "grad_norm": 4.1875, | |
| "learning_rate": 7.203333333333334e-06, | |
| "loss": 0.1337, | |
| "step": 3840 | |
| }, | |
| { | |
| "epoch": 0.8682904826341904, | |
| "grad_norm": 2.78125, | |
| "learning_rate": 7.17e-06, | |
| "loss": 0.1472, | |
| "step": 3850 | |
| }, | |
| { | |
| "epoch": 0.8705457825890843, | |
| "grad_norm": 2.75, | |
| "learning_rate": 7.136666666666667e-06, | |
| "loss": 0.1531, | |
| "step": 3860 | |
| }, | |
| { | |
| "epoch": 0.8728010825439784, | |
| "grad_norm": 2.296875, | |
| "learning_rate": 7.1033333333333345e-06, | |
| "loss": 0.1334, | |
| "step": 3870 | |
| }, | |
| { | |
| "epoch": 0.8750563824988723, | |
| "grad_norm": 2.765625, | |
| "learning_rate": 7.07e-06, | |
| "loss": 0.1339, | |
| "step": 3880 | |
| }, | |
| { | |
| "epoch": 0.8773116824537663, | |
| "grad_norm": 3.234375, | |
| "learning_rate": 7.036666666666667e-06, | |
| "loss": 0.1369, | |
| "step": 3890 | |
| }, | |
| { | |
| "epoch": 0.8795669824086604, | |
| "grad_norm": 3.765625, | |
| "learning_rate": 7.003333333333335e-06, | |
| "loss": 0.1214, | |
| "step": 3900 | |
| }, | |
| { | |
| "epoch": 0.8818222823635543, | |
| "grad_norm": 2.734375, | |
| "learning_rate": 6.97e-06, | |
| "loss": 0.1387, | |
| "step": 3910 | |
| }, | |
| { | |
| "epoch": 0.8840775823184484, | |
| "grad_norm": 3.125, | |
| "learning_rate": 6.9366666666666675e-06, | |
| "loss": 0.1469, | |
| "step": 3920 | |
| }, | |
| { | |
| "epoch": 0.8863328822733424, | |
| "grad_norm": 2.5, | |
| "learning_rate": 6.903333333333334e-06, | |
| "loss": 0.1432, | |
| "step": 3930 | |
| }, | |
| { | |
| "epoch": 0.8885881822282363, | |
| "grad_norm": 2.984375, | |
| "learning_rate": 6.870000000000001e-06, | |
| "loss": 0.1337, | |
| "step": 3940 | |
| }, | |
| { | |
| "epoch": 0.8908434821831304, | |
| "grad_norm": 2.6875, | |
| "learning_rate": 6.836666666666667e-06, | |
| "loss": 0.131, | |
| "step": 3950 | |
| }, | |
| { | |
| "epoch": 0.8930987821380244, | |
| "grad_norm": 2.78125, | |
| "learning_rate": 6.803333333333334e-06, | |
| "loss": 0.1385, | |
| "step": 3960 | |
| }, | |
| { | |
| "epoch": 0.8953540820929183, | |
| "grad_norm": 2.1875, | |
| "learning_rate": 6.770000000000001e-06, | |
| "loss": 0.1379, | |
| "step": 3970 | |
| }, | |
| { | |
| "epoch": 0.8976093820478124, | |
| "grad_norm": 2.640625, | |
| "learning_rate": 6.736666666666667e-06, | |
| "loss": 0.1307, | |
| "step": 3980 | |
| }, | |
| { | |
| "epoch": 0.8998646820027063, | |
| "grad_norm": 3.109375, | |
| "learning_rate": 6.703333333333334e-06, | |
| "loss": 0.1199, | |
| "step": 3990 | |
| }, | |
| { | |
| "epoch": 0.9021199819576003, | |
| "grad_norm": 3.109375, | |
| "learning_rate": 6.6700000000000005e-06, | |
| "loss": 0.1262, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 0.9043752819124944, | |
| "grad_norm": 3.453125, | |
| "learning_rate": 6.636666666666667e-06, | |
| "loss": 0.1275, | |
| "step": 4010 | |
| }, | |
| { | |
| "epoch": 0.9066305818673883, | |
| "grad_norm": 3.21875, | |
| "learning_rate": 6.603333333333334e-06, | |
| "loss": 0.1321, | |
| "step": 4020 | |
| }, | |
| { | |
| "epoch": 0.9088858818222824, | |
| "grad_norm": 2.71875, | |
| "learning_rate": 6.570000000000001e-06, | |
| "loss": 0.1275, | |
| "step": 4030 | |
| }, | |
| { | |
| "epoch": 0.9111411817771764, | |
| "grad_norm": 3.375, | |
| "learning_rate": 6.536666666666667e-06, | |
| "loss": 0.1068, | |
| "step": 4040 | |
| }, | |
| { | |
| "epoch": 0.9133964817320703, | |
| "grad_norm": 2.984375, | |
| "learning_rate": 6.5033333333333335e-06, | |
| "loss": 0.1214, | |
| "step": 4050 | |
| }, | |
| { | |
| "epoch": 0.9156517816869644, | |
| "grad_norm": 3.28125, | |
| "learning_rate": 6.470000000000001e-06, | |
| "loss": 0.1306, | |
| "step": 4060 | |
| }, | |
| { | |
| "epoch": 0.9179070816418584, | |
| "grad_norm": 3.40625, | |
| "learning_rate": 6.436666666666668e-06, | |
| "loss": 0.1331, | |
| "step": 4070 | |
| }, | |
| { | |
| "epoch": 0.9201623815967523, | |
| "grad_norm": 3.578125, | |
| "learning_rate": 6.403333333333334e-06, | |
| "loss": 0.1334, | |
| "step": 4080 | |
| }, | |
| { | |
| "epoch": 0.9224176815516464, | |
| "grad_norm": 2.40625, | |
| "learning_rate": 6.370000000000001e-06, | |
| "loss": 0.1352, | |
| "step": 4090 | |
| }, | |
| { | |
| "epoch": 0.9246729815065403, | |
| "grad_norm": 2.734375, | |
| "learning_rate": 6.336666666666667e-06, | |
| "loss": 0.1138, | |
| "step": 4100 | |
| }, | |
| { | |
| "epoch": 0.9269282814614344, | |
| "grad_norm": 2.984375, | |
| "learning_rate": 6.303333333333334e-06, | |
| "loss": 0.1163, | |
| "step": 4110 | |
| }, | |
| { | |
| "epoch": 0.9291835814163284, | |
| "grad_norm": 3.21875, | |
| "learning_rate": 6.27e-06, | |
| "loss": 0.1235, | |
| "step": 4120 | |
| }, | |
| { | |
| "epoch": 0.9314388813712223, | |
| "grad_norm": 3.40625, | |
| "learning_rate": 6.236666666666667e-06, | |
| "loss": 0.128, | |
| "step": 4130 | |
| }, | |
| { | |
| "epoch": 0.9336941813261164, | |
| "grad_norm": 2.828125, | |
| "learning_rate": 6.203333333333334e-06, | |
| "loss": 0.1254, | |
| "step": 4140 | |
| }, | |
| { | |
| "epoch": 0.9359494812810104, | |
| "grad_norm": 2.78125, | |
| "learning_rate": 6.17e-06, | |
| "loss": 0.1272, | |
| "step": 4150 | |
| }, | |
| { | |
| "epoch": 0.9382047812359043, | |
| "grad_norm": 2.390625, | |
| "learning_rate": 6.1366666666666675e-06, | |
| "loss": 0.1294, | |
| "step": 4160 | |
| }, | |
| { | |
| "epoch": 0.9404600811907984, | |
| "grad_norm": 2.515625, | |
| "learning_rate": 6.103333333333333e-06, | |
| "loss": 0.1231, | |
| "step": 4170 | |
| }, | |
| { | |
| "epoch": 0.9427153811456924, | |
| "grad_norm": 2.6875, | |
| "learning_rate": 6.07e-06, | |
| "loss": 0.1424, | |
| "step": 4180 | |
| }, | |
| { | |
| "epoch": 0.9449706811005864, | |
| "grad_norm": 2.71875, | |
| "learning_rate": 6.036666666666668e-06, | |
| "loss": 0.1214, | |
| "step": 4190 | |
| }, | |
| { | |
| "epoch": 0.9472259810554804, | |
| "grad_norm": 3.15625, | |
| "learning_rate": 6.003333333333334e-06, | |
| "loss": 0.1147, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 0.9494812810103744, | |
| "grad_norm": 2.546875, | |
| "learning_rate": 5.9700000000000004e-06, | |
| "loss": 0.1256, | |
| "step": 4210 | |
| }, | |
| { | |
| "epoch": 0.9517365809652684, | |
| "grad_norm": 2.796875, | |
| "learning_rate": 5.936666666666667e-06, | |
| "loss": 0.1232, | |
| "step": 4220 | |
| }, | |
| { | |
| "epoch": 0.9539918809201624, | |
| "grad_norm": 2.765625, | |
| "learning_rate": 5.903333333333334e-06, | |
| "loss": 0.1103, | |
| "step": 4230 | |
| }, | |
| { | |
| "epoch": 0.9562471808750563, | |
| "grad_norm": 4.09375, | |
| "learning_rate": 5.8700000000000005e-06, | |
| "loss": 0.1294, | |
| "step": 4240 | |
| }, | |
| { | |
| "epoch": 0.9585024808299504, | |
| "grad_norm": 2.46875, | |
| "learning_rate": 5.836666666666667e-06, | |
| "loss": 0.1243, | |
| "step": 4250 | |
| }, | |
| { | |
| "epoch": 0.9607577807848444, | |
| "grad_norm": 2.4375, | |
| "learning_rate": 5.803333333333334e-06, | |
| "loss": 0.1165, | |
| "step": 4260 | |
| }, | |
| { | |
| "epoch": 0.9630130807397383, | |
| "grad_norm": 3.4375, | |
| "learning_rate": 5.77e-06, | |
| "loss": 0.1192, | |
| "step": 4270 | |
| }, | |
| { | |
| "epoch": 0.9652683806946324, | |
| "grad_norm": 2.28125, | |
| "learning_rate": 5.736666666666667e-06, | |
| "loss": 0.1175, | |
| "step": 4280 | |
| }, | |
| { | |
| "epoch": 0.9675236806495264, | |
| "grad_norm": 2.328125, | |
| "learning_rate": 5.703333333333334e-06, | |
| "loss": 0.1214, | |
| "step": 4290 | |
| }, | |
| { | |
| "epoch": 0.9697789806044204, | |
| "grad_norm": 2.765625, | |
| "learning_rate": 5.67e-06, | |
| "loss": 0.1162, | |
| "step": 4300 | |
| }, | |
| { | |
| "epoch": 0.9720342805593144, | |
| "grad_norm": 2.765625, | |
| "learning_rate": 5.636666666666667e-06, | |
| "loss": 0.1221, | |
| "step": 4310 | |
| }, | |
| { | |
| "epoch": 0.9742895805142084, | |
| "grad_norm": 2.828125, | |
| "learning_rate": 5.603333333333334e-06, | |
| "loss": 0.1135, | |
| "step": 4320 | |
| }, | |
| { | |
| "epoch": 0.9765448804691024, | |
| "grad_norm": 2.40625, | |
| "learning_rate": 5.570000000000001e-06, | |
| "loss": 0.1137, | |
| "step": 4330 | |
| }, | |
| { | |
| "epoch": 0.9788001804239964, | |
| "grad_norm": 2.71875, | |
| "learning_rate": 5.5366666666666665e-06, | |
| "loss": 0.1209, | |
| "step": 4340 | |
| }, | |
| { | |
| "epoch": 0.9810554803788903, | |
| "grad_norm": 2.203125, | |
| "learning_rate": 5.503333333333334e-06, | |
| "loss": 0.1373, | |
| "step": 4350 | |
| }, | |
| { | |
| "epoch": 0.9833107803337844, | |
| "grad_norm": 2.640625, | |
| "learning_rate": 5.470000000000001e-06, | |
| "loss": 0.1196, | |
| "step": 4360 | |
| }, | |
| { | |
| "epoch": 0.9855660802886784, | |
| "grad_norm": 3.0625, | |
| "learning_rate": 5.4366666666666666e-06, | |
| "loss": 0.1194, | |
| "step": 4370 | |
| }, | |
| { | |
| "epoch": 0.9878213802435724, | |
| "grad_norm": 3.3125, | |
| "learning_rate": 5.403333333333334e-06, | |
| "loss": 0.1098, | |
| "step": 4380 | |
| }, | |
| { | |
| "epoch": 0.9900766801984664, | |
| "grad_norm": 2.59375, | |
| "learning_rate": 5.370000000000001e-06, | |
| "loss": 0.1192, | |
| "step": 4390 | |
| }, | |
| { | |
| "epoch": 0.9923319801533604, | |
| "grad_norm": 2.734375, | |
| "learning_rate": 5.336666666666667e-06, | |
| "loss": 0.1077, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 0.9945872801082544, | |
| "grad_norm": 2.546875, | |
| "learning_rate": 5.303333333333334e-06, | |
| "loss": 0.126, | |
| "step": 4410 | |
| }, | |
| { | |
| "epoch": 0.9968425800631484, | |
| "grad_norm": 2.828125, | |
| "learning_rate": 5.27e-06, | |
| "loss": 0.1223, | |
| "step": 4420 | |
| }, | |
| { | |
| "epoch": 0.9990978800180425, | |
| "grad_norm": 3.515625, | |
| "learning_rate": 5.236666666666667e-06, | |
| "loss": 0.1176, | |
| "step": 4430 | |
| }, | |
| { | |
| "epoch": 1.0013531799729365, | |
| "grad_norm": 2.640625, | |
| "learning_rate": 5.203333333333333e-06, | |
| "loss": 0.1064, | |
| "step": 4440 | |
| }, | |
| { | |
| "epoch": 1.0036084799278304, | |
| "grad_norm": 1.5625, | |
| "learning_rate": 5.1700000000000005e-06, | |
| "loss": 0.1128, | |
| "step": 4450 | |
| }, | |
| { | |
| "epoch": 1.0058637798827244, | |
| "grad_norm": 2.078125, | |
| "learning_rate": 5.136666666666668e-06, | |
| "loss": 0.0987, | |
| "step": 4460 | |
| }, | |
| { | |
| "epoch": 1.0081190798376185, | |
| "grad_norm": 2.359375, | |
| "learning_rate": 5.103333333333333e-06, | |
| "loss": 0.1084, | |
| "step": 4470 | |
| }, | |
| { | |
| "epoch": 1.0103743797925124, | |
| "grad_norm": 2.0, | |
| "learning_rate": 5.070000000000001e-06, | |
| "loss": 0.1035, | |
| "step": 4480 | |
| }, | |
| { | |
| "epoch": 1.0126296797474064, | |
| "grad_norm": 2.234375, | |
| "learning_rate": 5.036666666666668e-06, | |
| "loss": 0.1083, | |
| "step": 4490 | |
| }, | |
| { | |
| "epoch": 1.0148849797023005, | |
| "grad_norm": 2.359375, | |
| "learning_rate": 5.0033333333333334e-06, | |
| "loss": 0.117, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 1.0171402796571944, | |
| "grad_norm": 3.234375, | |
| "learning_rate": 4.970000000000001e-06, | |
| "loss": 0.0979, | |
| "step": 4510 | |
| }, | |
| { | |
| "epoch": 1.0193955796120884, | |
| "grad_norm": 1.9765625, | |
| "learning_rate": 4.936666666666667e-06, | |
| "loss": 0.0954, | |
| "step": 4520 | |
| }, | |
| { | |
| "epoch": 1.0216508795669823, | |
| "grad_norm": 2.890625, | |
| "learning_rate": 4.9033333333333335e-06, | |
| "loss": 0.0957, | |
| "step": 4530 | |
| }, | |
| { | |
| "epoch": 1.0239061795218765, | |
| "grad_norm": 3.046875, | |
| "learning_rate": 4.87e-06, | |
| "loss": 0.1065, | |
| "step": 4540 | |
| }, | |
| { | |
| "epoch": 1.0261614794767704, | |
| "grad_norm": 2.046875, | |
| "learning_rate": 4.836666666666667e-06, | |
| "loss": 0.0878, | |
| "step": 4550 | |
| }, | |
| { | |
| "epoch": 1.0284167794316643, | |
| "grad_norm": 2.390625, | |
| "learning_rate": 4.803333333333334e-06, | |
| "loss": 0.1011, | |
| "step": 4560 | |
| }, | |
| { | |
| "epoch": 1.0306720793865585, | |
| "grad_norm": 2.828125, | |
| "learning_rate": 4.77e-06, | |
| "loss": 0.0977, | |
| "step": 4570 | |
| }, | |
| { | |
| "epoch": 1.0329273793414524, | |
| "grad_norm": 2.59375, | |
| "learning_rate": 4.736666666666667e-06, | |
| "loss": 0.1086, | |
| "step": 4580 | |
| }, | |
| { | |
| "epoch": 1.0351826792963463, | |
| "grad_norm": 2.203125, | |
| "learning_rate": 4.703333333333334e-06, | |
| "loss": 0.1006, | |
| "step": 4590 | |
| }, | |
| { | |
| "epoch": 1.0374379792512405, | |
| "grad_norm": 3.65625, | |
| "learning_rate": 4.670000000000001e-06, | |
| "loss": 0.1144, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 1.0396932792061344, | |
| "grad_norm": 2.40625, | |
| "learning_rate": 4.6366666666666674e-06, | |
| "loss": 0.101, | |
| "step": 4610 | |
| }, | |
| { | |
| "epoch": 1.0419485791610283, | |
| "grad_norm": 2.171875, | |
| "learning_rate": 4.603333333333334e-06, | |
| "loss": 0.0841, | |
| "step": 4620 | |
| }, | |
| { | |
| "epoch": 1.0442038791159225, | |
| "grad_norm": 3.921875, | |
| "learning_rate": 4.57e-06, | |
| "loss": 0.1046, | |
| "step": 4630 | |
| }, | |
| { | |
| "epoch": 1.0464591790708164, | |
| "grad_norm": 2.4375, | |
| "learning_rate": 4.536666666666667e-06, | |
| "loss": 0.0975, | |
| "step": 4640 | |
| }, | |
| { | |
| "epoch": 1.0487144790257104, | |
| "grad_norm": 3.171875, | |
| "learning_rate": 4.503333333333333e-06, | |
| "loss": 0.0955, | |
| "step": 4650 | |
| }, | |
| { | |
| "epoch": 1.0509697789806045, | |
| "grad_norm": 2.546875, | |
| "learning_rate": 4.47e-06, | |
| "loss": 0.1083, | |
| "step": 4660 | |
| }, | |
| { | |
| "epoch": 1.0532250789354984, | |
| "grad_norm": 2.078125, | |
| "learning_rate": 4.436666666666667e-06, | |
| "loss": 0.1139, | |
| "step": 4670 | |
| }, | |
| { | |
| "epoch": 1.0554803788903924, | |
| "grad_norm": 2.421875, | |
| "learning_rate": 4.403333333333334e-06, | |
| "loss": 0.1052, | |
| "step": 4680 | |
| }, | |
| { | |
| "epoch": 1.0577356788452865, | |
| "grad_norm": 2.09375, | |
| "learning_rate": 4.3700000000000005e-06, | |
| "loss": 0.0956, | |
| "step": 4690 | |
| }, | |
| { | |
| "epoch": 1.0599909788001805, | |
| "grad_norm": 2.578125, | |
| "learning_rate": 4.336666666666667e-06, | |
| "loss": 0.0991, | |
| "step": 4700 | |
| }, | |
| { | |
| "epoch": 1.0622462787550744, | |
| "grad_norm": 2.15625, | |
| "learning_rate": 4.303333333333334e-06, | |
| "loss": 0.1256, | |
| "step": 4710 | |
| }, | |
| { | |
| "epoch": 1.0645015787099683, | |
| "grad_norm": 2.34375, | |
| "learning_rate": 4.270000000000001e-06, | |
| "loss": 0.1075, | |
| "step": 4720 | |
| }, | |
| { | |
| "epoch": 1.0667568786648625, | |
| "grad_norm": 2.234375, | |
| "learning_rate": 4.236666666666667e-06, | |
| "loss": 0.0935, | |
| "step": 4730 | |
| }, | |
| { | |
| "epoch": 1.0690121786197564, | |
| "grad_norm": 1.78125, | |
| "learning_rate": 4.2033333333333335e-06, | |
| "loss": 0.1012, | |
| "step": 4740 | |
| }, | |
| { | |
| "epoch": 1.0712674785746503, | |
| "grad_norm": 2.0625, | |
| "learning_rate": 4.17e-06, | |
| "loss": 0.1035, | |
| "step": 4750 | |
| }, | |
| { | |
| "epoch": 1.0735227785295445, | |
| "grad_norm": 3.328125, | |
| "learning_rate": 4.136666666666667e-06, | |
| "loss": 0.1075, | |
| "step": 4760 | |
| }, | |
| { | |
| "epoch": 1.0757780784844384, | |
| "grad_norm": 1.9296875, | |
| "learning_rate": 4.1033333333333336e-06, | |
| "loss": 0.1054, | |
| "step": 4770 | |
| }, | |
| { | |
| "epoch": 1.0780333784393323, | |
| "grad_norm": 2.265625, | |
| "learning_rate": 4.07e-06, | |
| "loss": 0.0883, | |
| "step": 4780 | |
| }, | |
| { | |
| "epoch": 1.0802886783942265, | |
| "grad_norm": 2.390625, | |
| "learning_rate": 4.036666666666667e-06, | |
| "loss": 0.0988, | |
| "step": 4790 | |
| }, | |
| { | |
| "epoch": 1.0825439783491204, | |
| "grad_norm": 3.078125, | |
| "learning_rate": 4.003333333333334e-06, | |
| "loss": 0.1047, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 1.0847992783040143, | |
| "grad_norm": 2.84375, | |
| "learning_rate": 3.97e-06, | |
| "loss": 0.123, | |
| "step": 4810 | |
| }, | |
| { | |
| "epoch": 1.0870545782589085, | |
| "grad_norm": 2.671875, | |
| "learning_rate": 3.936666666666667e-06, | |
| "loss": 0.0982, | |
| "step": 4820 | |
| }, | |
| { | |
| "epoch": 1.0893098782138024, | |
| "grad_norm": 2.515625, | |
| "learning_rate": 3.903333333333334e-06, | |
| "loss": 0.1112, | |
| "step": 4830 | |
| }, | |
| { | |
| "epoch": 1.0915651781686964, | |
| "grad_norm": 2.59375, | |
| "learning_rate": 3.87e-06, | |
| "loss": 0.119, | |
| "step": 4840 | |
| }, | |
| { | |
| "epoch": 1.0938204781235905, | |
| "grad_norm": 1.9765625, | |
| "learning_rate": 3.836666666666667e-06, | |
| "loss": 0.0939, | |
| "step": 4850 | |
| }, | |
| { | |
| "epoch": 1.0960757780784844, | |
| "grad_norm": 2.734375, | |
| "learning_rate": 3.803333333333334e-06, | |
| "loss": 0.0933, | |
| "step": 4860 | |
| }, | |
| { | |
| "epoch": 1.0983310780333784, | |
| "grad_norm": 3.265625, | |
| "learning_rate": 3.7700000000000003e-06, | |
| "loss": 0.0983, | |
| "step": 4870 | |
| }, | |
| { | |
| "epoch": 1.1005863779882725, | |
| "grad_norm": 1.8203125, | |
| "learning_rate": 3.7366666666666667e-06, | |
| "loss": 0.1099, | |
| "step": 4880 | |
| }, | |
| { | |
| "epoch": 1.1028416779431665, | |
| "grad_norm": 2.203125, | |
| "learning_rate": 3.7033333333333336e-06, | |
| "loss": 0.0952, | |
| "step": 4890 | |
| }, | |
| { | |
| "epoch": 1.1050969778980604, | |
| "grad_norm": 2.0625, | |
| "learning_rate": 3.6700000000000004e-06, | |
| "loss": 0.0789, | |
| "step": 4900 | |
| }, | |
| { | |
| "epoch": 1.1073522778529545, | |
| "grad_norm": 2.234375, | |
| "learning_rate": 3.6366666666666673e-06, | |
| "loss": 0.1048, | |
| "step": 4910 | |
| }, | |
| { | |
| "epoch": 1.1096075778078485, | |
| "grad_norm": 2.765625, | |
| "learning_rate": 3.6033333333333337e-06, | |
| "loss": 0.1165, | |
| "step": 4920 | |
| }, | |
| { | |
| "epoch": 1.1118628777627424, | |
| "grad_norm": 3.46875, | |
| "learning_rate": 3.57e-06, | |
| "loss": 0.1013, | |
| "step": 4930 | |
| }, | |
| { | |
| "epoch": 1.1141181777176365, | |
| "grad_norm": 2.609375, | |
| "learning_rate": 3.536666666666667e-06, | |
| "loss": 0.1291, | |
| "step": 4940 | |
| }, | |
| { | |
| "epoch": 1.1163734776725305, | |
| "grad_norm": 2.3125, | |
| "learning_rate": 3.5033333333333334e-06, | |
| "loss": 0.1018, | |
| "step": 4950 | |
| }, | |
| { | |
| "epoch": 1.1186287776274244, | |
| "grad_norm": 2.890625, | |
| "learning_rate": 3.4700000000000002e-06, | |
| "loss": 0.1039, | |
| "step": 4960 | |
| }, | |
| { | |
| "epoch": 1.1208840775823186, | |
| "grad_norm": 2.65625, | |
| "learning_rate": 3.436666666666667e-06, | |
| "loss": 0.0958, | |
| "step": 4970 | |
| }, | |
| { | |
| "epoch": 1.1231393775372125, | |
| "grad_norm": 2.140625, | |
| "learning_rate": 3.4033333333333335e-06, | |
| "loss": 0.0811, | |
| "step": 4980 | |
| }, | |
| { | |
| "epoch": 1.1253946774921064, | |
| "grad_norm": 2.078125, | |
| "learning_rate": 3.3700000000000003e-06, | |
| "loss": 0.1002, | |
| "step": 4990 | |
| }, | |
| { | |
| "epoch": 1.1276499774470006, | |
| "grad_norm": 2.53125, | |
| "learning_rate": 3.3366666666666668e-06, | |
| "loss": 0.1201, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 1.1299052774018945, | |
| "grad_norm": 2.109375, | |
| "learning_rate": 3.303333333333333e-06, | |
| "loss": 0.1172, | |
| "step": 5010 | |
| }, | |
| { | |
| "epoch": 1.1321605773567884, | |
| "grad_norm": 2.109375, | |
| "learning_rate": 3.2700000000000005e-06, | |
| "loss": 0.1013, | |
| "step": 5020 | |
| }, | |
| { | |
| "epoch": 1.1344158773116824, | |
| "grad_norm": 2.859375, | |
| "learning_rate": 3.236666666666667e-06, | |
| "loss": 0.0815, | |
| "step": 5030 | |
| }, | |
| { | |
| "epoch": 1.1366711772665765, | |
| "grad_norm": 1.859375, | |
| "learning_rate": 3.2033333333333337e-06, | |
| "loss": 0.1105, | |
| "step": 5040 | |
| }, | |
| { | |
| "epoch": 1.1389264772214704, | |
| "grad_norm": 2.078125, | |
| "learning_rate": 3.17e-06, | |
| "loss": 0.1004, | |
| "step": 5050 | |
| }, | |
| { | |
| "epoch": 1.1411817771763644, | |
| "grad_norm": 2.515625, | |
| "learning_rate": 3.1366666666666666e-06, | |
| "loss": 0.0956, | |
| "step": 5060 | |
| }, | |
| { | |
| "epoch": 1.1434370771312585, | |
| "grad_norm": 2.234375, | |
| "learning_rate": 3.103333333333334e-06, | |
| "loss": 0.0966, | |
| "step": 5070 | |
| }, | |
| { | |
| "epoch": 1.1456923770861525, | |
| "grad_norm": 1.671875, | |
| "learning_rate": 3.0700000000000003e-06, | |
| "loss": 0.1093, | |
| "step": 5080 | |
| }, | |
| { | |
| "epoch": 1.1479476770410464, | |
| "grad_norm": 1.8984375, | |
| "learning_rate": 3.0366666666666667e-06, | |
| "loss": 0.1048, | |
| "step": 5090 | |
| }, | |
| { | |
| "epoch": 1.1502029769959405, | |
| "grad_norm": 2.46875, | |
| "learning_rate": 3.0033333333333335e-06, | |
| "loss": 0.096, | |
| "step": 5100 | |
| }, | |
| { | |
| "epoch": 1.1524582769508345, | |
| "grad_norm": 2.1875, | |
| "learning_rate": 2.97e-06, | |
| "loss": 0.1086, | |
| "step": 5110 | |
| }, | |
| { | |
| "epoch": 1.1547135769057284, | |
| "grad_norm": 2.265625, | |
| "learning_rate": 2.936666666666667e-06, | |
| "loss": 0.107, | |
| "step": 5120 | |
| }, | |
| { | |
| "epoch": 1.1569688768606226, | |
| "grad_norm": 2.359375, | |
| "learning_rate": 2.9033333333333336e-06, | |
| "loss": 0.101, | |
| "step": 5130 | |
| }, | |
| { | |
| "epoch": 1.1592241768155165, | |
| "grad_norm": 1.9140625, | |
| "learning_rate": 2.87e-06, | |
| "loss": 0.0915, | |
| "step": 5140 | |
| }, | |
| { | |
| "epoch": 1.1614794767704104, | |
| "grad_norm": 2.328125, | |
| "learning_rate": 2.836666666666667e-06, | |
| "loss": 0.1138, | |
| "step": 5150 | |
| }, | |
| { | |
| "epoch": 1.1637347767253043, | |
| "grad_norm": 2.328125, | |
| "learning_rate": 2.8033333333333333e-06, | |
| "loss": 0.1046, | |
| "step": 5160 | |
| }, | |
| { | |
| "epoch": 1.1659900766801985, | |
| "grad_norm": 2.953125, | |
| "learning_rate": 2.7700000000000006e-06, | |
| "loss": 0.1082, | |
| "step": 5170 | |
| }, | |
| { | |
| "epoch": 1.1682453766350924, | |
| "grad_norm": 1.75, | |
| "learning_rate": 2.736666666666667e-06, | |
| "loss": 0.102, | |
| "step": 5180 | |
| }, | |
| { | |
| "epoch": 1.1705006765899864, | |
| "grad_norm": 2.296875, | |
| "learning_rate": 2.7033333333333334e-06, | |
| "loss": 0.0988, | |
| "step": 5190 | |
| }, | |
| { | |
| "epoch": 1.1727559765448805, | |
| "grad_norm": 3.015625, | |
| "learning_rate": 2.6700000000000003e-06, | |
| "loss": 0.1008, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 1.1750112764997744, | |
| "grad_norm": 2.0625, | |
| "learning_rate": 2.6366666666666667e-06, | |
| "loss": 0.1001, | |
| "step": 5210 | |
| }, | |
| { | |
| "epoch": 1.1772665764546684, | |
| "grad_norm": 1.765625, | |
| "learning_rate": 2.603333333333334e-06, | |
| "loss": 0.102, | |
| "step": 5220 | |
| }, | |
| { | |
| "epoch": 1.1795218764095625, | |
| "grad_norm": 2.1875, | |
| "learning_rate": 2.5700000000000004e-06, | |
| "loss": 0.0954, | |
| "step": 5230 | |
| }, | |
| { | |
| "epoch": 1.1817771763644564, | |
| "grad_norm": 2.546875, | |
| "learning_rate": 2.536666666666667e-06, | |
| "loss": 0.1014, | |
| "step": 5240 | |
| }, | |
| { | |
| "epoch": 1.1840324763193504, | |
| "grad_norm": 1.6875, | |
| "learning_rate": 2.5033333333333336e-06, | |
| "loss": 0.1032, | |
| "step": 5250 | |
| }, | |
| { | |
| "epoch": 1.1862877762742445, | |
| "grad_norm": 2.078125, | |
| "learning_rate": 2.47e-06, | |
| "loss": 0.1037, | |
| "step": 5260 | |
| }, | |
| { | |
| "epoch": 1.1885430762291385, | |
| "grad_norm": 2.171875, | |
| "learning_rate": 2.436666666666667e-06, | |
| "loss": 0.0912, | |
| "step": 5270 | |
| }, | |
| { | |
| "epoch": 1.1907983761840324, | |
| "grad_norm": 2.546875, | |
| "learning_rate": 2.4033333333333338e-06, | |
| "loss": 0.0874, | |
| "step": 5280 | |
| }, | |
| { | |
| "epoch": 1.1930536761389265, | |
| "grad_norm": 2.296875, | |
| "learning_rate": 2.37e-06, | |
| "loss": 0.0877, | |
| "step": 5290 | |
| }, | |
| { | |
| "epoch": 1.1953089760938205, | |
| "grad_norm": 2.875, | |
| "learning_rate": 2.3366666666666666e-06, | |
| "loss": 0.0966, | |
| "step": 5300 | |
| }, | |
| { | |
| "epoch": 1.1975642760487144, | |
| "grad_norm": 1.9921875, | |
| "learning_rate": 2.3033333333333334e-06, | |
| "loss": 0.096, | |
| "step": 5310 | |
| }, | |
| { | |
| "epoch": 1.1998195760036086, | |
| "grad_norm": 2.234375, | |
| "learning_rate": 2.2700000000000003e-06, | |
| "loss": 0.1119, | |
| "step": 5320 | |
| }, | |
| { | |
| "epoch": 1.2020748759585025, | |
| "grad_norm": 2.078125, | |
| "learning_rate": 2.236666666666667e-06, | |
| "loss": 0.0967, | |
| "step": 5330 | |
| }, | |
| { | |
| "epoch": 1.2043301759133964, | |
| "grad_norm": 1.921875, | |
| "learning_rate": 2.2033333333333336e-06, | |
| "loss": 0.1065, | |
| "step": 5340 | |
| }, | |
| { | |
| "epoch": 1.2065854758682906, | |
| "grad_norm": 3.65625, | |
| "learning_rate": 2.17e-06, | |
| "loss": 0.1093, | |
| "step": 5350 | |
| }, | |
| { | |
| "epoch": 1.2088407758231845, | |
| "grad_norm": 2.28125, | |
| "learning_rate": 2.136666666666667e-06, | |
| "loss": 0.1131, | |
| "step": 5360 | |
| }, | |
| { | |
| "epoch": 1.2110960757780784, | |
| "grad_norm": 2.25, | |
| "learning_rate": 2.1033333333333337e-06, | |
| "loss": 0.0938, | |
| "step": 5370 | |
| }, | |
| { | |
| "epoch": 1.2133513757329726, | |
| "grad_norm": 2.203125, | |
| "learning_rate": 2.07e-06, | |
| "loss": 0.0951, | |
| "step": 5380 | |
| }, | |
| { | |
| "epoch": 1.2156066756878665, | |
| "grad_norm": 2.09375, | |
| "learning_rate": 2.036666666666667e-06, | |
| "loss": 0.1138, | |
| "step": 5390 | |
| }, | |
| { | |
| "epoch": 1.2178619756427604, | |
| "grad_norm": 2.34375, | |
| "learning_rate": 2.0033333333333334e-06, | |
| "loss": 0.0944, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 1.2201172755976546, | |
| "grad_norm": 1.9296875, | |
| "learning_rate": 1.97e-06, | |
| "loss": 0.0991, | |
| "step": 5410 | |
| }, | |
| { | |
| "epoch": 1.2223725755525485, | |
| "grad_norm": 2.234375, | |
| "learning_rate": 1.9366666666666666e-06, | |
| "loss": 0.1096, | |
| "step": 5420 | |
| }, | |
| { | |
| "epoch": 1.2246278755074425, | |
| "grad_norm": 2.03125, | |
| "learning_rate": 1.9033333333333335e-06, | |
| "loss": 0.1197, | |
| "step": 5430 | |
| }, | |
| { | |
| "epoch": 1.2268831754623366, | |
| "grad_norm": 2.15625, | |
| "learning_rate": 1.87e-06, | |
| "loss": 0.1, | |
| "step": 5440 | |
| }, | |
| { | |
| "epoch": 1.2291384754172305, | |
| "grad_norm": 2.15625, | |
| "learning_rate": 1.836666666666667e-06, | |
| "loss": 0.1017, | |
| "step": 5450 | |
| }, | |
| { | |
| "epoch": 1.2313937753721245, | |
| "grad_norm": 2.234375, | |
| "learning_rate": 1.8033333333333336e-06, | |
| "loss": 0.1099, | |
| "step": 5460 | |
| }, | |
| { | |
| "epoch": 1.2336490753270186, | |
| "grad_norm": 2.109375, | |
| "learning_rate": 1.77e-06, | |
| "loss": 0.1058, | |
| "step": 5470 | |
| }, | |
| { | |
| "epoch": 1.2359043752819125, | |
| "grad_norm": 2.171875, | |
| "learning_rate": 1.7366666666666668e-06, | |
| "loss": 0.1007, | |
| "step": 5480 | |
| }, | |
| { | |
| "epoch": 1.2381596752368065, | |
| "grad_norm": 2.375, | |
| "learning_rate": 1.7033333333333335e-06, | |
| "loss": 0.0947, | |
| "step": 5490 | |
| }, | |
| { | |
| "epoch": 1.2404149751917004, | |
| "grad_norm": 2.125, | |
| "learning_rate": 1.6700000000000003e-06, | |
| "loss": 0.0936, | |
| "step": 5500 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 6000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 2, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 4.057702632259584e+18, | |
| "train_batch_size": 1, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |