diff --git "a/checkpoint-6000/trainer_state.json" "b/checkpoint-6000/trainer_state.json" new file mode 100644--- /dev/null +++ "b/checkpoint-6000/trainer_state.json" @@ -0,0 +1,4234 @@ +{ + "best_global_step": null, + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 1.3531799729364005, + "eval_steps": 500, + "global_step": 6000, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.0022552999548940008, + "grad_norm": 3.71875, + "learning_rate": 1.9970000000000004e-05, + "loss": 1.2486, + "step": 10 + }, + { + "epoch": 0.0045105999097880016, + "grad_norm": 2.9375, + "learning_rate": 1.993666666666667e-05, + "loss": 0.9533, + "step": 20 + }, + { + "epoch": 0.006765899864682003, + "grad_norm": 2.71875, + "learning_rate": 1.9903333333333333e-05, + "loss": 0.8758, + "step": 30 + }, + { + "epoch": 0.009021199819576003, + "grad_norm": 2.640625, + "learning_rate": 1.987e-05, + "loss": 0.8479, + "step": 40 + }, + { + "epoch": 0.011276499774470004, + "grad_norm": 2.5625, + "learning_rate": 1.983666666666667e-05, + "loss": 0.8127, + "step": 50 + }, + { + "epoch": 0.013531799729364006, + "grad_norm": 2.375, + "learning_rate": 1.9803333333333334e-05, + "loss": 0.812, + "step": 60 + }, + { + "epoch": 0.015787099684258007, + "grad_norm": 2.421875, + "learning_rate": 1.9770000000000002e-05, + "loss": 0.7799, + "step": 70 + }, + { + "epoch": 0.018042399639152006, + "grad_norm": 2.796875, + "learning_rate": 1.9736666666666667e-05, + "loss": 0.8005, + "step": 80 + }, + { + "epoch": 0.02029769959404601, + "grad_norm": 2.40625, + "learning_rate": 1.9703333333333335e-05, + "loss": 0.7766, + "step": 90 + }, + { + "epoch": 0.02255299954894001, + "grad_norm": 2.578125, + "learning_rate": 1.9670000000000003e-05, + "loss": 0.7611, + "step": 100 + }, + { + "epoch": 0.02480829950383401, + "grad_norm": 2.375, + "learning_rate": 1.9636666666666668e-05, + "loss": 0.7492, + "step": 110 + }, + { + "epoch": 0.02706359945872801, + "grad_norm": 2.421875, + "learning_rate": 1.9603333333333333e-05, + "loss": 0.7518, + "step": 120 + }, + { + "epoch": 0.02931889941362201, + "grad_norm": 2.296875, + "learning_rate": 1.957e-05, + "loss": 0.7677, + "step": 130 + }, + { + "epoch": 0.031574199368516014, + "grad_norm": 2.609375, + "learning_rate": 1.953666666666667e-05, + "loss": 0.7275, + "step": 140 + }, + { + "epoch": 0.03382949932341001, + "grad_norm": 2.65625, + "learning_rate": 1.9503333333333334e-05, + "loss": 0.7348, + "step": 150 + }, + { + "epoch": 0.03608479927830401, + "grad_norm": 2.421875, + "learning_rate": 1.947e-05, + "loss": 0.7438, + "step": 160 + }, + { + "epoch": 0.03834009923319801, + "grad_norm": 2.203125, + "learning_rate": 1.943666666666667e-05, + "loss": 0.7227, + "step": 170 + }, + { + "epoch": 0.04059539918809202, + "grad_norm": 2.453125, + "learning_rate": 1.9403333333333334e-05, + "loss": 0.7117, + "step": 180 + }, + { + "epoch": 0.04285069914298602, + "grad_norm": 2.1875, + "learning_rate": 1.9370000000000003e-05, + "loss": 0.7232, + "step": 190 + }, + { + "epoch": 0.04510599909788002, + "grad_norm": 2.25, + "learning_rate": 1.9336666666666667e-05, + "loss": 0.7289, + "step": 200 + }, + { + "epoch": 0.04736129905277402, + "grad_norm": 2.265625, + "learning_rate": 1.9303333333333335e-05, + "loss": 0.6979, + "step": 210 + }, + { + "epoch": 0.04961659900766802, + "grad_norm": 2.25, + "learning_rate": 1.9270000000000004e-05, + "loss": 0.6891, + "step": 220 + }, + { + "epoch": 0.05187189896256202, + "grad_norm": 2.1875, + "learning_rate": 1.9236666666666668e-05, + "loss": 0.7168, + "step": 230 + }, + { + "epoch": 0.05412719891745602, + "grad_norm": 2.578125, + "learning_rate": 1.9203333333333333e-05, + "loss": 0.6879, + "step": 240 + }, + { + "epoch": 0.05638249887235002, + "grad_norm": 2.4375, + "learning_rate": 1.917e-05, + "loss": 0.6775, + "step": 250 + }, + { + "epoch": 0.05863779882724402, + "grad_norm": 2.28125, + "learning_rate": 1.913666666666667e-05, + "loss": 0.6832, + "step": 260 + }, + { + "epoch": 0.06089309878213803, + "grad_norm": 2.203125, + "learning_rate": 1.9103333333333337e-05, + "loss": 0.6553, + "step": 270 + }, + { + "epoch": 0.06314839873703203, + "grad_norm": 2.265625, + "learning_rate": 1.9070000000000002e-05, + "loss": 0.6733, + "step": 280 + }, + { + "epoch": 0.06540369869192603, + "grad_norm": 2.1875, + "learning_rate": 1.9036666666666667e-05, + "loss": 0.6811, + "step": 290 + }, + { + "epoch": 0.06765899864682003, + "grad_norm": 2.40625, + "learning_rate": 1.9003333333333335e-05, + "loss": 0.668, + "step": 300 + }, + { + "epoch": 0.06991429860171403, + "grad_norm": 2.265625, + "learning_rate": 1.8970000000000003e-05, + "loss": 0.6659, + "step": 310 + }, + { + "epoch": 0.07216959855660803, + "grad_norm": 2.328125, + "learning_rate": 1.8936666666666668e-05, + "loss": 0.6776, + "step": 320 + }, + { + "epoch": 0.07442489851150202, + "grad_norm": 2.5625, + "learning_rate": 1.8903333333333336e-05, + "loss": 0.6605, + "step": 330 + }, + { + "epoch": 0.07668019846639602, + "grad_norm": 2.265625, + "learning_rate": 1.887e-05, + "loss": 0.6537, + "step": 340 + }, + { + "epoch": 0.07893549842129004, + "grad_norm": 2.28125, + "learning_rate": 1.883666666666667e-05, + "loss": 0.6474, + "step": 350 + }, + { + "epoch": 0.08119079837618404, + "grad_norm": 2.390625, + "learning_rate": 1.8803333333333337e-05, + "loss": 0.6272, + "step": 360 + }, + { + "epoch": 0.08344609833107804, + "grad_norm": 2.28125, + "learning_rate": 1.877e-05, + "loss": 0.6406, + "step": 370 + }, + { + "epoch": 0.08570139828597204, + "grad_norm": 2.296875, + "learning_rate": 1.8736666666666666e-05, + "loss": 0.6386, + "step": 380 + }, + { + "epoch": 0.08795669824086604, + "grad_norm": 2.359375, + "learning_rate": 1.8703333333333334e-05, + "loss": 0.621, + "step": 390 + }, + { + "epoch": 0.09021199819576003, + "grad_norm": 2.28125, + "learning_rate": 1.8670000000000003e-05, + "loss": 0.6657, + "step": 400 + }, + { + "epoch": 0.09246729815065403, + "grad_norm": 2.953125, + "learning_rate": 1.8636666666666667e-05, + "loss": 0.6331, + "step": 410 + }, + { + "epoch": 0.09472259810554803, + "grad_norm": 2.75, + "learning_rate": 1.8603333333333335e-05, + "loss": 0.6434, + "step": 420 + }, + { + "epoch": 0.09697789806044203, + "grad_norm": 2.328125, + "learning_rate": 1.857e-05, + "loss": 0.6152, + "step": 430 + }, + { + "epoch": 0.09923319801533605, + "grad_norm": 2.40625, + "learning_rate": 1.8536666666666668e-05, + "loss": 0.6462, + "step": 440 + }, + { + "epoch": 0.10148849797023005, + "grad_norm": 2.8125, + "learning_rate": 1.8503333333333336e-05, + "loss": 0.5954, + "step": 450 + }, + { + "epoch": 0.10374379792512405, + "grad_norm": 2.140625, + "learning_rate": 1.847e-05, + "loss": 0.6304, + "step": 460 + }, + { + "epoch": 0.10599909788001805, + "grad_norm": 2.359375, + "learning_rate": 1.8436666666666666e-05, + "loss": 0.6318, + "step": 470 + }, + { + "epoch": 0.10825439783491204, + "grad_norm": 2.375, + "learning_rate": 1.8403333333333334e-05, + "loss": 0.626, + "step": 480 + }, + { + "epoch": 0.11050969778980604, + "grad_norm": 2.53125, + "learning_rate": 1.8370000000000002e-05, + "loss": 0.6112, + "step": 490 + }, + { + "epoch": 0.11276499774470004, + "grad_norm": 2.359375, + "learning_rate": 1.8336666666666667e-05, + "loss": 0.6057, + "step": 500 + }, + { + "epoch": 0.11502029769959404, + "grad_norm": 2.59375, + "learning_rate": 1.8303333333333335e-05, + "loss": 0.5819, + "step": 510 + }, + { + "epoch": 0.11727559765448804, + "grad_norm": 2.65625, + "learning_rate": 1.827e-05, + "loss": 0.6126, + "step": 520 + }, + { + "epoch": 0.11953089760938204, + "grad_norm": 2.34375, + "learning_rate": 1.8236666666666668e-05, + "loss": 0.6287, + "step": 530 + }, + { + "epoch": 0.12178619756427606, + "grad_norm": 2.4375, + "learning_rate": 1.8203333333333336e-05, + "loss": 0.586, + "step": 540 + }, + { + "epoch": 0.12404149751917005, + "grad_norm": 2.28125, + "learning_rate": 1.817e-05, + "loss": 0.6016, + "step": 550 + }, + { + "epoch": 0.12629679747406405, + "grad_norm": 2.421875, + "learning_rate": 1.813666666666667e-05, + "loss": 0.582, + "step": 560 + }, + { + "epoch": 0.12855209742895804, + "grad_norm": 2.375, + "learning_rate": 1.8103333333333333e-05, + "loss": 0.5885, + "step": 570 + }, + { + "epoch": 0.13080739738385205, + "grad_norm": 2.515625, + "learning_rate": 1.807e-05, + "loss": 0.584, + "step": 580 + }, + { + "epoch": 0.13306269733874607, + "grad_norm": 2.484375, + "learning_rate": 1.803666666666667e-05, + "loss": 0.5487, + "step": 590 + }, + { + "epoch": 0.13531799729364005, + "grad_norm": 2.5, + "learning_rate": 1.8003333333333334e-05, + "loss": 0.5923, + "step": 600 + }, + { + "epoch": 0.13757329724853407, + "grad_norm": 2.375, + "learning_rate": 1.7970000000000002e-05, + "loss": 0.5666, + "step": 610 + }, + { + "epoch": 0.13982859720342805, + "grad_norm": 3.09375, + "learning_rate": 1.793666666666667e-05, + "loss": 0.5466, + "step": 620 + }, + { + "epoch": 0.14208389715832206, + "grad_norm": 2.5, + "learning_rate": 1.7903333333333335e-05, + "loss": 0.5908, + "step": 630 + }, + { + "epoch": 0.14433919711321605, + "grad_norm": 2.515625, + "learning_rate": 1.787e-05, + "loss": 0.5542, + "step": 640 + }, + { + "epoch": 0.14659449706811006, + "grad_norm": 2.515625, + "learning_rate": 1.7836666666666668e-05, + "loss": 0.5659, + "step": 650 + }, + { + "epoch": 0.14884979702300405, + "grad_norm": 2.578125, + "learning_rate": 1.7803333333333336e-05, + "loss": 0.5361, + "step": 660 + }, + { + "epoch": 0.15110509697789806, + "grad_norm": 2.4375, + "learning_rate": 1.777e-05, + "loss": 0.555, + "step": 670 + }, + { + "epoch": 0.15336039693279205, + "grad_norm": 2.609375, + "learning_rate": 1.773666666666667e-05, + "loss": 0.5435, + "step": 680 + }, + { + "epoch": 0.15561569688768606, + "grad_norm": 2.46875, + "learning_rate": 1.7703333333333334e-05, + "loss": 0.5713, + "step": 690 + }, + { + "epoch": 0.15787099684258007, + "grad_norm": 2.40625, + "learning_rate": 1.7670000000000002e-05, + "loss": 0.559, + "step": 700 + }, + { + "epoch": 0.16012629679747406, + "grad_norm": 2.421875, + "learning_rate": 1.763666666666667e-05, + "loss": 0.5696, + "step": 710 + }, + { + "epoch": 0.16238159675236807, + "grad_norm": 2.640625, + "learning_rate": 1.7603333333333335e-05, + "loss": 0.5345, + "step": 720 + }, + { + "epoch": 0.16463689670726206, + "grad_norm": 2.4375, + "learning_rate": 1.757e-05, + "loss": 0.5774, + "step": 730 + }, + { + "epoch": 0.16689219666215607, + "grad_norm": 2.375, + "learning_rate": 1.7536666666666668e-05, + "loss": 0.5448, + "step": 740 + }, + { + "epoch": 0.16914749661705006, + "grad_norm": 2.515625, + "learning_rate": 1.7503333333333336e-05, + "loss": 0.5436, + "step": 750 + }, + { + "epoch": 0.17140279657194407, + "grad_norm": 2.34375, + "learning_rate": 1.7470000000000004e-05, + "loss": 0.5383, + "step": 760 + }, + { + "epoch": 0.17365809652683806, + "grad_norm": 2.375, + "learning_rate": 1.743666666666667e-05, + "loss": 0.5385, + "step": 770 + }, + { + "epoch": 0.17591339648173207, + "grad_norm": 2.734375, + "learning_rate": 1.7403333333333333e-05, + "loss": 0.5367, + "step": 780 + }, + { + "epoch": 0.17816869643662608, + "grad_norm": 2.46875, + "learning_rate": 1.737e-05, + "loss": 0.5622, + "step": 790 + }, + { + "epoch": 0.18042399639152007, + "grad_norm": 2.59375, + "learning_rate": 1.733666666666667e-05, + "loss": 0.5064, + "step": 800 + }, + { + "epoch": 0.18267929634641408, + "grad_norm": 2.4375, + "learning_rate": 1.7303333333333334e-05, + "loss": 0.528, + "step": 810 + }, + { + "epoch": 0.18493459630130807, + "grad_norm": 2.53125, + "learning_rate": 1.7270000000000002e-05, + "loss": 0.5117, + "step": 820 + }, + { + "epoch": 0.18718989625620208, + "grad_norm": 2.625, + "learning_rate": 1.7236666666666667e-05, + "loss": 0.5477, + "step": 830 + }, + { + "epoch": 0.18944519621109607, + "grad_norm": 2.421875, + "learning_rate": 1.7203333333333335e-05, + "loss": 0.5131, + "step": 840 + }, + { + "epoch": 0.19170049616599008, + "grad_norm": 2.96875, + "learning_rate": 1.7170000000000003e-05, + "loss": 0.4921, + "step": 850 + }, + { + "epoch": 0.19395579612088407, + "grad_norm": 2.5625, + "learning_rate": 1.7136666666666668e-05, + "loss": 0.4937, + "step": 860 + }, + { + "epoch": 0.19621109607577808, + "grad_norm": 2.53125, + "learning_rate": 1.7103333333333333e-05, + "loss": 0.508, + "step": 870 + }, + { + "epoch": 0.1984663960306721, + "grad_norm": 2.625, + "learning_rate": 1.707e-05, + "loss": 0.5266, + "step": 880 + }, + { + "epoch": 0.20072169598556608, + "grad_norm": 2.96875, + "learning_rate": 1.703666666666667e-05, + "loss": 0.5097, + "step": 890 + }, + { + "epoch": 0.2029769959404601, + "grad_norm": 2.390625, + "learning_rate": 1.7003333333333334e-05, + "loss": 0.4993, + "step": 900 + }, + { + "epoch": 0.20523229589535408, + "grad_norm": 2.65625, + "learning_rate": 1.6970000000000002e-05, + "loss": 0.482, + "step": 910 + }, + { + "epoch": 0.2074875958502481, + "grad_norm": 2.796875, + "learning_rate": 1.6936666666666667e-05, + "loss": 0.496, + "step": 920 + }, + { + "epoch": 0.20974289580514208, + "grad_norm": 2.734375, + "learning_rate": 1.6903333333333335e-05, + "loss": 0.4805, + "step": 930 + }, + { + "epoch": 0.2119981957600361, + "grad_norm": 2.609375, + "learning_rate": 1.6870000000000003e-05, + "loss": 0.5179, + "step": 940 + }, + { + "epoch": 0.21425349571493008, + "grad_norm": 2.5, + "learning_rate": 1.6836666666666668e-05, + "loss": 0.4581, + "step": 950 + }, + { + "epoch": 0.2165087956698241, + "grad_norm": 2.671875, + "learning_rate": 1.6803333333333332e-05, + "loss": 0.4656, + "step": 960 + }, + { + "epoch": 0.21876409562471807, + "grad_norm": 2.640625, + "learning_rate": 1.677e-05, + "loss": 0.4973, + "step": 970 + }, + { + "epoch": 0.2210193955796121, + "grad_norm": 2.609375, + "learning_rate": 1.673666666666667e-05, + "loss": 0.4915, + "step": 980 + }, + { + "epoch": 0.2232746955345061, + "grad_norm": 2.546875, + "learning_rate": 1.6703333333333333e-05, + "loss": 0.4807, + "step": 990 + }, + { + "epoch": 0.2255299954894001, + "grad_norm": 2.484375, + "learning_rate": 1.667e-05, + "loss": 0.5139, + "step": 1000 + }, + { + "epoch": 0.2277852954442941, + "grad_norm": 2.703125, + "learning_rate": 1.6636666666666666e-05, + "loss": 0.4795, + "step": 1010 + }, + { + "epoch": 0.23004059539918809, + "grad_norm": 2.640625, + "learning_rate": 1.6603333333333334e-05, + "loss": 0.4759, + "step": 1020 + }, + { + "epoch": 0.2322958953540821, + "grad_norm": 2.8125, + "learning_rate": 1.6570000000000002e-05, + "loss": 0.4646, + "step": 1030 + }, + { + "epoch": 0.23455119530897608, + "grad_norm": 2.75, + "learning_rate": 1.6536666666666667e-05, + "loss": 0.4653, + "step": 1040 + }, + { + "epoch": 0.2368064952638701, + "grad_norm": 2.640625, + "learning_rate": 1.6503333333333335e-05, + "loss": 0.4609, + "step": 1050 + }, + { + "epoch": 0.23906179521876408, + "grad_norm": 2.6875, + "learning_rate": 1.647e-05, + "loss": 0.4676, + "step": 1060 + }, + { + "epoch": 0.2413170951736581, + "grad_norm": 2.78125, + "learning_rate": 1.6436666666666668e-05, + "loss": 0.4495, + "step": 1070 + }, + { + "epoch": 0.2435723951285521, + "grad_norm": 2.6875, + "learning_rate": 1.6403333333333336e-05, + "loss": 0.4443, + "step": 1080 + }, + { + "epoch": 0.2458276950834461, + "grad_norm": 2.59375, + "learning_rate": 1.637e-05, + "loss": 0.4341, + "step": 1090 + }, + { + "epoch": 0.2480829950383401, + "grad_norm": 2.84375, + "learning_rate": 1.633666666666667e-05, + "loss": 0.4294, + "step": 1100 + }, + { + "epoch": 0.2503382949932341, + "grad_norm": 2.625, + "learning_rate": 1.6303333333333337e-05, + "loss": 0.439, + "step": 1110 + }, + { + "epoch": 0.2525935949481281, + "grad_norm": 3.046875, + "learning_rate": 1.6270000000000002e-05, + "loss": 0.443, + "step": 1120 + }, + { + "epoch": 0.2548488949030221, + "grad_norm": 2.65625, + "learning_rate": 1.6236666666666667e-05, + "loss": 0.4389, + "step": 1130 + }, + { + "epoch": 0.2571041948579161, + "grad_norm": 2.859375, + "learning_rate": 1.6203333333333335e-05, + "loss": 0.46, + "step": 1140 + }, + { + "epoch": 0.2593594948128101, + "grad_norm": 2.78125, + "learning_rate": 1.6170000000000003e-05, + "loss": 0.4469, + "step": 1150 + }, + { + "epoch": 0.2616147947677041, + "grad_norm": 2.671875, + "learning_rate": 1.6136666666666667e-05, + "loss": 0.4485, + "step": 1160 + }, + { + "epoch": 0.2638700947225981, + "grad_norm": 3.046875, + "learning_rate": 1.6103333333333336e-05, + "loss": 0.4414, + "step": 1170 + }, + { + "epoch": 0.26612539467749213, + "grad_norm": 2.84375, + "learning_rate": 1.607e-05, + "loss": 0.4126, + "step": 1180 + }, + { + "epoch": 0.2683806946323861, + "grad_norm": 3.078125, + "learning_rate": 1.603666666666667e-05, + "loss": 0.433, + "step": 1190 + }, + { + "epoch": 0.2706359945872801, + "grad_norm": 2.859375, + "learning_rate": 1.6003333333333337e-05, + "loss": 0.4404, + "step": 1200 + }, + { + "epoch": 0.2728912945421741, + "grad_norm": 2.921875, + "learning_rate": 1.597e-05, + "loss": 0.4279, + "step": 1210 + }, + { + "epoch": 0.27514659449706813, + "grad_norm": 2.9375, + "learning_rate": 1.5936666666666666e-05, + "loss": 0.4333, + "step": 1220 + }, + { + "epoch": 0.2774018944519621, + "grad_norm": 2.828125, + "learning_rate": 1.5903333333333334e-05, + "loss": 0.435, + "step": 1230 + }, + { + "epoch": 0.2796571944068561, + "grad_norm": 2.9375, + "learning_rate": 1.5870000000000002e-05, + "loss": 0.4123, + "step": 1240 + }, + { + "epoch": 0.2819124943617501, + "grad_norm": 3.03125, + "learning_rate": 1.5836666666666667e-05, + "loss": 0.4065, + "step": 1250 + }, + { + "epoch": 0.28416779431664413, + "grad_norm": 3.21875, + "learning_rate": 1.5803333333333335e-05, + "loss": 0.4287, + "step": 1260 + }, + { + "epoch": 0.2864230942715381, + "grad_norm": 2.96875, + "learning_rate": 1.577e-05, + "loss": 0.4649, + "step": 1270 + }, + { + "epoch": 0.2886783942264321, + "grad_norm": 3.046875, + "learning_rate": 1.5736666666666668e-05, + "loss": 0.4076, + "step": 1280 + }, + { + "epoch": 0.29093369418132614, + "grad_norm": 3.125, + "learning_rate": 1.5703333333333336e-05, + "loss": 0.421, + "step": 1290 + }, + { + "epoch": 0.2931889941362201, + "grad_norm": 3.5625, + "learning_rate": 1.567e-05, + "loss": 0.3982, + "step": 1300 + }, + { + "epoch": 0.2954442940911141, + "grad_norm": 2.828125, + "learning_rate": 1.563666666666667e-05, + "loss": 0.4121, + "step": 1310 + }, + { + "epoch": 0.2976995940460081, + "grad_norm": 3.0, + "learning_rate": 1.5603333333333334e-05, + "loss": 0.4032, + "step": 1320 + }, + { + "epoch": 0.29995489400090214, + "grad_norm": 2.890625, + "learning_rate": 1.5570000000000002e-05, + "loss": 0.423, + "step": 1330 + }, + { + "epoch": 0.3022101939557961, + "grad_norm": 2.875, + "learning_rate": 1.553666666666667e-05, + "loss": 0.4193, + "step": 1340 + }, + { + "epoch": 0.3044654939106901, + "grad_norm": 3.09375, + "learning_rate": 1.5503333333333335e-05, + "loss": 0.3834, + "step": 1350 + }, + { + "epoch": 0.3067207938655841, + "grad_norm": 3.46875, + "learning_rate": 1.547e-05, + "loss": 0.4204, + "step": 1360 + }, + { + "epoch": 0.30897609382047814, + "grad_norm": 2.65625, + "learning_rate": 1.5436666666666667e-05, + "loss": 0.4036, + "step": 1370 + }, + { + "epoch": 0.3112313937753721, + "grad_norm": 2.8125, + "learning_rate": 1.5403333333333335e-05, + "loss": 0.3845, + "step": 1380 + }, + { + "epoch": 0.3134866937302661, + "grad_norm": 3.234375, + "learning_rate": 1.537e-05, + "loss": 0.3615, + "step": 1390 + }, + { + "epoch": 0.31574199368516015, + "grad_norm": 2.6875, + "learning_rate": 1.533666666666667e-05, + "loss": 0.3754, + "step": 1400 + }, + { + "epoch": 0.31799729364005414, + "grad_norm": 3.15625, + "learning_rate": 1.5303333333333333e-05, + "loss": 0.3984, + "step": 1410 + }, + { + "epoch": 0.3202525935949481, + "grad_norm": 3.515625, + "learning_rate": 1.527e-05, + "loss": 0.4009, + "step": 1420 + }, + { + "epoch": 0.3225078935498421, + "grad_norm": 3.171875, + "learning_rate": 1.523666666666667e-05, + "loss": 0.3939, + "step": 1430 + }, + { + "epoch": 0.32476319350473615, + "grad_norm": 3.34375, + "learning_rate": 1.5203333333333334e-05, + "loss": 0.3621, + "step": 1440 + }, + { + "epoch": 0.32701849345963013, + "grad_norm": 3.71875, + "learning_rate": 1.517e-05, + "loss": 0.3901, + "step": 1450 + }, + { + "epoch": 0.3292737934145241, + "grad_norm": 3.015625, + "learning_rate": 1.5136666666666669e-05, + "loss": 0.3602, + "step": 1460 + }, + { + "epoch": 0.33152909336941816, + "grad_norm": 2.75, + "learning_rate": 1.5103333333333335e-05, + "loss": 0.3793, + "step": 1470 + }, + { + "epoch": 0.33378439332431215, + "grad_norm": 3.140625, + "learning_rate": 1.507e-05, + "loss": 0.3698, + "step": 1480 + }, + { + "epoch": 0.33603969327920613, + "grad_norm": 3.03125, + "learning_rate": 1.5036666666666668e-05, + "loss": 0.3785, + "step": 1490 + }, + { + "epoch": 0.3382949932341001, + "grad_norm": 3.265625, + "learning_rate": 1.5003333333333334e-05, + "loss": 0.378, + "step": 1500 + }, + { + "epoch": 0.34055029318899416, + "grad_norm": 3.515625, + "learning_rate": 1.4970000000000002e-05, + "loss": 0.3588, + "step": 1510 + }, + { + "epoch": 0.34280559314388814, + "grad_norm": 3.125, + "learning_rate": 1.4936666666666669e-05, + "loss": 0.3602, + "step": 1520 + }, + { + "epoch": 0.34506089309878213, + "grad_norm": 3.40625, + "learning_rate": 1.4903333333333334e-05, + "loss": 0.3342, + "step": 1530 + }, + { + "epoch": 0.3473161930536761, + "grad_norm": 3.203125, + "learning_rate": 1.4870000000000002e-05, + "loss": 0.3603, + "step": 1540 + }, + { + "epoch": 0.34957149300857016, + "grad_norm": 3.078125, + "learning_rate": 1.4836666666666668e-05, + "loss": 0.3346, + "step": 1550 + }, + { + "epoch": 0.35182679296346414, + "grad_norm": 2.9375, + "learning_rate": 1.4803333333333334e-05, + "loss": 0.3419, + "step": 1560 + }, + { + "epoch": 0.3540820929183581, + "grad_norm": 3.28125, + "learning_rate": 1.4770000000000003e-05, + "loss": 0.3459, + "step": 1570 + }, + { + "epoch": 0.35633739287325217, + "grad_norm": 2.890625, + "learning_rate": 1.4736666666666667e-05, + "loss": 0.3671, + "step": 1580 + }, + { + "epoch": 0.35859269282814615, + "grad_norm": 3.328125, + "learning_rate": 1.4703333333333334e-05, + "loss": 0.3479, + "step": 1590 + }, + { + "epoch": 0.36084799278304014, + "grad_norm": 3.125, + "learning_rate": 1.4670000000000002e-05, + "loss": 0.3564, + "step": 1600 + }, + { + "epoch": 0.3631032927379341, + "grad_norm": 3.171875, + "learning_rate": 1.4636666666666668e-05, + "loss": 0.3432, + "step": 1610 + }, + { + "epoch": 0.36535859269282817, + "grad_norm": 3.15625, + "learning_rate": 1.4603333333333333e-05, + "loss": 0.3485, + "step": 1620 + }, + { + "epoch": 0.36761389264772215, + "grad_norm": 3.265625, + "learning_rate": 1.4570000000000001e-05, + "loss": 0.3608, + "step": 1630 + }, + { + "epoch": 0.36986919260261614, + "grad_norm": 3.0625, + "learning_rate": 1.4536666666666668e-05, + "loss": 0.3593, + "step": 1640 + }, + { + "epoch": 0.3721244925575101, + "grad_norm": 3.0, + "learning_rate": 1.4503333333333334e-05, + "loss": 0.3225, + "step": 1650 + }, + { + "epoch": 0.37437979251240416, + "grad_norm": 3.078125, + "learning_rate": 1.4470000000000002e-05, + "loss": 0.3608, + "step": 1660 + }, + { + "epoch": 0.37663509246729815, + "grad_norm": 3.046875, + "learning_rate": 1.4436666666666668e-05, + "loss": 0.3625, + "step": 1670 + }, + { + "epoch": 0.37889039242219213, + "grad_norm": 3.25, + "learning_rate": 1.4403333333333333e-05, + "loss": 0.342, + "step": 1680 + }, + { + "epoch": 0.3811456923770862, + "grad_norm": 3.453125, + "learning_rate": 1.4370000000000001e-05, + "loss": 0.3633, + "step": 1690 + }, + { + "epoch": 0.38340099233198016, + "grad_norm": 3.21875, + "learning_rate": 1.4336666666666668e-05, + "loss": 0.3485, + "step": 1700 + }, + { + "epoch": 0.38565629228687415, + "grad_norm": 4.0, + "learning_rate": 1.4303333333333334e-05, + "loss": 0.3415, + "step": 1710 + }, + { + "epoch": 0.38791159224176813, + "grad_norm": 3.609375, + "learning_rate": 1.4270000000000002e-05, + "loss": 0.3303, + "step": 1720 + }, + { + "epoch": 0.3901668921966622, + "grad_norm": 3.71875, + "learning_rate": 1.4236666666666667e-05, + "loss": 0.3049, + "step": 1730 + }, + { + "epoch": 0.39242219215155616, + "grad_norm": 2.828125, + "learning_rate": 1.4203333333333333e-05, + "loss": 0.3412, + "step": 1740 + }, + { + "epoch": 0.39467749210645015, + "grad_norm": 3.125, + "learning_rate": 1.4170000000000002e-05, + "loss": 0.3199, + "step": 1750 + }, + { + "epoch": 0.3969327920613442, + "grad_norm": 4.5, + "learning_rate": 1.4136666666666668e-05, + "loss": 0.3247, + "step": 1760 + }, + { + "epoch": 0.39918809201623817, + "grad_norm": 3.671875, + "learning_rate": 1.4103333333333336e-05, + "loss": 0.3338, + "step": 1770 + }, + { + "epoch": 0.40144339197113216, + "grad_norm": 3.234375, + "learning_rate": 1.407e-05, + "loss": 0.3122, + "step": 1780 + }, + { + "epoch": 0.40369869192602614, + "grad_norm": 3.71875, + "learning_rate": 1.4036666666666667e-05, + "loss": 0.3121, + "step": 1790 + }, + { + "epoch": 0.4059539918809202, + "grad_norm": 3.03125, + "learning_rate": 1.4003333333333335e-05, + "loss": 0.3229, + "step": 1800 + }, + { + "epoch": 0.40820929183581417, + "grad_norm": 3.390625, + "learning_rate": 1.3970000000000002e-05, + "loss": 0.2885, + "step": 1810 + }, + { + "epoch": 0.41046459179070816, + "grad_norm": 3.125, + "learning_rate": 1.3936666666666666e-05, + "loss": 0.2934, + "step": 1820 + }, + { + "epoch": 0.41271989174560214, + "grad_norm": 3.234375, + "learning_rate": 1.3903333333333335e-05, + "loss": 0.2783, + "step": 1830 + }, + { + "epoch": 0.4149751917004962, + "grad_norm": 3.921875, + "learning_rate": 1.3870000000000001e-05, + "loss": 0.3128, + "step": 1840 + }, + { + "epoch": 0.41723049165539017, + "grad_norm": 3.078125, + "learning_rate": 1.3836666666666667e-05, + "loss": 0.3074, + "step": 1850 + }, + { + "epoch": 0.41948579161028415, + "grad_norm": 3.40625, + "learning_rate": 1.3803333333333336e-05, + "loss": 0.2985, + "step": 1860 + }, + { + "epoch": 0.4217410915651782, + "grad_norm": 3.40625, + "learning_rate": 1.377e-05, + "loss": 0.2824, + "step": 1870 + }, + { + "epoch": 0.4239963915200722, + "grad_norm": 3.453125, + "learning_rate": 1.3736666666666667e-05, + "loss": 0.2961, + "step": 1880 + }, + { + "epoch": 0.42625169147496617, + "grad_norm": 3.5, + "learning_rate": 1.3703333333333335e-05, + "loss": 0.2968, + "step": 1890 + }, + { + "epoch": 0.42850699142986015, + "grad_norm": 4.09375, + "learning_rate": 1.3670000000000001e-05, + "loss": 0.3198, + "step": 1900 + }, + { + "epoch": 0.4307622913847542, + "grad_norm": 3.296875, + "learning_rate": 1.3636666666666668e-05, + "loss": 0.2763, + "step": 1910 + }, + { + "epoch": 0.4330175913396482, + "grad_norm": 3.40625, + "learning_rate": 1.3603333333333336e-05, + "loss": 0.2945, + "step": 1920 + }, + { + "epoch": 0.43527289129454216, + "grad_norm": 3.140625, + "learning_rate": 1.357e-05, + "loss": 0.3013, + "step": 1930 + }, + { + "epoch": 0.43752819124943615, + "grad_norm": 3.453125, + "learning_rate": 1.3536666666666667e-05, + "loss": 0.2897, + "step": 1940 + }, + { + "epoch": 0.4397834912043302, + "grad_norm": 3.203125, + "learning_rate": 1.3503333333333335e-05, + "loss": 0.2591, + "step": 1950 + }, + { + "epoch": 0.4420387911592242, + "grad_norm": 3.15625, + "learning_rate": 1.3470000000000001e-05, + "loss": 0.3079, + "step": 1960 + }, + { + "epoch": 0.44429409111411816, + "grad_norm": 3.65625, + "learning_rate": 1.3436666666666666e-05, + "loss": 0.2955, + "step": 1970 + }, + { + "epoch": 0.4465493910690122, + "grad_norm": 3.1875, + "learning_rate": 1.3403333333333334e-05, + "loss": 0.2737, + "step": 1980 + }, + { + "epoch": 0.4488046910239062, + "grad_norm": 3.546875, + "learning_rate": 1.337e-05, + "loss": 0.2929, + "step": 1990 + }, + { + "epoch": 0.4510599909788002, + "grad_norm": 2.828125, + "learning_rate": 1.3336666666666667e-05, + "loss": 0.2924, + "step": 2000 + }, + { + "epoch": 0.45331529093369416, + "grad_norm": 4.3125, + "learning_rate": 1.3303333333333335e-05, + "loss": 0.2744, + "step": 2010 + }, + { + "epoch": 0.4555705908885882, + "grad_norm": 3.15625, + "learning_rate": 1.327e-05, + "loss": 0.275, + "step": 2020 + }, + { + "epoch": 0.4578258908434822, + "grad_norm": 3.578125, + "learning_rate": 1.3236666666666668e-05, + "loss": 0.2695, + "step": 2030 + }, + { + "epoch": 0.46008119079837617, + "grad_norm": 3.421875, + "learning_rate": 1.3203333333333335e-05, + "loss": 0.2761, + "step": 2040 + }, + { + "epoch": 0.46233649075327016, + "grad_norm": 3.375, + "learning_rate": 1.3170000000000001e-05, + "loss": 0.2953, + "step": 2050 + }, + { + "epoch": 0.4645917907081642, + "grad_norm": 3.8125, + "learning_rate": 1.3136666666666669e-05, + "loss": 0.2901, + "step": 2060 + }, + { + "epoch": 0.4668470906630582, + "grad_norm": 3.359375, + "learning_rate": 1.3103333333333334e-05, + "loss": 0.2906, + "step": 2070 + }, + { + "epoch": 0.46910239061795217, + "grad_norm": 3.546875, + "learning_rate": 1.307e-05, + "loss": 0.2747, + "step": 2080 + }, + { + "epoch": 0.4713576905728462, + "grad_norm": 3.59375, + "learning_rate": 1.3036666666666668e-05, + "loss": 0.2728, + "step": 2090 + }, + { + "epoch": 0.4736129905277402, + "grad_norm": 3.0, + "learning_rate": 1.3003333333333335e-05, + "loss": 0.2464, + "step": 2100 + }, + { + "epoch": 0.4758682904826342, + "grad_norm": 4.15625, + "learning_rate": 1.2970000000000001e-05, + "loss": 0.2853, + "step": 2110 + }, + { + "epoch": 0.47812359043752817, + "grad_norm": 3.078125, + "learning_rate": 1.293666666666667e-05, + "loss": 0.2751, + "step": 2120 + }, + { + "epoch": 0.4803788903924222, + "grad_norm": 3.109375, + "learning_rate": 1.2903333333333334e-05, + "loss": 0.2579, + "step": 2130 + }, + { + "epoch": 0.4826341903473162, + "grad_norm": 3.109375, + "learning_rate": 1.287e-05, + "loss": 0.2758, + "step": 2140 + }, + { + "epoch": 0.4848894903022102, + "grad_norm": 4.5, + "learning_rate": 1.2836666666666669e-05, + "loss": 0.2691, + "step": 2150 + }, + { + "epoch": 0.4871447902571042, + "grad_norm": 3.90625, + "learning_rate": 1.2803333333333335e-05, + "loss": 0.2439, + "step": 2160 + }, + { + "epoch": 0.4894000902119982, + "grad_norm": 3.59375, + "learning_rate": 1.277e-05, + "loss": 0.2501, + "step": 2170 + }, + { + "epoch": 0.4916553901668922, + "grad_norm": 2.953125, + "learning_rate": 1.2736666666666668e-05, + "loss": 0.2561, + "step": 2180 + }, + { + "epoch": 0.4939106901217862, + "grad_norm": 3.296875, + "learning_rate": 1.2703333333333334e-05, + "loss": 0.2318, + "step": 2190 + }, + { + "epoch": 0.4961659900766802, + "grad_norm": 3.328125, + "learning_rate": 1.267e-05, + "loss": 0.2397, + "step": 2200 + }, + { + "epoch": 0.4984212900315742, + "grad_norm": 3.6875, + "learning_rate": 1.2636666666666669e-05, + "loss": 0.2504, + "step": 2210 + }, + { + "epoch": 0.5006765899864682, + "grad_norm": 3.6875, + "learning_rate": 1.2603333333333334e-05, + "loss": 0.257, + "step": 2220 + }, + { + "epoch": 0.5029318899413622, + "grad_norm": 3.34375, + "learning_rate": 1.257e-05, + "loss": 0.2578, + "step": 2230 + }, + { + "epoch": 0.5051871898962562, + "grad_norm": 3.578125, + "learning_rate": 1.2536666666666668e-05, + "loss": 0.2626, + "step": 2240 + }, + { + "epoch": 0.5074424898511503, + "grad_norm": 3.609375, + "learning_rate": 1.2503333333333334e-05, + "loss": 0.2523, + "step": 2250 + }, + { + "epoch": 0.5096977898060442, + "grad_norm": 3.28125, + "learning_rate": 1.2470000000000003e-05, + "loss": 0.2452, + "step": 2260 + }, + { + "epoch": 0.5119530897609382, + "grad_norm": 5.125, + "learning_rate": 1.2436666666666667e-05, + "loss": 0.2278, + "step": 2270 + }, + { + "epoch": 0.5142083897158322, + "grad_norm": 3.46875, + "learning_rate": 1.2403333333333334e-05, + "loss": 0.235, + "step": 2280 + }, + { + "epoch": 0.5164636896707262, + "grad_norm": 3.78125, + "learning_rate": 1.2370000000000002e-05, + "loss": 0.2427, + "step": 2290 + }, + { + "epoch": 0.5187189896256202, + "grad_norm": 3.328125, + "learning_rate": 1.2336666666666668e-05, + "loss": 0.2522, + "step": 2300 + }, + { + "epoch": 0.5209742895805142, + "grad_norm": 3.296875, + "learning_rate": 1.2303333333333333e-05, + "loss": 0.2325, + "step": 2310 + }, + { + "epoch": 0.5232295895354082, + "grad_norm": 3.21875, + "learning_rate": 1.2270000000000001e-05, + "loss": 0.2595, + "step": 2320 + }, + { + "epoch": 0.5254848894903023, + "grad_norm": 3.3125, + "learning_rate": 1.2236666666666668e-05, + "loss": 0.2683, + "step": 2330 + }, + { + "epoch": 0.5277401894451962, + "grad_norm": 3.515625, + "learning_rate": 1.2203333333333334e-05, + "loss": 0.2327, + "step": 2340 + }, + { + "epoch": 0.5299954894000902, + "grad_norm": 3.359375, + "learning_rate": 1.2170000000000002e-05, + "loss": 0.2305, + "step": 2350 + }, + { + "epoch": 0.5322507893549843, + "grad_norm": 4.03125, + "learning_rate": 1.2136666666666668e-05, + "loss": 0.24, + "step": 2360 + }, + { + "epoch": 0.5345060893098782, + "grad_norm": 3.171875, + "learning_rate": 1.2103333333333333e-05, + "loss": 0.2226, + "step": 2370 + }, + { + "epoch": 0.5367613892647722, + "grad_norm": 3.046875, + "learning_rate": 1.2070000000000001e-05, + "loss": 0.2288, + "step": 2380 + }, + { + "epoch": 0.5390166892196662, + "grad_norm": 3.46875, + "learning_rate": 1.2036666666666668e-05, + "loss": 0.2564, + "step": 2390 + }, + { + "epoch": 0.5412719891745602, + "grad_norm": 3.703125, + "learning_rate": 1.2003333333333334e-05, + "loss": 0.2115, + "step": 2400 + }, + { + "epoch": 0.5435272891294542, + "grad_norm": 3.46875, + "learning_rate": 1.1970000000000002e-05, + "loss": 0.2255, + "step": 2410 + }, + { + "epoch": 0.5457825890843482, + "grad_norm": 3.765625, + "learning_rate": 1.1936666666666667e-05, + "loss": 0.2214, + "step": 2420 + }, + { + "epoch": 0.5480378890392422, + "grad_norm": 3.9375, + "learning_rate": 1.1903333333333333e-05, + "loss": 0.2212, + "step": 2430 + }, + { + "epoch": 0.5502931889941363, + "grad_norm": 3.796875, + "learning_rate": 1.1870000000000002e-05, + "loss": 0.2266, + "step": 2440 + }, + { + "epoch": 0.5525484889490302, + "grad_norm": 3.203125, + "learning_rate": 1.1836666666666668e-05, + "loss": 0.2291, + "step": 2450 + }, + { + "epoch": 0.5548037889039242, + "grad_norm": 4.6875, + "learning_rate": 1.1803333333333333e-05, + "loss": 0.212, + "step": 2460 + }, + { + "epoch": 0.5570590888588183, + "grad_norm": 2.953125, + "learning_rate": 1.177e-05, + "loss": 0.2133, + "step": 2470 + }, + { + "epoch": 0.5593143888137122, + "grad_norm": 4.1875, + "learning_rate": 1.1736666666666667e-05, + "loss": 0.2606, + "step": 2480 + }, + { + "epoch": 0.5615696887686062, + "grad_norm": 3.53125, + "learning_rate": 1.1703333333333334e-05, + "loss": 0.2446, + "step": 2490 + }, + { + "epoch": 0.5638249887235002, + "grad_norm": 3.546875, + "learning_rate": 1.1670000000000002e-05, + "loss": 0.2264, + "step": 2500 + }, + { + "epoch": 0.5660802886783942, + "grad_norm": 3.921875, + "learning_rate": 1.1636666666666666e-05, + "loss": 0.2218, + "step": 2510 + }, + { + "epoch": 0.5683355886332883, + "grad_norm": 3.015625, + "learning_rate": 1.1603333333333335e-05, + "loss": 0.196, + "step": 2520 + }, + { + "epoch": 0.5705908885881822, + "grad_norm": 3.59375, + "learning_rate": 1.1570000000000001e-05, + "loss": 0.2327, + "step": 2530 + }, + { + "epoch": 0.5728461885430762, + "grad_norm": 3.125, + "learning_rate": 1.1536666666666667e-05, + "loss": 0.2224, + "step": 2540 + }, + { + "epoch": 0.5751014884979703, + "grad_norm": 3.765625, + "learning_rate": 1.1503333333333336e-05, + "loss": 0.2198, + "step": 2550 + }, + { + "epoch": 0.5773567884528642, + "grad_norm": 3.28125, + "learning_rate": 1.147e-05, + "loss": 0.2146, + "step": 2560 + }, + { + "epoch": 0.5796120884077582, + "grad_norm": 4.0625, + "learning_rate": 1.1436666666666667e-05, + "loss": 0.2217, + "step": 2570 + }, + { + "epoch": 0.5818673883626523, + "grad_norm": 3.515625, + "learning_rate": 1.1403333333333335e-05, + "loss": 0.2039, + "step": 2580 + }, + { + "epoch": 0.5841226883175462, + "grad_norm": 3.484375, + "learning_rate": 1.1370000000000001e-05, + "loss": 0.218, + "step": 2590 + }, + { + "epoch": 0.5863779882724403, + "grad_norm": 3.921875, + "learning_rate": 1.1336666666666668e-05, + "loss": 0.2031, + "step": 2600 + }, + { + "epoch": 0.5886332882273342, + "grad_norm": 3.796875, + "learning_rate": 1.1303333333333336e-05, + "loss": 0.1942, + "step": 2610 + }, + { + "epoch": 0.5908885881822282, + "grad_norm": 4.03125, + "learning_rate": 1.127e-05, + "loss": 0.203, + "step": 2620 + }, + { + "epoch": 0.5931438881371223, + "grad_norm": 3.25, + "learning_rate": 1.1236666666666667e-05, + "loss": 0.2204, + "step": 2630 + }, + { + "epoch": 0.5953991880920162, + "grad_norm": 3.53125, + "learning_rate": 1.1203333333333335e-05, + "loss": 0.2046, + "step": 2640 + }, + { + "epoch": 0.5976544880469102, + "grad_norm": 4.0, + "learning_rate": 1.1170000000000001e-05, + "loss": 0.2083, + "step": 2650 + }, + { + "epoch": 0.5999097880018043, + "grad_norm": 4.15625, + "learning_rate": 1.1136666666666666e-05, + "loss": 0.2206, + "step": 2660 + }, + { + "epoch": 0.6021650879566982, + "grad_norm": 4.0625, + "learning_rate": 1.1103333333333334e-05, + "loss": 0.2108, + "step": 2670 + }, + { + "epoch": 0.6044203879115922, + "grad_norm": 3.90625, + "learning_rate": 1.107e-05, + "loss": 0.1931, + "step": 2680 + }, + { + "epoch": 0.6066756878664863, + "grad_norm": 4.8125, + "learning_rate": 1.1036666666666667e-05, + "loss": 0.1909, + "step": 2690 + }, + { + "epoch": 0.6089309878213802, + "grad_norm": 3.328125, + "learning_rate": 1.1003333333333335e-05, + "loss": 0.1994, + "step": 2700 + }, + { + "epoch": 0.6111862877762743, + "grad_norm": 3.0625, + "learning_rate": 1.097e-05, + "loss": 0.1967, + "step": 2710 + }, + { + "epoch": 0.6134415877311682, + "grad_norm": 3.546875, + "learning_rate": 1.0936666666666666e-05, + "loss": 0.2082, + "step": 2720 + }, + { + "epoch": 0.6156968876860622, + "grad_norm": 3.03125, + "learning_rate": 1.0903333333333335e-05, + "loss": 0.2245, + "step": 2730 + }, + { + "epoch": 0.6179521876409563, + "grad_norm": 3.25, + "learning_rate": 1.0870000000000001e-05, + "loss": 0.1893, + "step": 2740 + }, + { + "epoch": 0.6202074875958502, + "grad_norm": 3.671875, + "learning_rate": 1.0836666666666666e-05, + "loss": 0.2133, + "step": 2750 + }, + { + "epoch": 0.6224627875507442, + "grad_norm": 3.625, + "learning_rate": 1.0803333333333334e-05, + "loss": 0.1912, + "step": 2760 + }, + { + "epoch": 0.6247180875056383, + "grad_norm": 3.609375, + "learning_rate": 1.077e-05, + "loss": 0.1967, + "step": 2770 + }, + { + "epoch": 0.6269733874605322, + "grad_norm": 3.1875, + "learning_rate": 1.0736666666666668e-05, + "loss": 0.1858, + "step": 2780 + }, + { + "epoch": 0.6292286874154263, + "grad_norm": 3.546875, + "learning_rate": 1.0703333333333335e-05, + "loss": 0.1995, + "step": 2790 + }, + { + "epoch": 0.6314839873703203, + "grad_norm": 4.875, + "learning_rate": 1.0670000000000001e-05, + "loss": 0.1911, + "step": 2800 + }, + { + "epoch": 0.6337392873252142, + "grad_norm": 4.3125, + "learning_rate": 1.063666666666667e-05, + "loss": 0.1938, + "step": 2810 + }, + { + "epoch": 0.6359945872801083, + "grad_norm": 4.625, + "learning_rate": 1.0603333333333334e-05, + "loss": 0.215, + "step": 2820 + }, + { + "epoch": 0.6382498872350022, + "grad_norm": 2.78125, + "learning_rate": 1.057e-05, + "loss": 0.2065, + "step": 2830 + }, + { + "epoch": 0.6405051871898962, + "grad_norm": 3.0625, + "learning_rate": 1.0536666666666669e-05, + "loss": 0.1796, + "step": 2840 + }, + { + "epoch": 0.6427604871447903, + "grad_norm": 3.796875, + "learning_rate": 1.0503333333333335e-05, + "loss": 0.1766, + "step": 2850 + }, + { + "epoch": 0.6450157870996842, + "grad_norm": 4.5, + "learning_rate": 1.047e-05, + "loss": 0.1652, + "step": 2860 + }, + { + "epoch": 0.6472710870545783, + "grad_norm": 3.421875, + "learning_rate": 1.0436666666666668e-05, + "loss": 0.1858, + "step": 2870 + }, + { + "epoch": 0.6495263870094723, + "grad_norm": 3.28125, + "learning_rate": 1.0403333333333334e-05, + "loss": 0.1756, + "step": 2880 + }, + { + "epoch": 0.6517816869643662, + "grad_norm": 3.265625, + "learning_rate": 1.037e-05, + "loss": 0.176, + "step": 2890 + }, + { + "epoch": 0.6540369869192603, + "grad_norm": 3.203125, + "learning_rate": 1.0336666666666669e-05, + "loss": 0.1903, + "step": 2900 + }, + { + "epoch": 0.6562922868741543, + "grad_norm": 4.0, + "learning_rate": 1.0303333333333334e-05, + "loss": 0.1878, + "step": 2910 + }, + { + "epoch": 0.6585475868290482, + "grad_norm": 4.21875, + "learning_rate": 1.027e-05, + "loss": 0.1806, + "step": 2920 + }, + { + "epoch": 0.6608028867839423, + "grad_norm": 3.109375, + "learning_rate": 1.0236666666666668e-05, + "loss": 0.1777, + "step": 2930 + }, + { + "epoch": 0.6630581867388363, + "grad_norm": 4.0625, + "learning_rate": 1.0203333333333334e-05, + "loss": 0.1851, + "step": 2940 + }, + { + "epoch": 0.6653134866937302, + "grad_norm": 2.90625, + "learning_rate": 1.017e-05, + "loss": 0.1684, + "step": 2950 + }, + { + "epoch": 0.6675687866486243, + "grad_norm": 3.625, + "learning_rate": 1.0136666666666667e-05, + "loss": 0.1687, + "step": 2960 + }, + { + "epoch": 0.6698240866035182, + "grad_norm": 3.375, + "learning_rate": 1.0103333333333334e-05, + "loss": 0.1723, + "step": 2970 + }, + { + "epoch": 0.6720793865584123, + "grad_norm": 2.96875, + "learning_rate": 1.007e-05, + "loss": 0.1795, + "step": 2980 + }, + { + "epoch": 0.6743346865133063, + "grad_norm": 3.484375, + "learning_rate": 1.0036666666666668e-05, + "loss": 0.1718, + "step": 2990 + }, + { + "epoch": 0.6765899864682002, + "grad_norm": 3.5625, + "learning_rate": 1.0003333333333333e-05, + "loss": 0.1691, + "step": 3000 + }, + { + "epoch": 0.6788452864230943, + "grad_norm": 3.203125, + "learning_rate": 9.970000000000001e-06, + "loss": 0.1805, + "step": 3010 + }, + { + "epoch": 0.6811005863779883, + "grad_norm": 2.78125, + "learning_rate": 9.936666666666668e-06, + "loss": 0.1844, + "step": 3020 + }, + { + "epoch": 0.6833558863328822, + "grad_norm": 4.21875, + "learning_rate": 9.903333333333334e-06, + "loss": 0.1612, + "step": 3030 + }, + { + "epoch": 0.6856111862877763, + "grad_norm": 3.140625, + "learning_rate": 9.87e-06, + "loss": 0.1719, + "step": 3040 + }, + { + "epoch": 0.6878664862426703, + "grad_norm": 3.78125, + "learning_rate": 9.836666666666668e-06, + "loss": 0.1639, + "step": 3050 + }, + { + "epoch": 0.6901217861975643, + "grad_norm": 3.59375, + "learning_rate": 9.803333333333333e-06, + "loss": 0.1555, + "step": 3060 + }, + { + "epoch": 0.6923770861524583, + "grad_norm": 3.109375, + "learning_rate": 9.770000000000001e-06, + "loss": 0.1695, + "step": 3070 + }, + { + "epoch": 0.6946323861073522, + "grad_norm": 3.203125, + "learning_rate": 9.736666666666668e-06, + "loss": 0.1684, + "step": 3080 + }, + { + "epoch": 0.6968876860622463, + "grad_norm": 3.546875, + "learning_rate": 9.703333333333334e-06, + "loss": 0.1669, + "step": 3090 + }, + { + "epoch": 0.6991429860171403, + "grad_norm": 3.6875, + "learning_rate": 9.67e-06, + "loss": 0.1789, + "step": 3100 + }, + { + "epoch": 0.7013982859720342, + "grad_norm": 3.578125, + "learning_rate": 9.636666666666667e-06, + "loss": 0.1776, + "step": 3110 + }, + { + "epoch": 0.7036535859269283, + "grad_norm": 3.125, + "learning_rate": 9.603333333333335e-06, + "loss": 0.1561, + "step": 3120 + }, + { + "epoch": 0.7059088858818223, + "grad_norm": 3.125, + "learning_rate": 9.57e-06, + "loss": 0.1609, + "step": 3130 + }, + { + "epoch": 0.7081641858367163, + "grad_norm": 3.75, + "learning_rate": 9.536666666666668e-06, + "loss": 0.1398, + "step": 3140 + }, + { + "epoch": 0.7104194857916103, + "grad_norm": 3.3125, + "learning_rate": 9.503333333333334e-06, + "loss": 0.167, + "step": 3150 + }, + { + "epoch": 0.7126747857465043, + "grad_norm": 3.75, + "learning_rate": 9.47e-06, + "loss": 0.1546, + "step": 3160 + }, + { + "epoch": 0.7149300857013983, + "grad_norm": 3.546875, + "learning_rate": 9.436666666666667e-06, + "loss": 0.1555, + "step": 3170 + }, + { + "epoch": 0.7171853856562923, + "grad_norm": 3.15625, + "learning_rate": 9.403333333333334e-06, + "loss": 0.1766, + "step": 3180 + }, + { + "epoch": 0.7194406856111862, + "grad_norm": 3.390625, + "learning_rate": 9.370000000000002e-06, + "loss": 0.1705, + "step": 3190 + }, + { + "epoch": 0.7216959855660803, + "grad_norm": 3.671875, + "learning_rate": 9.336666666666666e-06, + "loss": 0.1784, + "step": 3200 + }, + { + "epoch": 0.7239512855209743, + "grad_norm": 3.125, + "learning_rate": 9.303333333333335e-06, + "loss": 0.1705, + "step": 3210 + }, + { + "epoch": 0.7262065854758682, + "grad_norm": 3.28125, + "learning_rate": 9.270000000000001e-06, + "loss": 0.1562, + "step": 3220 + }, + { + "epoch": 0.7284618854307623, + "grad_norm": 2.96875, + "learning_rate": 9.236666666666667e-06, + "loss": 0.1421, + "step": 3230 + }, + { + "epoch": 0.7307171853856563, + "grad_norm": 3.609375, + "learning_rate": 9.203333333333334e-06, + "loss": 0.1663, + "step": 3240 + }, + { + "epoch": 0.7329724853405503, + "grad_norm": 2.84375, + "learning_rate": 9.17e-06, + "loss": 0.1729, + "step": 3250 + }, + { + "epoch": 0.7352277852954443, + "grad_norm": 2.921875, + "learning_rate": 9.136666666666667e-06, + "loss": 0.1572, + "step": 3260 + }, + { + "epoch": 0.7374830852503383, + "grad_norm": 2.75, + "learning_rate": 9.103333333333335e-06, + "loss": 0.1574, + "step": 3270 + }, + { + "epoch": 0.7397383852052323, + "grad_norm": 4.0, + "learning_rate": 9.070000000000001e-06, + "loss": 0.158, + "step": 3280 + }, + { + "epoch": 0.7419936851601263, + "grad_norm": 3.140625, + "learning_rate": 9.036666666666668e-06, + "loss": 0.1743, + "step": 3290 + }, + { + "epoch": 0.7442489851150202, + "grad_norm": 3.125, + "learning_rate": 9.003333333333334e-06, + "loss": 0.1492, + "step": 3300 + }, + { + "epoch": 0.7465042850699143, + "grad_norm": 3.578125, + "learning_rate": 8.97e-06, + "loss": 0.1544, + "step": 3310 + }, + { + "epoch": 0.7487595850248083, + "grad_norm": 3.046875, + "learning_rate": 8.936666666666669e-06, + "loss": 0.154, + "step": 3320 + }, + { + "epoch": 0.7510148849797023, + "grad_norm": 3.234375, + "learning_rate": 8.903333333333333e-06, + "loss": 0.1515, + "step": 3330 + }, + { + "epoch": 0.7532701849345963, + "grad_norm": 3.234375, + "learning_rate": 8.870000000000001e-06, + "loss": 0.1601, + "step": 3340 + }, + { + "epoch": 0.7555254848894903, + "grad_norm": 5.375, + "learning_rate": 8.836666666666668e-06, + "loss": 0.1541, + "step": 3350 + }, + { + "epoch": 0.7577807848443843, + "grad_norm": 3.0, + "learning_rate": 8.803333333333334e-06, + "loss": 0.137, + "step": 3360 + }, + { + "epoch": 0.7600360847992783, + "grad_norm": 4.3125, + "learning_rate": 8.77e-06, + "loss": 0.1518, + "step": 3370 + }, + { + "epoch": 0.7622913847541724, + "grad_norm": 2.96875, + "learning_rate": 8.736666666666667e-06, + "loss": 0.1557, + "step": 3380 + }, + { + "epoch": 0.7645466847090663, + "grad_norm": 3.171875, + "learning_rate": 8.703333333333334e-06, + "loss": 0.1459, + "step": 3390 + }, + { + "epoch": 0.7668019846639603, + "grad_norm": 3.390625, + "learning_rate": 8.67e-06, + "loss": 0.1457, + "step": 3400 + }, + { + "epoch": 0.7690572846188543, + "grad_norm": 2.828125, + "learning_rate": 8.636666666666668e-06, + "loss": 0.1437, + "step": 3410 + }, + { + "epoch": 0.7713125845737483, + "grad_norm": 3.53125, + "learning_rate": 8.603333333333333e-06, + "loss": 0.1575, + "step": 3420 + }, + { + "epoch": 0.7735678845286423, + "grad_norm": 2.765625, + "learning_rate": 8.570000000000001e-06, + "loss": 0.1405, + "step": 3430 + }, + { + "epoch": 0.7758231844835363, + "grad_norm": 2.46875, + "learning_rate": 8.536666666666667e-06, + "loss": 0.1479, + "step": 3440 + }, + { + "epoch": 0.7780784844384303, + "grad_norm": 3.140625, + "learning_rate": 8.503333333333334e-06, + "loss": 0.1513, + "step": 3450 + }, + { + "epoch": 0.7803337843933243, + "grad_norm": 3.3125, + "learning_rate": 8.47e-06, + "loss": 0.1437, + "step": 3460 + }, + { + "epoch": 0.7825890843482183, + "grad_norm": 2.875, + "learning_rate": 8.436666666666667e-06, + "loss": 0.1434, + "step": 3470 + }, + { + "epoch": 0.7848443843031123, + "grad_norm": 2.34375, + "learning_rate": 8.403333333333335e-06, + "loss": 0.1442, + "step": 3480 + }, + { + "epoch": 0.7870996842580064, + "grad_norm": 3.578125, + "learning_rate": 8.370000000000001e-06, + "loss": 0.1449, + "step": 3490 + }, + { + "epoch": 0.7893549842129003, + "grad_norm": 3.453125, + "learning_rate": 8.336666666666668e-06, + "loss": 0.151, + "step": 3500 + }, + { + "epoch": 0.7916102841677943, + "grad_norm": 2.796875, + "learning_rate": 8.303333333333334e-06, + "loss": 0.1407, + "step": 3510 + }, + { + "epoch": 0.7938655841226884, + "grad_norm": 3.015625, + "learning_rate": 8.27e-06, + "loss": 0.1566, + "step": 3520 + }, + { + "epoch": 0.7961208840775823, + "grad_norm": 3.328125, + "learning_rate": 8.236666666666667e-06, + "loss": 0.1574, + "step": 3530 + }, + { + "epoch": 0.7983761840324763, + "grad_norm": 2.78125, + "learning_rate": 8.203333333333335e-06, + "loss": 0.1434, + "step": 3540 + }, + { + "epoch": 0.8006314839873703, + "grad_norm": 2.671875, + "learning_rate": 8.17e-06, + "loss": 0.1379, + "step": 3550 + }, + { + "epoch": 0.8028867839422643, + "grad_norm": 2.984375, + "learning_rate": 8.136666666666668e-06, + "loss": 0.1685, + "step": 3560 + }, + { + "epoch": 0.8051420838971584, + "grad_norm": 2.875, + "learning_rate": 8.103333333333334e-06, + "loss": 0.1564, + "step": 3570 + }, + { + "epoch": 0.8073973838520523, + "grad_norm": 3.765625, + "learning_rate": 8.07e-06, + "loss": 0.1399, + "step": 3580 + }, + { + "epoch": 0.8096526838069463, + "grad_norm": 3.71875, + "learning_rate": 8.036666666666667e-06, + "loss": 0.1422, + "step": 3590 + }, + { + "epoch": 0.8119079837618404, + "grad_norm": 3.015625, + "learning_rate": 8.003333333333334e-06, + "loss": 0.1439, + "step": 3600 + }, + { + "epoch": 0.8141632837167343, + "grad_norm": 3.3125, + "learning_rate": 7.970000000000002e-06, + "loss": 0.1473, + "step": 3610 + }, + { + "epoch": 0.8164185836716283, + "grad_norm": 3.484375, + "learning_rate": 7.936666666666666e-06, + "loss": 0.1598, + "step": 3620 + }, + { + "epoch": 0.8186738836265224, + "grad_norm": 3.671875, + "learning_rate": 7.903333333333334e-06, + "loss": 0.1431, + "step": 3630 + }, + { + "epoch": 0.8209291835814163, + "grad_norm": 3.375, + "learning_rate": 7.870000000000001e-06, + "loss": 0.1338, + "step": 3640 + }, + { + "epoch": 0.8231844835363104, + "grad_norm": 4.34375, + "learning_rate": 7.836666666666667e-06, + "loss": 0.1437, + "step": 3650 + }, + { + "epoch": 0.8254397834912043, + "grad_norm": 4.5625, + "learning_rate": 7.803333333333334e-06, + "loss": 0.1383, + "step": 3660 + }, + { + "epoch": 0.8276950834460983, + "grad_norm": 2.84375, + "learning_rate": 7.77e-06, + "loss": 0.1452, + "step": 3670 + }, + { + "epoch": 0.8299503834009924, + "grad_norm": 3.6875, + "learning_rate": 7.736666666666667e-06, + "loss": 0.1566, + "step": 3680 + }, + { + "epoch": 0.8322056833558863, + "grad_norm": 3.4375, + "learning_rate": 7.703333333333333e-06, + "loss": 0.1416, + "step": 3690 + }, + { + "epoch": 0.8344609833107803, + "grad_norm": 3.21875, + "learning_rate": 7.670000000000001e-06, + "loss": 0.1296, + "step": 3700 + }, + { + "epoch": 0.8367162832656744, + "grad_norm": 2.78125, + "learning_rate": 7.636666666666668e-06, + "loss": 0.1422, + "step": 3710 + }, + { + "epoch": 0.8389715832205683, + "grad_norm": 3.765625, + "learning_rate": 7.603333333333334e-06, + "loss": 0.1448, + "step": 3720 + }, + { + "epoch": 0.8412268831754623, + "grad_norm": 2.859375, + "learning_rate": 7.57e-06, + "loss": 0.135, + "step": 3730 + }, + { + "epoch": 0.8434821831303564, + "grad_norm": 3.0, + "learning_rate": 7.536666666666668e-06, + "loss": 0.1428, + "step": 3740 + }, + { + "epoch": 0.8457374830852503, + "grad_norm": 3.28125, + "learning_rate": 7.503333333333333e-06, + "loss": 0.138, + "step": 3750 + }, + { + "epoch": 0.8479927830401444, + "grad_norm": 3.375, + "learning_rate": 7.4700000000000005e-06, + "loss": 0.125, + "step": 3760 + }, + { + "epoch": 0.8502480829950383, + "grad_norm": 2.296875, + "learning_rate": 7.436666666666668e-06, + "loss": 0.1317, + "step": 3770 + }, + { + "epoch": 0.8525033829499323, + "grad_norm": 3.296875, + "learning_rate": 7.403333333333333e-06, + "loss": 0.1258, + "step": 3780 + }, + { + "epoch": 0.8547586829048264, + "grad_norm": 2.671875, + "learning_rate": 7.370000000000001e-06, + "loss": 0.1403, + "step": 3790 + }, + { + "epoch": 0.8570139828597203, + "grad_norm": 4.03125, + "learning_rate": 7.336666666666668e-06, + "loss": 0.1466, + "step": 3800 + }, + { + "epoch": 0.8592692828146143, + "grad_norm": 2.546875, + "learning_rate": 7.3033333333333334e-06, + "loss": 0.1262, + "step": 3810 + }, + { + "epoch": 0.8615245827695084, + "grad_norm": 1.9921875, + "learning_rate": 7.270000000000001e-06, + "loss": 0.1427, + "step": 3820 + }, + { + "epoch": 0.8637798827244023, + "grad_norm": 3.546875, + "learning_rate": 7.236666666666667e-06, + "loss": 0.1193, + "step": 3830 + }, + { + "epoch": 0.8660351826792964, + "grad_norm": 4.1875, + "learning_rate": 7.203333333333334e-06, + "loss": 0.1337, + "step": 3840 + }, + { + "epoch": 0.8682904826341904, + "grad_norm": 2.78125, + "learning_rate": 7.17e-06, + "loss": 0.1472, + "step": 3850 + }, + { + "epoch": 0.8705457825890843, + "grad_norm": 2.75, + "learning_rate": 7.136666666666667e-06, + "loss": 0.1531, + "step": 3860 + }, + { + "epoch": 0.8728010825439784, + "grad_norm": 2.296875, + "learning_rate": 7.1033333333333345e-06, + "loss": 0.1334, + "step": 3870 + }, + { + "epoch": 0.8750563824988723, + "grad_norm": 2.765625, + "learning_rate": 7.07e-06, + "loss": 0.1339, + "step": 3880 + }, + { + "epoch": 0.8773116824537663, + "grad_norm": 3.234375, + "learning_rate": 7.036666666666667e-06, + "loss": 0.1369, + "step": 3890 + }, + { + "epoch": 0.8795669824086604, + "grad_norm": 3.765625, + "learning_rate": 7.003333333333335e-06, + "loss": 0.1214, + "step": 3900 + }, + { + "epoch": 0.8818222823635543, + "grad_norm": 2.734375, + "learning_rate": 6.97e-06, + "loss": 0.1387, + "step": 3910 + }, + { + "epoch": 0.8840775823184484, + "grad_norm": 3.125, + "learning_rate": 6.9366666666666675e-06, + "loss": 0.1469, + "step": 3920 + }, + { + "epoch": 0.8863328822733424, + "grad_norm": 2.5, + "learning_rate": 6.903333333333334e-06, + "loss": 0.1432, + "step": 3930 + }, + { + "epoch": 0.8885881822282363, + "grad_norm": 2.984375, + "learning_rate": 6.870000000000001e-06, + "loss": 0.1337, + "step": 3940 + }, + { + "epoch": 0.8908434821831304, + "grad_norm": 2.6875, + "learning_rate": 6.836666666666667e-06, + "loss": 0.131, + "step": 3950 + }, + { + "epoch": 0.8930987821380244, + "grad_norm": 2.78125, + "learning_rate": 6.803333333333334e-06, + "loss": 0.1385, + "step": 3960 + }, + { + "epoch": 0.8953540820929183, + "grad_norm": 2.1875, + "learning_rate": 6.770000000000001e-06, + "loss": 0.1379, + "step": 3970 + }, + { + "epoch": 0.8976093820478124, + "grad_norm": 2.640625, + "learning_rate": 6.736666666666667e-06, + "loss": 0.1307, + "step": 3980 + }, + { + "epoch": 0.8998646820027063, + "grad_norm": 3.109375, + "learning_rate": 6.703333333333334e-06, + "loss": 0.1199, + "step": 3990 + }, + { + "epoch": 0.9021199819576003, + "grad_norm": 3.109375, + "learning_rate": 6.6700000000000005e-06, + "loss": 0.1262, + "step": 4000 + }, + { + "epoch": 0.9043752819124944, + "grad_norm": 3.453125, + "learning_rate": 6.636666666666667e-06, + "loss": 0.1275, + "step": 4010 + }, + { + "epoch": 0.9066305818673883, + "grad_norm": 3.21875, + "learning_rate": 6.603333333333334e-06, + "loss": 0.1321, + "step": 4020 + }, + { + "epoch": 0.9088858818222824, + "grad_norm": 2.71875, + "learning_rate": 6.570000000000001e-06, + "loss": 0.1275, + "step": 4030 + }, + { + "epoch": 0.9111411817771764, + "grad_norm": 3.375, + "learning_rate": 6.536666666666667e-06, + "loss": 0.1068, + "step": 4040 + }, + { + "epoch": 0.9133964817320703, + "grad_norm": 2.984375, + "learning_rate": 6.5033333333333335e-06, + "loss": 0.1214, + "step": 4050 + }, + { + "epoch": 0.9156517816869644, + "grad_norm": 3.28125, + "learning_rate": 6.470000000000001e-06, + "loss": 0.1306, + "step": 4060 + }, + { + "epoch": 0.9179070816418584, + "grad_norm": 3.40625, + "learning_rate": 6.436666666666668e-06, + "loss": 0.1331, + "step": 4070 + }, + { + "epoch": 0.9201623815967523, + "grad_norm": 3.578125, + "learning_rate": 6.403333333333334e-06, + "loss": 0.1334, + "step": 4080 + }, + { + "epoch": 0.9224176815516464, + "grad_norm": 2.40625, + "learning_rate": 6.370000000000001e-06, + "loss": 0.1352, + "step": 4090 + }, + { + "epoch": 0.9246729815065403, + "grad_norm": 2.734375, + "learning_rate": 6.336666666666667e-06, + "loss": 0.1138, + "step": 4100 + }, + { + "epoch": 0.9269282814614344, + "grad_norm": 2.984375, + "learning_rate": 6.303333333333334e-06, + "loss": 0.1163, + "step": 4110 + }, + { + "epoch": 0.9291835814163284, + "grad_norm": 3.21875, + "learning_rate": 6.27e-06, + "loss": 0.1235, + "step": 4120 + }, + { + "epoch": 0.9314388813712223, + "grad_norm": 3.40625, + "learning_rate": 6.236666666666667e-06, + "loss": 0.128, + "step": 4130 + }, + { + "epoch": 0.9336941813261164, + "grad_norm": 2.828125, + "learning_rate": 6.203333333333334e-06, + "loss": 0.1254, + "step": 4140 + }, + { + "epoch": 0.9359494812810104, + "grad_norm": 2.78125, + "learning_rate": 6.17e-06, + "loss": 0.1272, + "step": 4150 + }, + { + "epoch": 0.9382047812359043, + "grad_norm": 2.390625, + "learning_rate": 6.1366666666666675e-06, + "loss": 0.1294, + "step": 4160 + }, + { + "epoch": 0.9404600811907984, + "grad_norm": 2.515625, + "learning_rate": 6.103333333333333e-06, + "loss": 0.1231, + "step": 4170 + }, + { + "epoch": 0.9427153811456924, + "grad_norm": 2.6875, + "learning_rate": 6.07e-06, + "loss": 0.1424, + "step": 4180 + }, + { + "epoch": 0.9449706811005864, + "grad_norm": 2.71875, + "learning_rate": 6.036666666666668e-06, + "loss": 0.1214, + "step": 4190 + }, + { + "epoch": 0.9472259810554804, + "grad_norm": 3.15625, + "learning_rate": 6.003333333333334e-06, + "loss": 0.1147, + "step": 4200 + }, + { + "epoch": 0.9494812810103744, + "grad_norm": 2.546875, + "learning_rate": 5.9700000000000004e-06, + "loss": 0.1256, + "step": 4210 + }, + { + "epoch": 0.9517365809652684, + "grad_norm": 2.796875, + "learning_rate": 5.936666666666667e-06, + "loss": 0.1232, + "step": 4220 + }, + { + "epoch": 0.9539918809201624, + "grad_norm": 2.765625, + "learning_rate": 5.903333333333334e-06, + "loss": 0.1103, + "step": 4230 + }, + { + "epoch": 0.9562471808750563, + "grad_norm": 4.09375, + "learning_rate": 5.8700000000000005e-06, + "loss": 0.1294, + "step": 4240 + }, + { + "epoch": 0.9585024808299504, + "grad_norm": 2.46875, + "learning_rate": 5.836666666666667e-06, + "loss": 0.1243, + "step": 4250 + }, + { + "epoch": 0.9607577807848444, + "grad_norm": 2.4375, + "learning_rate": 5.803333333333334e-06, + "loss": 0.1165, + "step": 4260 + }, + { + "epoch": 0.9630130807397383, + "grad_norm": 3.4375, + "learning_rate": 5.77e-06, + "loss": 0.1192, + "step": 4270 + }, + { + "epoch": 0.9652683806946324, + "grad_norm": 2.28125, + "learning_rate": 5.736666666666667e-06, + "loss": 0.1175, + "step": 4280 + }, + { + "epoch": 0.9675236806495264, + "grad_norm": 2.328125, + "learning_rate": 5.703333333333334e-06, + "loss": 0.1214, + "step": 4290 + }, + { + "epoch": 0.9697789806044204, + "grad_norm": 2.765625, + "learning_rate": 5.67e-06, + "loss": 0.1162, + "step": 4300 + }, + { + "epoch": 0.9720342805593144, + "grad_norm": 2.765625, + "learning_rate": 5.636666666666667e-06, + "loss": 0.1221, + "step": 4310 + }, + { + "epoch": 0.9742895805142084, + "grad_norm": 2.828125, + "learning_rate": 5.603333333333334e-06, + "loss": 0.1135, + "step": 4320 + }, + { + "epoch": 0.9765448804691024, + "grad_norm": 2.40625, + "learning_rate": 5.570000000000001e-06, + "loss": 0.1137, + "step": 4330 + }, + { + "epoch": 0.9788001804239964, + "grad_norm": 2.71875, + "learning_rate": 5.5366666666666665e-06, + "loss": 0.1209, + "step": 4340 + }, + { + "epoch": 0.9810554803788903, + "grad_norm": 2.203125, + "learning_rate": 5.503333333333334e-06, + "loss": 0.1373, + "step": 4350 + }, + { + "epoch": 0.9833107803337844, + "grad_norm": 2.640625, + "learning_rate": 5.470000000000001e-06, + "loss": 0.1196, + "step": 4360 + }, + { + "epoch": 0.9855660802886784, + "grad_norm": 3.0625, + "learning_rate": 5.4366666666666666e-06, + "loss": 0.1194, + "step": 4370 + }, + { + "epoch": 0.9878213802435724, + "grad_norm": 3.3125, + "learning_rate": 5.403333333333334e-06, + "loss": 0.1098, + "step": 4380 + }, + { + "epoch": 0.9900766801984664, + "grad_norm": 2.59375, + "learning_rate": 5.370000000000001e-06, + "loss": 0.1192, + "step": 4390 + }, + { + "epoch": 0.9923319801533604, + "grad_norm": 2.734375, + "learning_rate": 5.336666666666667e-06, + "loss": 0.1077, + "step": 4400 + }, + { + "epoch": 0.9945872801082544, + "grad_norm": 2.546875, + "learning_rate": 5.303333333333334e-06, + "loss": 0.126, + "step": 4410 + }, + { + "epoch": 0.9968425800631484, + "grad_norm": 2.828125, + "learning_rate": 5.27e-06, + "loss": 0.1223, + "step": 4420 + }, + { + "epoch": 0.9990978800180425, + "grad_norm": 3.515625, + "learning_rate": 5.236666666666667e-06, + "loss": 0.1176, + "step": 4430 + }, + { + "epoch": 1.0013531799729365, + "grad_norm": 2.640625, + "learning_rate": 5.203333333333333e-06, + "loss": 0.1064, + "step": 4440 + }, + { + "epoch": 1.0036084799278304, + "grad_norm": 1.5625, + "learning_rate": 5.1700000000000005e-06, + "loss": 0.1128, + "step": 4450 + }, + { + "epoch": 1.0058637798827244, + "grad_norm": 2.078125, + "learning_rate": 5.136666666666668e-06, + "loss": 0.0987, + "step": 4460 + }, + { + "epoch": 1.0081190798376185, + "grad_norm": 2.359375, + "learning_rate": 5.103333333333333e-06, + "loss": 0.1084, + "step": 4470 + }, + { + "epoch": 1.0103743797925124, + "grad_norm": 2.0, + "learning_rate": 5.070000000000001e-06, + "loss": 0.1035, + "step": 4480 + }, + { + "epoch": 1.0126296797474064, + "grad_norm": 2.234375, + "learning_rate": 5.036666666666668e-06, + "loss": 0.1083, + "step": 4490 + }, + { + "epoch": 1.0148849797023005, + "grad_norm": 2.359375, + "learning_rate": 5.0033333333333334e-06, + "loss": 0.117, + "step": 4500 + }, + { + "epoch": 1.0171402796571944, + "grad_norm": 3.234375, + "learning_rate": 4.970000000000001e-06, + "loss": 0.0979, + "step": 4510 + }, + { + "epoch": 1.0193955796120884, + "grad_norm": 1.9765625, + "learning_rate": 4.936666666666667e-06, + "loss": 0.0954, + "step": 4520 + }, + { + "epoch": 1.0216508795669823, + "grad_norm": 2.890625, + "learning_rate": 4.9033333333333335e-06, + "loss": 0.0957, + "step": 4530 + }, + { + "epoch": 1.0239061795218765, + "grad_norm": 3.046875, + "learning_rate": 4.87e-06, + "loss": 0.1065, + "step": 4540 + }, + { + "epoch": 1.0261614794767704, + "grad_norm": 2.046875, + "learning_rate": 4.836666666666667e-06, + "loss": 0.0878, + "step": 4550 + }, + { + "epoch": 1.0284167794316643, + "grad_norm": 2.390625, + "learning_rate": 4.803333333333334e-06, + "loss": 0.1011, + "step": 4560 + }, + { + "epoch": 1.0306720793865585, + "grad_norm": 2.828125, + "learning_rate": 4.77e-06, + "loss": 0.0977, + "step": 4570 + }, + { + "epoch": 1.0329273793414524, + "grad_norm": 2.59375, + "learning_rate": 4.736666666666667e-06, + "loss": 0.1086, + "step": 4580 + }, + { + "epoch": 1.0351826792963463, + "grad_norm": 2.203125, + "learning_rate": 4.703333333333334e-06, + "loss": 0.1006, + "step": 4590 + }, + { + "epoch": 1.0374379792512405, + "grad_norm": 3.65625, + "learning_rate": 4.670000000000001e-06, + "loss": 0.1144, + "step": 4600 + }, + { + "epoch": 1.0396932792061344, + "grad_norm": 2.40625, + "learning_rate": 4.6366666666666674e-06, + "loss": 0.101, + "step": 4610 + }, + { + "epoch": 1.0419485791610283, + "grad_norm": 2.171875, + "learning_rate": 4.603333333333334e-06, + "loss": 0.0841, + "step": 4620 + }, + { + "epoch": 1.0442038791159225, + "grad_norm": 3.921875, + "learning_rate": 4.57e-06, + "loss": 0.1046, + "step": 4630 + }, + { + "epoch": 1.0464591790708164, + "grad_norm": 2.4375, + "learning_rate": 4.536666666666667e-06, + "loss": 0.0975, + "step": 4640 + }, + { + "epoch": 1.0487144790257104, + "grad_norm": 3.171875, + "learning_rate": 4.503333333333333e-06, + "loss": 0.0955, + "step": 4650 + }, + { + "epoch": 1.0509697789806045, + "grad_norm": 2.546875, + "learning_rate": 4.47e-06, + "loss": 0.1083, + "step": 4660 + }, + { + "epoch": 1.0532250789354984, + "grad_norm": 2.078125, + "learning_rate": 4.436666666666667e-06, + "loss": 0.1139, + "step": 4670 + }, + { + "epoch": 1.0554803788903924, + "grad_norm": 2.421875, + "learning_rate": 4.403333333333334e-06, + "loss": 0.1052, + "step": 4680 + }, + { + "epoch": 1.0577356788452865, + "grad_norm": 2.09375, + "learning_rate": 4.3700000000000005e-06, + "loss": 0.0956, + "step": 4690 + }, + { + "epoch": 1.0599909788001805, + "grad_norm": 2.578125, + "learning_rate": 4.336666666666667e-06, + "loss": 0.0991, + "step": 4700 + }, + { + "epoch": 1.0622462787550744, + "grad_norm": 2.15625, + "learning_rate": 4.303333333333334e-06, + "loss": 0.1256, + "step": 4710 + }, + { + "epoch": 1.0645015787099683, + "grad_norm": 2.34375, + "learning_rate": 4.270000000000001e-06, + "loss": 0.1075, + "step": 4720 + }, + { + "epoch": 1.0667568786648625, + "grad_norm": 2.234375, + "learning_rate": 4.236666666666667e-06, + "loss": 0.0935, + "step": 4730 + }, + { + "epoch": 1.0690121786197564, + "grad_norm": 1.78125, + "learning_rate": 4.2033333333333335e-06, + "loss": 0.1012, + "step": 4740 + }, + { + "epoch": 1.0712674785746503, + "grad_norm": 2.0625, + "learning_rate": 4.17e-06, + "loss": 0.1035, + "step": 4750 + }, + { + "epoch": 1.0735227785295445, + "grad_norm": 3.328125, + "learning_rate": 4.136666666666667e-06, + "loss": 0.1075, + "step": 4760 + }, + { + "epoch": 1.0757780784844384, + "grad_norm": 1.9296875, + "learning_rate": 4.1033333333333336e-06, + "loss": 0.1054, + "step": 4770 + }, + { + "epoch": 1.0780333784393323, + "grad_norm": 2.265625, + "learning_rate": 4.07e-06, + "loss": 0.0883, + "step": 4780 + }, + { + "epoch": 1.0802886783942265, + "grad_norm": 2.390625, + "learning_rate": 4.036666666666667e-06, + "loss": 0.0988, + "step": 4790 + }, + { + "epoch": 1.0825439783491204, + "grad_norm": 3.078125, + "learning_rate": 4.003333333333334e-06, + "loss": 0.1047, + "step": 4800 + }, + { + "epoch": 1.0847992783040143, + "grad_norm": 2.84375, + "learning_rate": 3.97e-06, + "loss": 0.123, + "step": 4810 + }, + { + "epoch": 1.0870545782589085, + "grad_norm": 2.671875, + "learning_rate": 3.936666666666667e-06, + "loss": 0.0982, + "step": 4820 + }, + { + "epoch": 1.0893098782138024, + "grad_norm": 2.515625, + "learning_rate": 3.903333333333334e-06, + "loss": 0.1112, + "step": 4830 + }, + { + "epoch": 1.0915651781686964, + "grad_norm": 2.59375, + "learning_rate": 3.87e-06, + "loss": 0.119, + "step": 4840 + }, + { + "epoch": 1.0938204781235905, + "grad_norm": 1.9765625, + "learning_rate": 3.836666666666667e-06, + "loss": 0.0939, + "step": 4850 + }, + { + "epoch": 1.0960757780784844, + "grad_norm": 2.734375, + "learning_rate": 3.803333333333334e-06, + "loss": 0.0933, + "step": 4860 + }, + { + "epoch": 1.0983310780333784, + "grad_norm": 3.265625, + "learning_rate": 3.7700000000000003e-06, + "loss": 0.0983, + "step": 4870 + }, + { + "epoch": 1.1005863779882725, + "grad_norm": 1.8203125, + "learning_rate": 3.7366666666666667e-06, + "loss": 0.1099, + "step": 4880 + }, + { + "epoch": 1.1028416779431665, + "grad_norm": 2.203125, + "learning_rate": 3.7033333333333336e-06, + "loss": 0.0952, + "step": 4890 + }, + { + "epoch": 1.1050969778980604, + "grad_norm": 2.0625, + "learning_rate": 3.6700000000000004e-06, + "loss": 0.0789, + "step": 4900 + }, + { + "epoch": 1.1073522778529545, + "grad_norm": 2.234375, + "learning_rate": 3.6366666666666673e-06, + "loss": 0.1048, + "step": 4910 + }, + { + "epoch": 1.1096075778078485, + "grad_norm": 2.765625, + "learning_rate": 3.6033333333333337e-06, + "loss": 0.1165, + "step": 4920 + }, + { + "epoch": 1.1118628777627424, + "grad_norm": 3.46875, + "learning_rate": 3.57e-06, + "loss": 0.1013, + "step": 4930 + }, + { + "epoch": 1.1141181777176365, + "grad_norm": 2.609375, + "learning_rate": 3.536666666666667e-06, + "loss": 0.1291, + "step": 4940 + }, + { + "epoch": 1.1163734776725305, + "grad_norm": 2.3125, + "learning_rate": 3.5033333333333334e-06, + "loss": 0.1018, + "step": 4950 + }, + { + "epoch": 1.1186287776274244, + "grad_norm": 2.890625, + "learning_rate": 3.4700000000000002e-06, + "loss": 0.1039, + "step": 4960 + }, + { + "epoch": 1.1208840775823186, + "grad_norm": 2.65625, + "learning_rate": 3.436666666666667e-06, + "loss": 0.0958, + "step": 4970 + }, + { + "epoch": 1.1231393775372125, + "grad_norm": 2.140625, + "learning_rate": 3.4033333333333335e-06, + "loss": 0.0811, + "step": 4980 + }, + { + "epoch": 1.1253946774921064, + "grad_norm": 2.078125, + "learning_rate": 3.3700000000000003e-06, + "loss": 0.1002, + "step": 4990 + }, + { + "epoch": 1.1276499774470006, + "grad_norm": 2.53125, + "learning_rate": 3.3366666666666668e-06, + "loss": 0.1201, + "step": 5000 + }, + { + "epoch": 1.1299052774018945, + "grad_norm": 2.109375, + "learning_rate": 3.303333333333333e-06, + "loss": 0.1172, + "step": 5010 + }, + { + "epoch": 1.1321605773567884, + "grad_norm": 2.109375, + "learning_rate": 3.2700000000000005e-06, + "loss": 0.1013, + "step": 5020 + }, + { + "epoch": 1.1344158773116824, + "grad_norm": 2.859375, + "learning_rate": 3.236666666666667e-06, + "loss": 0.0815, + "step": 5030 + }, + { + "epoch": 1.1366711772665765, + "grad_norm": 1.859375, + "learning_rate": 3.2033333333333337e-06, + "loss": 0.1105, + "step": 5040 + }, + { + "epoch": 1.1389264772214704, + "grad_norm": 2.078125, + "learning_rate": 3.17e-06, + "loss": 0.1004, + "step": 5050 + }, + { + "epoch": 1.1411817771763644, + "grad_norm": 2.515625, + "learning_rate": 3.1366666666666666e-06, + "loss": 0.0956, + "step": 5060 + }, + { + "epoch": 1.1434370771312585, + "grad_norm": 2.234375, + "learning_rate": 3.103333333333334e-06, + "loss": 0.0966, + "step": 5070 + }, + { + "epoch": 1.1456923770861525, + "grad_norm": 1.671875, + "learning_rate": 3.0700000000000003e-06, + "loss": 0.1093, + "step": 5080 + }, + { + "epoch": 1.1479476770410464, + "grad_norm": 1.8984375, + "learning_rate": 3.0366666666666667e-06, + "loss": 0.1048, + "step": 5090 + }, + { + "epoch": 1.1502029769959405, + "grad_norm": 2.46875, + "learning_rate": 3.0033333333333335e-06, + "loss": 0.096, + "step": 5100 + }, + { + "epoch": 1.1524582769508345, + "grad_norm": 2.1875, + "learning_rate": 2.97e-06, + "loss": 0.1086, + "step": 5110 + }, + { + "epoch": 1.1547135769057284, + "grad_norm": 2.265625, + "learning_rate": 2.936666666666667e-06, + "loss": 0.107, + "step": 5120 + }, + { + "epoch": 1.1569688768606226, + "grad_norm": 2.359375, + "learning_rate": 2.9033333333333336e-06, + "loss": 0.101, + "step": 5130 + }, + { + "epoch": 1.1592241768155165, + "grad_norm": 1.9140625, + "learning_rate": 2.87e-06, + "loss": 0.0915, + "step": 5140 + }, + { + "epoch": 1.1614794767704104, + "grad_norm": 2.328125, + "learning_rate": 2.836666666666667e-06, + "loss": 0.1138, + "step": 5150 + }, + { + "epoch": 1.1637347767253043, + "grad_norm": 2.328125, + "learning_rate": 2.8033333333333333e-06, + "loss": 0.1046, + "step": 5160 + }, + { + "epoch": 1.1659900766801985, + "grad_norm": 2.953125, + "learning_rate": 2.7700000000000006e-06, + "loss": 0.1082, + "step": 5170 + }, + { + "epoch": 1.1682453766350924, + "grad_norm": 1.75, + "learning_rate": 2.736666666666667e-06, + "loss": 0.102, + "step": 5180 + }, + { + "epoch": 1.1705006765899864, + "grad_norm": 2.296875, + "learning_rate": 2.7033333333333334e-06, + "loss": 0.0988, + "step": 5190 + }, + { + "epoch": 1.1727559765448805, + "grad_norm": 3.015625, + "learning_rate": 2.6700000000000003e-06, + "loss": 0.1008, + "step": 5200 + }, + { + "epoch": 1.1750112764997744, + "grad_norm": 2.0625, + "learning_rate": 2.6366666666666667e-06, + "loss": 0.1001, + "step": 5210 + }, + { + "epoch": 1.1772665764546684, + "grad_norm": 1.765625, + "learning_rate": 2.603333333333334e-06, + "loss": 0.102, + "step": 5220 + }, + { + "epoch": 1.1795218764095625, + "grad_norm": 2.1875, + "learning_rate": 2.5700000000000004e-06, + "loss": 0.0954, + "step": 5230 + }, + { + "epoch": 1.1817771763644564, + "grad_norm": 2.546875, + "learning_rate": 2.536666666666667e-06, + "loss": 0.1014, + "step": 5240 + }, + { + "epoch": 1.1840324763193504, + "grad_norm": 1.6875, + "learning_rate": 2.5033333333333336e-06, + "loss": 0.1032, + "step": 5250 + }, + { + "epoch": 1.1862877762742445, + "grad_norm": 2.078125, + "learning_rate": 2.47e-06, + "loss": 0.1037, + "step": 5260 + }, + { + "epoch": 1.1885430762291385, + "grad_norm": 2.171875, + "learning_rate": 2.436666666666667e-06, + "loss": 0.0912, + "step": 5270 + }, + { + "epoch": 1.1907983761840324, + "grad_norm": 2.546875, + "learning_rate": 2.4033333333333338e-06, + "loss": 0.0874, + "step": 5280 + }, + { + "epoch": 1.1930536761389265, + "grad_norm": 2.296875, + "learning_rate": 2.37e-06, + "loss": 0.0877, + "step": 5290 + }, + { + "epoch": 1.1953089760938205, + "grad_norm": 2.875, + "learning_rate": 2.3366666666666666e-06, + "loss": 0.0966, + "step": 5300 + }, + { + "epoch": 1.1975642760487144, + "grad_norm": 1.9921875, + "learning_rate": 2.3033333333333334e-06, + "loss": 0.096, + "step": 5310 + }, + { + "epoch": 1.1998195760036086, + "grad_norm": 2.234375, + "learning_rate": 2.2700000000000003e-06, + "loss": 0.1119, + "step": 5320 + }, + { + "epoch": 1.2020748759585025, + "grad_norm": 2.078125, + "learning_rate": 2.236666666666667e-06, + "loss": 0.0967, + "step": 5330 + }, + { + "epoch": 1.2043301759133964, + "grad_norm": 1.921875, + "learning_rate": 2.2033333333333336e-06, + "loss": 0.1065, + "step": 5340 + }, + { + "epoch": 1.2065854758682906, + "grad_norm": 3.65625, + "learning_rate": 2.17e-06, + "loss": 0.1093, + "step": 5350 + }, + { + "epoch": 1.2088407758231845, + "grad_norm": 2.28125, + "learning_rate": 2.136666666666667e-06, + "loss": 0.1131, + "step": 5360 + }, + { + "epoch": 1.2110960757780784, + "grad_norm": 2.25, + "learning_rate": 2.1033333333333337e-06, + "loss": 0.0938, + "step": 5370 + }, + { + "epoch": 1.2133513757329726, + "grad_norm": 2.203125, + "learning_rate": 2.07e-06, + "loss": 0.0951, + "step": 5380 + }, + { + "epoch": 1.2156066756878665, + "grad_norm": 2.09375, + "learning_rate": 2.036666666666667e-06, + "loss": 0.1138, + "step": 5390 + }, + { + "epoch": 1.2178619756427604, + "grad_norm": 2.34375, + "learning_rate": 2.0033333333333334e-06, + "loss": 0.0944, + "step": 5400 + }, + { + "epoch": 1.2201172755976546, + "grad_norm": 1.9296875, + "learning_rate": 1.97e-06, + "loss": 0.0991, + "step": 5410 + }, + { + "epoch": 1.2223725755525485, + "grad_norm": 2.234375, + "learning_rate": 1.9366666666666666e-06, + "loss": 0.1096, + "step": 5420 + }, + { + "epoch": 1.2246278755074425, + "grad_norm": 2.03125, + "learning_rate": 1.9033333333333335e-06, + "loss": 0.1197, + "step": 5430 + }, + { + "epoch": 1.2268831754623366, + "grad_norm": 2.15625, + "learning_rate": 1.87e-06, + "loss": 0.1, + "step": 5440 + }, + { + "epoch": 1.2291384754172305, + "grad_norm": 2.15625, + "learning_rate": 1.836666666666667e-06, + "loss": 0.1017, + "step": 5450 + }, + { + "epoch": 1.2313937753721245, + "grad_norm": 2.234375, + "learning_rate": 1.8033333333333336e-06, + "loss": 0.1099, + "step": 5460 + }, + { + "epoch": 1.2336490753270186, + "grad_norm": 2.109375, + "learning_rate": 1.77e-06, + "loss": 0.1058, + "step": 5470 + }, + { + "epoch": 1.2359043752819125, + "grad_norm": 2.171875, + "learning_rate": 1.7366666666666668e-06, + "loss": 0.1007, + "step": 5480 + }, + { + "epoch": 1.2381596752368065, + "grad_norm": 2.375, + "learning_rate": 1.7033333333333335e-06, + "loss": 0.0947, + "step": 5490 + }, + { + "epoch": 1.2404149751917004, + "grad_norm": 2.125, + "learning_rate": 1.6700000000000003e-06, + "loss": 0.0936, + "step": 5500 + }, + { + "epoch": 1.2426702751465946, + "grad_norm": 1.8046875, + "learning_rate": 1.6366666666666667e-06, + "loss": 0.0957, + "step": 5510 + }, + { + "epoch": 1.2449255751014885, + "grad_norm": 2.125, + "learning_rate": 1.6033333333333334e-06, + "loss": 0.0963, + "step": 5520 + }, + { + "epoch": 1.2471808750563824, + "grad_norm": 2.5, + "learning_rate": 1.5700000000000002e-06, + "loss": 0.0909, + "step": 5530 + }, + { + "epoch": 1.2494361750112766, + "grad_norm": 1.96875, + "learning_rate": 1.5366666666666668e-06, + "loss": 0.0966, + "step": 5540 + }, + { + "epoch": 1.2516914749661705, + "grad_norm": 2.390625, + "learning_rate": 1.5033333333333337e-06, + "loss": 0.0886, + "step": 5550 + }, + { + "epoch": 1.2539467749210644, + "grad_norm": 2.609375, + "learning_rate": 1.4700000000000001e-06, + "loss": 0.0944, + "step": 5560 + }, + { + "epoch": 1.2562020748759586, + "grad_norm": 2.0625, + "learning_rate": 1.4366666666666667e-06, + "loss": 0.0871, + "step": 5570 + }, + { + "epoch": 1.2584573748308525, + "grad_norm": 2.40625, + "learning_rate": 1.4033333333333336e-06, + "loss": 0.0902, + "step": 5580 + }, + { + "epoch": 1.2607126747857464, + "grad_norm": 2.15625, + "learning_rate": 1.3700000000000002e-06, + "loss": 0.0996, + "step": 5590 + }, + { + "epoch": 1.2629679747406404, + "grad_norm": 1.890625, + "learning_rate": 1.3366666666666666e-06, + "loss": 0.1009, + "step": 5600 + }, + { + "epoch": 1.2652232746955345, + "grad_norm": 2.15625, + "learning_rate": 1.3033333333333335e-06, + "loss": 0.099, + "step": 5610 + }, + { + "epoch": 1.2674785746504285, + "grad_norm": 1.9375, + "learning_rate": 1.2700000000000001e-06, + "loss": 0.1065, + "step": 5620 + }, + { + "epoch": 1.2697338746053224, + "grad_norm": 2.03125, + "learning_rate": 1.2366666666666668e-06, + "loss": 0.0977, + "step": 5630 + }, + { + "epoch": 1.2719891745602165, + "grad_norm": 2.21875, + "learning_rate": 1.2033333333333334e-06, + "loss": 0.1096, + "step": 5640 + }, + { + "epoch": 1.2742444745151105, + "grad_norm": 2.75, + "learning_rate": 1.1700000000000002e-06, + "loss": 0.1027, + "step": 5650 + }, + { + "epoch": 1.2764997744700044, + "grad_norm": 2.09375, + "learning_rate": 1.1366666666666667e-06, + "loss": 0.0938, + "step": 5660 + }, + { + "epoch": 1.2787550744248986, + "grad_norm": 2.484375, + "learning_rate": 1.1033333333333335e-06, + "loss": 0.0834, + "step": 5670 + }, + { + "epoch": 1.2810103743797925, + "grad_norm": 2.421875, + "learning_rate": 1.0700000000000001e-06, + "loss": 0.087, + "step": 5680 + }, + { + "epoch": 1.2832656743346864, + "grad_norm": 1.796875, + "learning_rate": 1.0366666666666668e-06, + "loss": 0.1089, + "step": 5690 + }, + { + "epoch": 1.2855209742895806, + "grad_norm": 2.15625, + "learning_rate": 1.0033333333333334e-06, + "loss": 0.0969, + "step": 5700 + }, + { + "epoch": 1.2877762742444745, + "grad_norm": 2.03125, + "learning_rate": 9.7e-07, + "loss": 0.1005, + "step": 5710 + }, + { + "epoch": 1.2900315741993684, + "grad_norm": 2.484375, + "learning_rate": 9.366666666666667e-07, + "loss": 0.1077, + "step": 5720 + }, + { + "epoch": 1.2922868741542626, + "grad_norm": 1.8359375, + "learning_rate": 9.033333333333334e-07, + "loss": 0.0983, + "step": 5730 + }, + { + "epoch": 1.2945421741091565, + "grad_norm": 2.328125, + "learning_rate": 8.7e-07, + "loss": 0.0936, + "step": 5740 + }, + { + "epoch": 1.2967974740640504, + "grad_norm": 2.1875, + "learning_rate": 8.366666666666668e-07, + "loss": 0.0937, + "step": 5750 + }, + { + "epoch": 1.2990527740189446, + "grad_norm": 1.7265625, + "learning_rate": 8.033333333333335e-07, + "loss": 0.0905, + "step": 5760 + }, + { + "epoch": 1.3013080739738385, + "grad_norm": 2.1875, + "learning_rate": 7.7e-07, + "loss": 0.1029, + "step": 5770 + }, + { + "epoch": 1.3035633739287324, + "grad_norm": 2.3125, + "learning_rate": 7.366666666666668e-07, + "loss": 0.1108, + "step": 5780 + }, + { + "epoch": 1.3058186738836266, + "grad_norm": 2.484375, + "learning_rate": 7.033333333333334e-07, + "loss": 0.1051, + "step": 5790 + }, + { + "epoch": 1.3080739738385205, + "grad_norm": 2.109375, + "learning_rate": 6.7e-07, + "loss": 0.0908, + "step": 5800 + }, + { + "epoch": 1.3103292737934145, + "grad_norm": 2.390625, + "learning_rate": 6.366666666666667e-07, + "loss": 0.0964, + "step": 5810 + }, + { + "epoch": 1.3125845737483086, + "grad_norm": 2.453125, + "learning_rate": 6.033333333333334e-07, + "loss": 0.0863, + "step": 5820 + }, + { + "epoch": 1.3148398737032025, + "grad_norm": 1.8671875, + "learning_rate": 5.7e-07, + "loss": 0.0961, + "step": 5830 + }, + { + "epoch": 1.3170951736580965, + "grad_norm": 2.625, + "learning_rate": 5.366666666666667e-07, + "loss": 0.1163, + "step": 5840 + }, + { + "epoch": 1.3193504736129906, + "grad_norm": 2.171875, + "learning_rate": 5.033333333333334e-07, + "loss": 0.0911, + "step": 5850 + }, + { + "epoch": 1.3216057735678846, + "grad_norm": 1.984375, + "learning_rate": 4.7000000000000005e-07, + "loss": 0.0963, + "step": 5860 + }, + { + "epoch": 1.3238610735227785, + "grad_norm": 2.0625, + "learning_rate": 4.366666666666667e-07, + "loss": 0.1029, + "step": 5870 + }, + { + "epoch": 1.3261163734776726, + "grad_norm": 2.21875, + "learning_rate": 4.0333333333333337e-07, + "loss": 0.1062, + "step": 5880 + }, + { + "epoch": 1.3283716734325666, + "grad_norm": 2.171875, + "learning_rate": 3.7e-07, + "loss": 0.1057, + "step": 5890 + }, + { + "epoch": 1.3306269733874605, + "grad_norm": 1.9609375, + "learning_rate": 3.366666666666667e-07, + "loss": 0.0956, + "step": 5900 + }, + { + "epoch": 1.3328822733423547, + "grad_norm": 2.3125, + "learning_rate": 3.033333333333334e-07, + "loss": 0.0793, + "step": 5910 + }, + { + "epoch": 1.3351375732972486, + "grad_norm": 2.21875, + "learning_rate": 2.7e-07, + "loss": 0.1157, + "step": 5920 + }, + { + "epoch": 1.3373928732521425, + "grad_norm": 2.015625, + "learning_rate": 2.3666666666666667e-07, + "loss": 0.1071, + "step": 5930 + }, + { + "epoch": 1.3396481732070367, + "grad_norm": 2.421875, + "learning_rate": 2.0333333333333333e-07, + "loss": 0.1016, + "step": 5940 + }, + { + "epoch": 1.3419034731619306, + "grad_norm": 2.796875, + "learning_rate": 1.7000000000000001e-07, + "loss": 0.102, + "step": 5950 + }, + { + "epoch": 1.3441587731168245, + "grad_norm": 2.1875, + "learning_rate": 1.3666666666666667e-07, + "loss": 0.1001, + "step": 5960 + }, + { + "epoch": 1.3464140730717187, + "grad_norm": 1.828125, + "learning_rate": 1.0333333333333335e-07, + "loss": 0.0917, + "step": 5970 + }, + { + "epoch": 1.3486693730266126, + "grad_norm": 2.640625, + "learning_rate": 7e-08, + "loss": 0.0939, + "step": 5980 + }, + { + "epoch": 1.3509246729815065, + "grad_norm": 2.0625, + "learning_rate": 3.666666666666667e-08, + "loss": 0.0939, + "step": 5990 + }, + { + "epoch": 1.3531799729364005, + "grad_norm": 2.421875, + "learning_rate": 3.3333333333333334e-09, + "loss": 0.1001, + "step": 6000 + } + ], + "logging_steps": 10, + "max_steps": 6000, + "num_input_tokens_seen": 0, + "num_train_epochs": 2, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 4.426584689737728e+18, + "train_batch_size": 1, + "trial_name": null, + "trial_params": null +}