patient-V2.0 / checkpoint-5500 /trainer_state.json

Upload folder using huggingface_hub

0aa9a61 verified 5 months ago

89.6 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.2404149751917004,
	"eval_steps": 500,
	"global_step": 5500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0022552999548940008,
	"grad_norm": 3.71875,
	"learning_rate": 1.9970000000000004e-05,
	"loss": 1.2486,
	"step": 10
	},
	{
	"epoch": 0.0045105999097880016,
	"grad_norm": 2.9375,
	"learning_rate": 1.993666666666667e-05,
	"loss": 0.9533,
	"step": 20
	},
	{
	"epoch": 0.006765899864682003,
	"grad_norm": 2.71875,
	"learning_rate": 1.9903333333333333e-05,
	"loss": 0.8758,
	"step": 30
	},
	{
	"epoch": 0.009021199819576003,
	"grad_norm": 2.640625,
	"learning_rate": 1.987e-05,
	"loss": 0.8479,
	"step": 40
	},
	{
	"epoch": 0.011276499774470004,
	"grad_norm": 2.5625,
	"learning_rate": 1.983666666666667e-05,
	"loss": 0.8127,
	"step": 50
	},
	{
	"epoch": 0.013531799729364006,
	"grad_norm": 2.375,
	"learning_rate": 1.9803333333333334e-05,
	"loss": 0.812,
	"step": 60
	},
	{
	"epoch": 0.015787099684258007,
	"grad_norm": 2.421875,
	"learning_rate": 1.9770000000000002e-05,
	"loss": 0.7799,
	"step": 70
	},
	{
	"epoch": 0.018042399639152006,
	"grad_norm": 2.796875,
	"learning_rate": 1.9736666666666667e-05,
	"loss": 0.8005,
	"step": 80
	},
	{
	"epoch": 0.02029769959404601,
	"grad_norm": 2.40625,
	"learning_rate": 1.9703333333333335e-05,
	"loss": 0.7766,
	"step": 90
	},
	{
	"epoch": 0.02255299954894001,
	"grad_norm": 2.578125,
	"learning_rate": 1.9670000000000003e-05,
	"loss": 0.7611,
	"step": 100
	},
	{
	"epoch": 0.02480829950383401,
	"grad_norm": 2.375,
	"learning_rate": 1.9636666666666668e-05,
	"loss": 0.7492,
	"step": 110
	},
	{
	"epoch": 0.02706359945872801,
	"grad_norm": 2.421875,
	"learning_rate": 1.9603333333333333e-05,
	"loss": 0.7518,
	"step": 120
	},
	{
	"epoch": 0.02931889941362201,
	"grad_norm": 2.296875,
	"learning_rate": 1.957e-05,
	"loss": 0.7677,
	"step": 130
	},
	{
	"epoch": 0.031574199368516014,
	"grad_norm": 2.609375,
	"learning_rate": 1.953666666666667e-05,
	"loss": 0.7275,
	"step": 140
	},
	{
	"epoch": 0.03382949932341001,
	"grad_norm": 2.65625,
	"learning_rate": 1.9503333333333334e-05,
	"loss": 0.7348,
	"step": 150
	},
	{
	"epoch": 0.03608479927830401,
	"grad_norm": 2.421875,
	"learning_rate": 1.947e-05,
	"loss": 0.7438,
	"step": 160
	},
	{
	"epoch": 0.03834009923319801,
	"grad_norm": 2.203125,
	"learning_rate": 1.943666666666667e-05,
	"loss": 0.7227,
	"step": 170
	},
	{
	"epoch": 0.04059539918809202,
	"grad_norm": 2.453125,
	"learning_rate": 1.9403333333333334e-05,
	"loss": 0.7117,
	"step": 180
	},
	{
	"epoch": 0.04285069914298602,
	"grad_norm": 2.1875,
	"learning_rate": 1.9370000000000003e-05,
	"loss": 0.7232,
	"step": 190
	},
	{
	"epoch": 0.04510599909788002,
	"grad_norm": 2.25,
	"learning_rate": 1.9336666666666667e-05,
	"loss": 0.7289,
	"step": 200
	},
	{
	"epoch": 0.04736129905277402,
	"grad_norm": 2.265625,
	"learning_rate": 1.9303333333333335e-05,
	"loss": 0.6979,
	"step": 210
	},
	{
	"epoch": 0.04961659900766802,
	"grad_norm": 2.25,
	"learning_rate": 1.9270000000000004e-05,
	"loss": 0.6891,
	"step": 220
	},
	{
	"epoch": 0.05187189896256202,
	"grad_norm": 2.1875,
	"learning_rate": 1.9236666666666668e-05,
	"loss": 0.7168,
	"step": 230
	},
	{
	"epoch": 0.05412719891745602,
	"grad_norm": 2.578125,
	"learning_rate": 1.9203333333333333e-05,
	"loss": 0.6879,
	"step": 240
	},
	{
	"epoch": 0.05638249887235002,
	"grad_norm": 2.4375,
	"learning_rate": 1.917e-05,
	"loss": 0.6775,
	"step": 250
	},
	{
	"epoch": 0.05863779882724402,
	"grad_norm": 2.28125,
	"learning_rate": 1.913666666666667e-05,
	"loss": 0.6832,
	"step": 260
	},
	{
	"epoch": 0.06089309878213803,
	"grad_norm": 2.203125,
	"learning_rate": 1.9103333333333337e-05,
	"loss": 0.6553,
	"step": 270
	},
	{
	"epoch": 0.06314839873703203,
	"grad_norm": 2.265625,
	"learning_rate": 1.9070000000000002e-05,
	"loss": 0.6733,
	"step": 280
	},
	{
	"epoch": 0.06540369869192603,
	"grad_norm": 2.1875,
	"learning_rate": 1.9036666666666667e-05,
	"loss": 0.6811,
	"step": 290
	},
	{
	"epoch": 0.06765899864682003,
	"grad_norm": 2.40625,
	"learning_rate": 1.9003333333333335e-05,
	"loss": 0.668,
	"step": 300
	},
	{
	"epoch": 0.06991429860171403,
	"grad_norm": 2.265625,
	"learning_rate": 1.8970000000000003e-05,
	"loss": 0.6659,
	"step": 310
	},
	{
	"epoch": 0.07216959855660803,
	"grad_norm": 2.328125,
	"learning_rate": 1.8936666666666668e-05,
	"loss": 0.6776,
	"step": 320
	},
	{
	"epoch": 0.07442489851150202,
	"grad_norm": 2.5625,
	"learning_rate": 1.8903333333333336e-05,
	"loss": 0.6605,
	"step": 330
	},
	{
	"epoch": 0.07668019846639602,
	"grad_norm": 2.265625,
	"learning_rate": 1.887e-05,
	"loss": 0.6537,
	"step": 340
	},
	{
	"epoch": 0.07893549842129004,
	"grad_norm": 2.28125,
	"learning_rate": 1.883666666666667e-05,
	"loss": 0.6474,
	"step": 350
	},
	{
	"epoch": 0.08119079837618404,
	"grad_norm": 2.390625,
	"learning_rate": 1.8803333333333337e-05,
	"loss": 0.6272,
	"step": 360
	},
	{
	"epoch": 0.08344609833107804,
	"grad_norm": 2.28125,
	"learning_rate": 1.877e-05,
	"loss": 0.6406,
	"step": 370
	},
	{
	"epoch": 0.08570139828597204,
	"grad_norm": 2.296875,
	"learning_rate": 1.8736666666666666e-05,
	"loss": 0.6386,
	"step": 380
	},
	{
	"epoch": 0.08795669824086604,
	"grad_norm": 2.359375,
	"learning_rate": 1.8703333333333334e-05,
	"loss": 0.621,
	"step": 390
	},
	{
	"epoch": 0.09021199819576003,
	"grad_norm": 2.28125,
	"learning_rate": 1.8670000000000003e-05,
	"loss": 0.6657,
	"step": 400
	},
	{
	"epoch": 0.09246729815065403,
	"grad_norm": 2.953125,
	"learning_rate": 1.8636666666666667e-05,
	"loss": 0.6331,
	"step": 410
	},
	{
	"epoch": 0.09472259810554803,
	"grad_norm": 2.75,
	"learning_rate": 1.8603333333333335e-05,
	"loss": 0.6434,
	"step": 420
	},
	{
	"epoch": 0.09697789806044203,
	"grad_norm": 2.328125,
	"learning_rate": 1.857e-05,
	"loss": 0.6152,
	"step": 430
	},
	{
	"epoch": 0.09923319801533605,
	"grad_norm": 2.40625,
	"learning_rate": 1.8536666666666668e-05,
	"loss": 0.6462,
	"step": 440
	},
	{
	"epoch": 0.10148849797023005,
	"grad_norm": 2.8125,
	"learning_rate": 1.8503333333333336e-05,
	"loss": 0.5954,
	"step": 450
	},
	{
	"epoch": 0.10374379792512405,
	"grad_norm": 2.140625,
	"learning_rate": 1.847e-05,
	"loss": 0.6304,
	"step": 460
	},
	{
	"epoch": 0.10599909788001805,
	"grad_norm": 2.359375,
	"learning_rate": 1.8436666666666666e-05,
	"loss": 0.6318,
	"step": 470
	},
	{
	"epoch": 0.10825439783491204,
	"grad_norm": 2.375,
	"learning_rate": 1.8403333333333334e-05,
	"loss": 0.626,
	"step": 480
	},
	{
	"epoch": 0.11050969778980604,
	"grad_norm": 2.53125,
	"learning_rate": 1.8370000000000002e-05,
	"loss": 0.6112,
	"step": 490
	},
	{
	"epoch": 0.11276499774470004,
	"grad_norm": 2.359375,
	"learning_rate": 1.8336666666666667e-05,
	"loss": 0.6057,
	"step": 500
	},
	{
	"epoch": 0.11502029769959404,
	"grad_norm": 2.59375,
	"learning_rate": 1.8303333333333335e-05,
	"loss": 0.5819,
	"step": 510
	},
	{
	"epoch": 0.11727559765448804,
	"grad_norm": 2.65625,
	"learning_rate": 1.827e-05,
	"loss": 0.6126,
	"step": 520
	},
	{
	"epoch": 0.11953089760938204,
	"grad_norm": 2.34375,
	"learning_rate": 1.8236666666666668e-05,
	"loss": 0.6287,
	"step": 530
	},
	{
	"epoch": 0.12178619756427606,
	"grad_norm": 2.4375,
	"learning_rate": 1.8203333333333336e-05,
	"loss": 0.586,
	"step": 540
	},
	{
	"epoch": 0.12404149751917005,
	"grad_norm": 2.28125,
	"learning_rate": 1.817e-05,
	"loss": 0.6016,
	"step": 550
	},
	{
	"epoch": 0.12629679747406405,
	"grad_norm": 2.421875,
	"learning_rate": 1.813666666666667e-05,
	"loss": 0.582,
	"step": 560
	},
	{
	"epoch": 0.12855209742895804,
	"grad_norm": 2.375,
	"learning_rate": 1.8103333333333333e-05,
	"loss": 0.5885,
	"step": 570
	},
	{
	"epoch": 0.13080739738385205,
	"grad_norm": 2.515625,
	"learning_rate": 1.807e-05,
	"loss": 0.584,
	"step": 580
	},
	{
	"epoch": 0.13306269733874607,
	"grad_norm": 2.484375,
	"learning_rate": 1.803666666666667e-05,
	"loss": 0.5487,
	"step": 590
	},
	{
	"epoch": 0.13531799729364005,
	"grad_norm": 2.5,
	"learning_rate": 1.8003333333333334e-05,
	"loss": 0.5923,
	"step": 600
	},
	{
	"epoch": 0.13757329724853407,
	"grad_norm": 2.375,
	"learning_rate": 1.7970000000000002e-05,
	"loss": 0.5666,
	"step": 610
	},
	{
	"epoch": 0.13982859720342805,
	"grad_norm": 3.09375,
	"learning_rate": 1.793666666666667e-05,
	"loss": 0.5466,
	"step": 620
	},
	{
	"epoch": 0.14208389715832206,
	"grad_norm": 2.5,
	"learning_rate": 1.7903333333333335e-05,
	"loss": 0.5908,
	"step": 630
	},
	{
	"epoch": 0.14433919711321605,
	"grad_norm": 2.515625,
	"learning_rate": 1.787e-05,
	"loss": 0.5542,
	"step": 640
	},
	{
	"epoch": 0.14659449706811006,
	"grad_norm": 2.515625,
	"learning_rate": 1.7836666666666668e-05,
	"loss": 0.5659,
	"step": 650
	},
	{
	"epoch": 0.14884979702300405,
	"grad_norm": 2.578125,
	"learning_rate": 1.7803333333333336e-05,
	"loss": 0.5361,
	"step": 660
	},
	{
	"epoch": 0.15110509697789806,
	"grad_norm": 2.4375,
	"learning_rate": 1.777e-05,
	"loss": 0.555,
	"step": 670
	},
	{
	"epoch": 0.15336039693279205,
	"grad_norm": 2.609375,
	"learning_rate": 1.773666666666667e-05,
	"loss": 0.5435,
	"step": 680
	},
	{
	"epoch": 0.15561569688768606,
	"grad_norm": 2.46875,
	"learning_rate": 1.7703333333333334e-05,
	"loss": 0.5713,
	"step": 690
	},
	{
	"epoch": 0.15787099684258007,
	"grad_norm": 2.40625,
	"learning_rate": 1.7670000000000002e-05,
	"loss": 0.559,
	"step": 700
	},
	{
	"epoch": 0.16012629679747406,
	"grad_norm": 2.421875,
	"learning_rate": 1.763666666666667e-05,
	"loss": 0.5696,
	"step": 710
	},
	{
	"epoch": 0.16238159675236807,
	"grad_norm": 2.640625,
	"learning_rate": 1.7603333333333335e-05,
	"loss": 0.5345,
	"step": 720
	},
	{
	"epoch": 0.16463689670726206,
	"grad_norm": 2.4375,
	"learning_rate": 1.757e-05,
	"loss": 0.5774,
	"step": 730
	},
	{
	"epoch": 0.16689219666215607,
	"grad_norm": 2.375,
	"learning_rate": 1.7536666666666668e-05,
	"loss": 0.5448,
	"step": 740
	},
	{
	"epoch": 0.16914749661705006,
	"grad_norm": 2.515625,
	"learning_rate": 1.7503333333333336e-05,
	"loss": 0.5436,
	"step": 750
	},
	{
	"epoch": 0.17140279657194407,
	"grad_norm": 2.34375,
	"learning_rate": 1.7470000000000004e-05,
	"loss": 0.5383,
	"step": 760
	},
	{
	"epoch": 0.17365809652683806,
	"grad_norm": 2.375,
	"learning_rate": 1.743666666666667e-05,
	"loss": 0.5385,
	"step": 770
	},
	{
	"epoch": 0.17591339648173207,
	"grad_norm": 2.734375,
	"learning_rate": 1.7403333333333333e-05,
	"loss": 0.5367,
	"step": 780
	},
	{
	"epoch": 0.17816869643662608,
	"grad_norm": 2.46875,
	"learning_rate": 1.737e-05,
	"loss": 0.5622,
	"step": 790
	},
	{
	"epoch": 0.18042399639152007,
	"grad_norm": 2.59375,
	"learning_rate": 1.733666666666667e-05,
	"loss": 0.5064,
	"step": 800
	},
	{
	"epoch": 0.18267929634641408,
	"grad_norm": 2.4375,
	"learning_rate": 1.7303333333333334e-05,
	"loss": 0.528,
	"step": 810
	},
	{
	"epoch": 0.18493459630130807,
	"grad_norm": 2.53125,
	"learning_rate": 1.7270000000000002e-05,
	"loss": 0.5117,
	"step": 820
	},
	{
	"epoch": 0.18718989625620208,
	"grad_norm": 2.625,
	"learning_rate": 1.7236666666666667e-05,
	"loss": 0.5477,
	"step": 830
	},
	{
	"epoch": 0.18944519621109607,
	"grad_norm": 2.421875,
	"learning_rate": 1.7203333333333335e-05,
	"loss": 0.5131,
	"step": 840
	},
	{
	"epoch": 0.19170049616599008,
	"grad_norm": 2.96875,
	"learning_rate": 1.7170000000000003e-05,
	"loss": 0.4921,
	"step": 850
	},
	{
	"epoch": 0.19395579612088407,
	"grad_norm": 2.5625,
	"learning_rate": 1.7136666666666668e-05,
	"loss": 0.4937,
	"step": 860
	},
	{
	"epoch": 0.19621109607577808,
	"grad_norm": 2.53125,
	"learning_rate": 1.7103333333333333e-05,
	"loss": 0.508,
	"step": 870
	},
	{
	"epoch": 0.1984663960306721,
	"grad_norm": 2.625,
	"learning_rate": 1.707e-05,
	"loss": 0.5266,
	"step": 880
	},
	{
	"epoch": 0.20072169598556608,
	"grad_norm": 2.96875,
	"learning_rate": 1.703666666666667e-05,
	"loss": 0.5097,
	"step": 890
	},
	{
	"epoch": 0.2029769959404601,
	"grad_norm": 2.390625,
	"learning_rate": 1.7003333333333334e-05,
	"loss": 0.4993,
	"step": 900
	},
	{
	"epoch": 0.20523229589535408,
	"grad_norm": 2.65625,
	"learning_rate": 1.6970000000000002e-05,
	"loss": 0.482,
	"step": 910
	},
	{
	"epoch": 0.2074875958502481,
	"grad_norm": 2.796875,
	"learning_rate": 1.6936666666666667e-05,
	"loss": 0.496,
	"step": 920
	},
	{
	"epoch": 0.20974289580514208,
	"grad_norm": 2.734375,
	"learning_rate": 1.6903333333333335e-05,
	"loss": 0.4805,
	"step": 930
	},
	{
	"epoch": 0.2119981957600361,
	"grad_norm": 2.609375,
	"learning_rate": 1.6870000000000003e-05,
	"loss": 0.5179,
	"step": 940
	},
	{
	"epoch": 0.21425349571493008,
	"grad_norm": 2.5,
	"learning_rate": 1.6836666666666668e-05,
	"loss": 0.4581,
	"step": 950
	},
	{
	"epoch": 0.2165087956698241,
	"grad_norm": 2.671875,
	"learning_rate": 1.6803333333333332e-05,
	"loss": 0.4656,
	"step": 960
	},
	{
	"epoch": 0.21876409562471807,
	"grad_norm": 2.640625,
	"learning_rate": 1.677e-05,
	"loss": 0.4973,
	"step": 970
	},
	{
	"epoch": 0.2210193955796121,
	"grad_norm": 2.609375,
	"learning_rate": 1.673666666666667e-05,
	"loss": 0.4915,
	"step": 980
	},
	{
	"epoch": 0.2232746955345061,
	"grad_norm": 2.546875,
	"learning_rate": 1.6703333333333333e-05,
	"loss": 0.4807,
	"step": 990
	},
	{
	"epoch": 0.2255299954894001,
	"grad_norm": 2.484375,
	"learning_rate": 1.667e-05,
	"loss": 0.5139,
	"step": 1000
	},
	{
	"epoch": 0.2277852954442941,
	"grad_norm": 2.703125,
	"learning_rate": 1.6636666666666666e-05,
	"loss": 0.4795,
	"step": 1010
	},
	{
	"epoch": 0.23004059539918809,
	"grad_norm": 2.640625,
	"learning_rate": 1.6603333333333334e-05,
	"loss": 0.4759,
	"step": 1020
	},
	{
	"epoch": 0.2322958953540821,
	"grad_norm": 2.8125,
	"learning_rate": 1.6570000000000002e-05,
	"loss": 0.4646,
	"step": 1030
	},
	{
	"epoch": 0.23455119530897608,
	"grad_norm": 2.75,
	"learning_rate": 1.6536666666666667e-05,
	"loss": 0.4653,
	"step": 1040
	},
	{
	"epoch": 0.2368064952638701,
	"grad_norm": 2.640625,
	"learning_rate": 1.6503333333333335e-05,
	"loss": 0.4609,
	"step": 1050
	},
	{
	"epoch": 0.23906179521876408,
	"grad_norm": 2.6875,
	"learning_rate": 1.647e-05,
	"loss": 0.4676,
	"step": 1060
	},
	{
	"epoch": 0.2413170951736581,
	"grad_norm": 2.78125,
	"learning_rate": 1.6436666666666668e-05,
	"loss": 0.4495,
	"step": 1070
	},
	{
	"epoch": 0.2435723951285521,
	"grad_norm": 2.6875,
	"learning_rate": 1.6403333333333336e-05,
	"loss": 0.4443,
	"step": 1080
	},
	{
	"epoch": 0.2458276950834461,
	"grad_norm": 2.59375,
	"learning_rate": 1.637e-05,
	"loss": 0.4341,
	"step": 1090
	},
	{
	"epoch": 0.2480829950383401,
	"grad_norm": 2.84375,
	"learning_rate": 1.633666666666667e-05,
	"loss": 0.4294,
	"step": 1100
	},
	{
	"epoch": 0.2503382949932341,
	"grad_norm": 2.625,
	"learning_rate": 1.6303333333333337e-05,
	"loss": 0.439,
	"step": 1110
	},
	{
	"epoch": 0.2525935949481281,
	"grad_norm": 3.046875,
	"learning_rate": 1.6270000000000002e-05,
	"loss": 0.443,
	"step": 1120
	},
	{
	"epoch": 0.2548488949030221,
	"grad_norm": 2.65625,
	"learning_rate": 1.6236666666666667e-05,
	"loss": 0.4389,
	"step": 1130
	},
	{
	"epoch": 0.2571041948579161,
	"grad_norm": 2.859375,
	"learning_rate": 1.6203333333333335e-05,
	"loss": 0.46,
	"step": 1140
	},
	{
	"epoch": 0.2593594948128101,
	"grad_norm": 2.78125,
	"learning_rate": 1.6170000000000003e-05,
	"loss": 0.4469,
	"step": 1150
	},
	{
	"epoch": 0.2616147947677041,
	"grad_norm": 2.671875,
	"learning_rate": 1.6136666666666667e-05,
	"loss": 0.4485,
	"step": 1160
	},
	{
	"epoch": 0.2638700947225981,
	"grad_norm": 3.046875,
	"learning_rate": 1.6103333333333336e-05,
	"loss": 0.4414,
	"step": 1170
	},
	{
	"epoch": 0.26612539467749213,
	"grad_norm": 2.84375,
	"learning_rate": 1.607e-05,
	"loss": 0.4126,
	"step": 1180
	},
	{
	"epoch": 0.2683806946323861,
	"grad_norm": 3.078125,
	"learning_rate": 1.603666666666667e-05,
	"loss": 0.433,
	"step": 1190
	},
	{
	"epoch": 0.2706359945872801,
	"grad_norm": 2.859375,
	"learning_rate": 1.6003333333333337e-05,
	"loss": 0.4404,
	"step": 1200
	},
	{
	"epoch": 0.2728912945421741,
	"grad_norm": 2.921875,
	"learning_rate": 1.597e-05,
	"loss": 0.4279,
	"step": 1210
	},
	{
	"epoch": 0.27514659449706813,
	"grad_norm": 2.9375,
	"learning_rate": 1.5936666666666666e-05,
	"loss": 0.4333,
	"step": 1220
	},
	{
	"epoch": 0.2774018944519621,
	"grad_norm": 2.828125,
	"learning_rate": 1.5903333333333334e-05,
	"loss": 0.435,
	"step": 1230
	},
	{
	"epoch": 0.2796571944068561,
	"grad_norm": 2.9375,
	"learning_rate": 1.5870000000000002e-05,
	"loss": 0.4123,
	"step": 1240
	},
	{
	"epoch": 0.2819124943617501,
	"grad_norm": 3.03125,
	"learning_rate": 1.5836666666666667e-05,
	"loss": 0.4065,
	"step": 1250
	},
	{
	"epoch": 0.28416779431664413,
	"grad_norm": 3.21875,
	"learning_rate": 1.5803333333333335e-05,
	"loss": 0.4287,
	"step": 1260
	},
	{
	"epoch": 0.2864230942715381,
	"grad_norm": 2.96875,
	"learning_rate": 1.577e-05,
	"loss": 0.4649,
	"step": 1270
	},
	{
	"epoch": 0.2886783942264321,
	"grad_norm": 3.046875,
	"learning_rate": 1.5736666666666668e-05,
	"loss": 0.4076,
	"step": 1280
	},
	{
	"epoch": 0.29093369418132614,
	"grad_norm": 3.125,
	"learning_rate": 1.5703333333333336e-05,
	"loss": 0.421,
	"step": 1290
	},
	{
	"epoch": 0.2931889941362201,
	"grad_norm": 3.5625,
	"learning_rate": 1.567e-05,
	"loss": 0.3982,
	"step": 1300
	},
	{
	"epoch": 0.2954442940911141,
	"grad_norm": 2.828125,
	"learning_rate": 1.563666666666667e-05,
	"loss": 0.4121,
	"step": 1310
	},
	{
	"epoch": 0.2976995940460081,
	"grad_norm": 3.0,
	"learning_rate": 1.5603333333333334e-05,
	"loss": 0.4032,
	"step": 1320
	},
	{
	"epoch": 0.29995489400090214,
	"grad_norm": 2.890625,
	"learning_rate": 1.5570000000000002e-05,
	"loss": 0.423,
	"step": 1330
	},
	{
	"epoch": 0.3022101939557961,
	"grad_norm": 2.875,
	"learning_rate": 1.553666666666667e-05,
	"loss": 0.4193,
	"step": 1340
	},
	{
	"epoch": 0.3044654939106901,
	"grad_norm": 3.09375,
	"learning_rate": 1.5503333333333335e-05,
	"loss": 0.3834,
	"step": 1350
	},
	{
	"epoch": 0.3067207938655841,
	"grad_norm": 3.46875,
	"learning_rate": 1.547e-05,
	"loss": 0.4204,
	"step": 1360
	},
	{
	"epoch": 0.30897609382047814,
	"grad_norm": 2.65625,
	"learning_rate": 1.5436666666666667e-05,
	"loss": 0.4036,
	"step": 1370
	},
	{
	"epoch": 0.3112313937753721,
	"grad_norm": 2.8125,
	"learning_rate": 1.5403333333333335e-05,
	"loss": 0.3845,
	"step": 1380
	},
	{
	"epoch": 0.3134866937302661,
	"grad_norm": 3.234375,
	"learning_rate": 1.537e-05,
	"loss": 0.3615,
	"step": 1390
	},
	{
	"epoch": 0.31574199368516015,
	"grad_norm": 2.6875,
	"learning_rate": 1.533666666666667e-05,
	"loss": 0.3754,
	"step": 1400
	},
	{
	"epoch": 0.31799729364005414,
	"grad_norm": 3.15625,
	"learning_rate": 1.5303333333333333e-05,
	"loss": 0.3984,
	"step": 1410
	},
	{
	"epoch": 0.3202525935949481,
	"grad_norm": 3.515625,
	"learning_rate": 1.527e-05,
	"loss": 0.4009,
	"step": 1420
	},
	{
	"epoch": 0.3225078935498421,
	"grad_norm": 3.171875,
	"learning_rate": 1.523666666666667e-05,
	"loss": 0.3939,
	"step": 1430
	},
	{
	"epoch": 0.32476319350473615,
	"grad_norm": 3.34375,
	"learning_rate": 1.5203333333333334e-05,
	"loss": 0.3621,
	"step": 1440
	},
	{
	"epoch": 0.32701849345963013,
	"grad_norm": 3.71875,
	"learning_rate": 1.517e-05,
	"loss": 0.3901,
	"step": 1450
	},
	{
	"epoch": 0.3292737934145241,
	"grad_norm": 3.015625,
	"learning_rate": 1.5136666666666669e-05,
	"loss": 0.3602,
	"step": 1460
	},
	{
	"epoch": 0.33152909336941816,
	"grad_norm": 2.75,
	"learning_rate": 1.5103333333333335e-05,
	"loss": 0.3793,
	"step": 1470
	},
	{
	"epoch": 0.33378439332431215,
	"grad_norm": 3.140625,
	"learning_rate": 1.507e-05,
	"loss": 0.3698,
	"step": 1480
	},
	{
	"epoch": 0.33603969327920613,
	"grad_norm": 3.03125,
	"learning_rate": 1.5036666666666668e-05,
	"loss": 0.3785,
	"step": 1490
	},
	{
	"epoch": 0.3382949932341001,
	"grad_norm": 3.265625,
	"learning_rate": 1.5003333333333334e-05,
	"loss": 0.378,
	"step": 1500
	},
	{
	"epoch": 0.34055029318899416,
	"grad_norm": 3.515625,
	"learning_rate": 1.4970000000000002e-05,
	"loss": 0.3588,
	"step": 1510
	},
	{
	"epoch": 0.34280559314388814,
	"grad_norm": 3.125,
	"learning_rate": 1.4936666666666669e-05,
	"loss": 0.3602,
	"step": 1520
	},
	{
	"epoch": 0.34506089309878213,
	"grad_norm": 3.40625,
	"learning_rate": 1.4903333333333334e-05,
	"loss": 0.3342,
	"step": 1530
	},
	{
	"epoch": 0.3473161930536761,
	"grad_norm": 3.203125,
	"learning_rate": 1.4870000000000002e-05,
	"loss": 0.3603,
	"step": 1540
	},
	{
	"epoch": 0.34957149300857016,
	"grad_norm": 3.078125,
	"learning_rate": 1.4836666666666668e-05,
	"loss": 0.3346,
	"step": 1550
	},
	{
	"epoch": 0.35182679296346414,
	"grad_norm": 2.9375,
	"learning_rate": 1.4803333333333334e-05,
	"loss": 0.3419,
	"step": 1560
	},
	{
	"epoch": 0.3540820929183581,
	"grad_norm": 3.28125,
	"learning_rate": 1.4770000000000003e-05,
	"loss": 0.3459,
	"step": 1570
	},
	{
	"epoch": 0.35633739287325217,
	"grad_norm": 2.890625,
	"learning_rate": 1.4736666666666667e-05,
	"loss": 0.3671,
	"step": 1580
	},
	{
	"epoch": 0.35859269282814615,
	"grad_norm": 3.328125,
	"learning_rate": 1.4703333333333334e-05,
	"loss": 0.3479,
	"step": 1590
	},
	{
	"epoch": 0.36084799278304014,
	"grad_norm": 3.125,
	"learning_rate": 1.4670000000000002e-05,
	"loss": 0.3564,
	"step": 1600
	},
	{
	"epoch": 0.3631032927379341,
	"grad_norm": 3.171875,
	"learning_rate": 1.4636666666666668e-05,
	"loss": 0.3432,
	"step": 1610
	},
	{
	"epoch": 0.36535859269282817,
	"grad_norm": 3.15625,
	"learning_rate": 1.4603333333333333e-05,
	"loss": 0.3485,
	"step": 1620
	},
	{
	"epoch": 0.36761389264772215,
	"grad_norm": 3.265625,
	"learning_rate": 1.4570000000000001e-05,
	"loss": 0.3608,
	"step": 1630
	},
	{
	"epoch": 0.36986919260261614,
	"grad_norm": 3.0625,
	"learning_rate": 1.4536666666666668e-05,
	"loss": 0.3593,
	"step": 1640
	},
	{
	"epoch": 0.3721244925575101,
	"grad_norm": 3.0,
	"learning_rate": 1.4503333333333334e-05,
	"loss": 0.3225,
	"step": 1650
	},
	{
	"epoch": 0.37437979251240416,
	"grad_norm": 3.078125,
	"learning_rate": 1.4470000000000002e-05,
	"loss": 0.3608,
	"step": 1660
	},
	{
	"epoch": 0.37663509246729815,
	"grad_norm": 3.046875,
	"learning_rate": 1.4436666666666668e-05,
	"loss": 0.3625,
	"step": 1670
	},
	{
	"epoch": 0.37889039242219213,
	"grad_norm": 3.25,
	"learning_rate": 1.4403333333333333e-05,
	"loss": 0.342,
	"step": 1680
	},
	{
	"epoch": 0.3811456923770862,
	"grad_norm": 3.453125,
	"learning_rate": 1.4370000000000001e-05,
	"loss": 0.3633,
	"step": 1690
	},
	{
	"epoch": 0.38340099233198016,
	"grad_norm": 3.21875,
	"learning_rate": 1.4336666666666668e-05,
	"loss": 0.3485,
	"step": 1700
	},
	{
	"epoch": 0.38565629228687415,
	"grad_norm": 4.0,
	"learning_rate": 1.4303333333333334e-05,
	"loss": 0.3415,
	"step": 1710
	},
	{
	"epoch": 0.38791159224176813,
	"grad_norm": 3.609375,
	"learning_rate": 1.4270000000000002e-05,
	"loss": 0.3303,
	"step": 1720
	},
	{
	"epoch": 0.3901668921966622,
	"grad_norm": 3.71875,
	"learning_rate": 1.4236666666666667e-05,
	"loss": 0.3049,
	"step": 1730
	},
	{
	"epoch": 0.39242219215155616,
	"grad_norm": 2.828125,
	"learning_rate": 1.4203333333333333e-05,
	"loss": 0.3412,
	"step": 1740
	},
	{
	"epoch": 0.39467749210645015,
	"grad_norm": 3.125,
	"learning_rate": 1.4170000000000002e-05,
	"loss": 0.3199,
	"step": 1750
	},
	{
	"epoch": 0.3969327920613442,
	"grad_norm": 4.5,
	"learning_rate": 1.4136666666666668e-05,
	"loss": 0.3247,
	"step": 1760
	},
	{
	"epoch": 0.39918809201623817,
	"grad_norm": 3.671875,
	"learning_rate": 1.4103333333333336e-05,
	"loss": 0.3338,
	"step": 1770
	},
	{
	"epoch": 0.40144339197113216,
	"grad_norm": 3.234375,
	"learning_rate": 1.407e-05,
	"loss": 0.3122,
	"step": 1780
	},
	{
	"epoch": 0.40369869192602614,
	"grad_norm": 3.71875,
	"learning_rate": 1.4036666666666667e-05,
	"loss": 0.3121,
	"step": 1790
	},
	{
	"epoch": 0.4059539918809202,
	"grad_norm": 3.03125,
	"learning_rate": 1.4003333333333335e-05,
	"loss": 0.3229,
	"step": 1800
	},
	{
	"epoch": 0.40820929183581417,
	"grad_norm": 3.390625,
	"learning_rate": 1.3970000000000002e-05,
	"loss": 0.2885,
	"step": 1810
	},
	{
	"epoch": 0.41046459179070816,
	"grad_norm": 3.125,
	"learning_rate": 1.3936666666666666e-05,
	"loss": 0.2934,
	"step": 1820
	},
	{
	"epoch": 0.41271989174560214,
	"grad_norm": 3.234375,
	"learning_rate": 1.3903333333333335e-05,
	"loss": 0.2783,
	"step": 1830
	},
	{
	"epoch": 0.4149751917004962,
	"grad_norm": 3.921875,
	"learning_rate": 1.3870000000000001e-05,
	"loss": 0.3128,
	"step": 1840
	},
	{
	"epoch": 0.41723049165539017,
	"grad_norm": 3.078125,
	"learning_rate": 1.3836666666666667e-05,
	"loss": 0.3074,
	"step": 1850
	},
	{
	"epoch": 0.41948579161028415,
	"grad_norm": 3.40625,
	"learning_rate": 1.3803333333333336e-05,
	"loss": 0.2985,
	"step": 1860
	},
	{
	"epoch": 0.4217410915651782,
	"grad_norm": 3.40625,
	"learning_rate": 1.377e-05,
	"loss": 0.2824,
	"step": 1870
	},
	{
	"epoch": 0.4239963915200722,
	"grad_norm": 3.453125,
	"learning_rate": 1.3736666666666667e-05,
	"loss": 0.2961,
	"step": 1880
	},
	{
	"epoch": 0.42625169147496617,
	"grad_norm": 3.5,
	"learning_rate": 1.3703333333333335e-05,
	"loss": 0.2968,
	"step": 1890
	},
	{
	"epoch": 0.42850699142986015,
	"grad_norm": 4.09375,
	"learning_rate": 1.3670000000000001e-05,
	"loss": 0.3198,
	"step": 1900
	},
	{
	"epoch": 0.4307622913847542,
	"grad_norm": 3.296875,
	"learning_rate": 1.3636666666666668e-05,
	"loss": 0.2763,
	"step": 1910
	},
	{
	"epoch": 0.4330175913396482,
	"grad_norm": 3.40625,
	"learning_rate": 1.3603333333333336e-05,
	"loss": 0.2945,
	"step": 1920
	},
	{
	"epoch": 0.43527289129454216,
	"grad_norm": 3.140625,
	"learning_rate": 1.357e-05,
	"loss": 0.3013,
	"step": 1930
	},
	{
	"epoch": 0.43752819124943615,
	"grad_norm": 3.453125,
	"learning_rate": 1.3536666666666667e-05,
	"loss": 0.2897,
	"step": 1940
	},
	{
	"epoch": 0.4397834912043302,
	"grad_norm": 3.203125,
	"learning_rate": 1.3503333333333335e-05,
	"loss": 0.2591,
	"step": 1950
	},
	{
	"epoch": 0.4420387911592242,
	"grad_norm": 3.15625,
	"learning_rate": 1.3470000000000001e-05,
	"loss": 0.3079,
	"step": 1960
	},
	{
	"epoch": 0.44429409111411816,
	"grad_norm": 3.65625,
	"learning_rate": 1.3436666666666666e-05,
	"loss": 0.2955,
	"step": 1970
	},
	{
	"epoch": 0.4465493910690122,
	"grad_norm": 3.1875,
	"learning_rate": 1.3403333333333334e-05,
	"loss": 0.2737,
	"step": 1980
	},
	{
	"epoch": 0.4488046910239062,
	"grad_norm": 3.546875,
	"learning_rate": 1.337e-05,
	"loss": 0.2929,
	"step": 1990
	},
	{
	"epoch": 0.4510599909788002,
	"grad_norm": 2.828125,
	"learning_rate": 1.3336666666666667e-05,
	"loss": 0.2924,
	"step": 2000
	},
	{
	"epoch": 0.45331529093369416,
	"grad_norm": 4.3125,
	"learning_rate": 1.3303333333333335e-05,
	"loss": 0.2744,
	"step": 2010
	},
	{
	"epoch": 0.4555705908885882,
	"grad_norm": 3.15625,
	"learning_rate": 1.327e-05,
	"loss": 0.275,
	"step": 2020
	},
	{
	"epoch": 0.4578258908434822,
	"grad_norm": 3.578125,
	"learning_rate": 1.3236666666666668e-05,
	"loss": 0.2695,
	"step": 2030
	},
	{
	"epoch": 0.46008119079837617,
	"grad_norm": 3.421875,
	"learning_rate": 1.3203333333333335e-05,
	"loss": 0.2761,
	"step": 2040
	},
	{
	"epoch": 0.46233649075327016,
	"grad_norm": 3.375,
	"learning_rate": 1.3170000000000001e-05,
	"loss": 0.2953,
	"step": 2050
	},
	{
	"epoch": 0.4645917907081642,
	"grad_norm": 3.8125,
	"learning_rate": 1.3136666666666669e-05,
	"loss": 0.2901,
	"step": 2060
	},
	{
	"epoch": 0.4668470906630582,
	"grad_norm": 3.359375,
	"learning_rate": 1.3103333333333334e-05,
	"loss": 0.2906,
	"step": 2070
	},
	{
	"epoch": 0.46910239061795217,
	"grad_norm": 3.546875,
	"learning_rate": 1.307e-05,
	"loss": 0.2747,
	"step": 2080
	},
	{
	"epoch": 0.4713576905728462,
	"grad_norm": 3.59375,
	"learning_rate": 1.3036666666666668e-05,
	"loss": 0.2728,
	"step": 2090
	},
	{
	"epoch": 0.4736129905277402,
	"grad_norm": 3.0,
	"learning_rate": 1.3003333333333335e-05,
	"loss": 0.2464,
	"step": 2100
	},
	{
	"epoch": 0.4758682904826342,
	"grad_norm": 4.15625,
	"learning_rate": 1.2970000000000001e-05,
	"loss": 0.2853,
	"step": 2110
	},
	{
	"epoch": 0.47812359043752817,
	"grad_norm": 3.078125,
	"learning_rate": 1.293666666666667e-05,
	"loss": 0.2751,
	"step": 2120
	},
	{
	"epoch": 0.4803788903924222,
	"grad_norm": 3.109375,
	"learning_rate": 1.2903333333333334e-05,
	"loss": 0.2579,
	"step": 2130
	},
	{
	"epoch": 0.4826341903473162,
	"grad_norm": 3.109375,
	"learning_rate": 1.287e-05,
	"loss": 0.2758,
	"step": 2140
	},
	{
	"epoch": 0.4848894903022102,
	"grad_norm": 4.5,
	"learning_rate": 1.2836666666666669e-05,
	"loss": 0.2691,
	"step": 2150
	},
	{
	"epoch": 0.4871447902571042,
	"grad_norm": 3.90625,
	"learning_rate": 1.2803333333333335e-05,
	"loss": 0.2439,
	"step": 2160
	},
	{
	"epoch": 0.4894000902119982,
	"grad_norm": 3.59375,
	"learning_rate": 1.277e-05,
	"loss": 0.2501,
	"step": 2170
	},
	{
	"epoch": 0.4916553901668922,
	"grad_norm": 2.953125,
	"learning_rate": 1.2736666666666668e-05,
	"loss": 0.2561,
	"step": 2180
	},
	{
	"epoch": 0.4939106901217862,
	"grad_norm": 3.296875,
	"learning_rate": 1.2703333333333334e-05,
	"loss": 0.2318,
	"step": 2190
	},
	{
	"epoch": 0.4961659900766802,
	"grad_norm": 3.328125,
	"learning_rate": 1.267e-05,
	"loss": 0.2397,
	"step": 2200
	},
	{
	"epoch": 0.4984212900315742,
	"grad_norm": 3.6875,
	"learning_rate": 1.2636666666666669e-05,
	"loss": 0.2504,
	"step": 2210
	},
	{
	"epoch": 0.5006765899864682,
	"grad_norm": 3.6875,
	"learning_rate": 1.2603333333333334e-05,
	"loss": 0.257,
	"step": 2220
	},
	{
	"epoch": 0.5029318899413622,
	"grad_norm": 3.34375,
	"learning_rate": 1.257e-05,
	"loss": 0.2578,
	"step": 2230
	},
	{
	"epoch": 0.5051871898962562,
	"grad_norm": 3.578125,
	"learning_rate": 1.2536666666666668e-05,
	"loss": 0.2626,
	"step": 2240
	},
	{
	"epoch": 0.5074424898511503,
	"grad_norm": 3.609375,
	"learning_rate": 1.2503333333333334e-05,
	"loss": 0.2523,
	"step": 2250
	},
	{
	"epoch": 0.5096977898060442,
	"grad_norm": 3.28125,
	"learning_rate": 1.2470000000000003e-05,
	"loss": 0.2452,
	"step": 2260
	},
	{
	"epoch": 0.5119530897609382,
	"grad_norm": 5.125,
	"learning_rate": 1.2436666666666667e-05,
	"loss": 0.2278,
	"step": 2270
	},
	{
	"epoch": 0.5142083897158322,
	"grad_norm": 3.46875,
	"learning_rate": 1.2403333333333334e-05,
	"loss": 0.235,
	"step": 2280
	},
	{
	"epoch": 0.5164636896707262,
	"grad_norm": 3.78125,
	"learning_rate": 1.2370000000000002e-05,
	"loss": 0.2427,
	"step": 2290
	},
	{
	"epoch": 0.5187189896256202,
	"grad_norm": 3.328125,
	"learning_rate": 1.2336666666666668e-05,
	"loss": 0.2522,
	"step": 2300
	},
	{
	"epoch": 0.5209742895805142,
	"grad_norm": 3.296875,
	"learning_rate": 1.2303333333333333e-05,
	"loss": 0.2325,
	"step": 2310
	},
	{
	"epoch": 0.5232295895354082,
	"grad_norm": 3.21875,
	"learning_rate": 1.2270000000000001e-05,
	"loss": 0.2595,
	"step": 2320
	},
	{
	"epoch": 0.5254848894903023,
	"grad_norm": 3.3125,
	"learning_rate": 1.2236666666666668e-05,
	"loss": 0.2683,
	"step": 2330
	},
	{
	"epoch": 0.5277401894451962,
	"grad_norm": 3.515625,
	"learning_rate": 1.2203333333333334e-05,
	"loss": 0.2327,
	"step": 2340
	},
	{
	"epoch": 0.5299954894000902,
	"grad_norm": 3.359375,
	"learning_rate": 1.2170000000000002e-05,
	"loss": 0.2305,
	"step": 2350
	},
	{
	"epoch": 0.5322507893549843,
	"grad_norm": 4.03125,
	"learning_rate": 1.2136666666666668e-05,
	"loss": 0.24,
	"step": 2360
	},
	{
	"epoch": 0.5345060893098782,
	"grad_norm": 3.171875,
	"learning_rate": 1.2103333333333333e-05,
	"loss": 0.2226,
	"step": 2370
	},
	{
	"epoch": 0.5367613892647722,
	"grad_norm": 3.046875,
	"learning_rate": 1.2070000000000001e-05,
	"loss": 0.2288,
	"step": 2380
	},
	{
	"epoch": 0.5390166892196662,
	"grad_norm": 3.46875,
	"learning_rate": 1.2036666666666668e-05,
	"loss": 0.2564,
	"step": 2390
	},
	{
	"epoch": 0.5412719891745602,
	"grad_norm": 3.703125,
	"learning_rate": 1.2003333333333334e-05,
	"loss": 0.2115,
	"step": 2400
	},
	{
	"epoch": 0.5435272891294542,
	"grad_norm": 3.46875,
	"learning_rate": 1.1970000000000002e-05,
	"loss": 0.2255,
	"step": 2410
	},
	{
	"epoch": 0.5457825890843482,
	"grad_norm": 3.765625,
	"learning_rate": 1.1936666666666667e-05,
	"loss": 0.2214,
	"step": 2420
	},
	{
	"epoch": 0.5480378890392422,
	"grad_norm": 3.9375,
	"learning_rate": 1.1903333333333333e-05,
	"loss": 0.2212,
	"step": 2430
	},
	{
	"epoch": 0.5502931889941363,
	"grad_norm": 3.796875,
	"learning_rate": 1.1870000000000002e-05,
	"loss": 0.2266,
	"step": 2440
	},
	{
	"epoch": 0.5525484889490302,
	"grad_norm": 3.203125,
	"learning_rate": 1.1836666666666668e-05,
	"loss": 0.2291,
	"step": 2450
	},
	{
	"epoch": 0.5548037889039242,
	"grad_norm": 4.6875,
	"learning_rate": 1.1803333333333333e-05,
	"loss": 0.212,
	"step": 2460
	},
	{
	"epoch": 0.5570590888588183,
	"grad_norm": 2.953125,
	"learning_rate": 1.177e-05,
	"loss": 0.2133,
	"step": 2470
	},
	{
	"epoch": 0.5593143888137122,
	"grad_norm": 4.1875,
	"learning_rate": 1.1736666666666667e-05,
	"loss": 0.2606,
	"step": 2480
	},
	{
	"epoch": 0.5615696887686062,
	"grad_norm": 3.53125,
	"learning_rate": 1.1703333333333334e-05,
	"loss": 0.2446,
	"step": 2490
	},
	{
	"epoch": 0.5638249887235002,
	"grad_norm": 3.546875,
	"learning_rate": 1.1670000000000002e-05,
	"loss": 0.2264,
	"step": 2500
	},
	{
	"epoch": 0.5660802886783942,
	"grad_norm": 3.921875,
	"learning_rate": 1.1636666666666666e-05,
	"loss": 0.2218,
	"step": 2510
	},
	{
	"epoch": 0.5683355886332883,
	"grad_norm": 3.015625,
	"learning_rate": 1.1603333333333335e-05,
	"loss": 0.196,
	"step": 2520
	},
	{
	"epoch": 0.5705908885881822,
	"grad_norm": 3.59375,
	"learning_rate": 1.1570000000000001e-05,
	"loss": 0.2327,
	"step": 2530
	},
	{
	"epoch": 0.5728461885430762,
	"grad_norm": 3.125,
	"learning_rate": 1.1536666666666667e-05,
	"loss": 0.2224,
	"step": 2540
	},
	{
	"epoch": 0.5751014884979703,
	"grad_norm": 3.765625,
	"learning_rate": 1.1503333333333336e-05,
	"loss": 0.2198,
	"step": 2550
	},
	{
	"epoch": 0.5773567884528642,
	"grad_norm": 3.28125,
	"learning_rate": 1.147e-05,
	"loss": 0.2146,
	"step": 2560
	},
	{
	"epoch": 0.5796120884077582,
	"grad_norm": 4.0625,
	"learning_rate": 1.1436666666666667e-05,
	"loss": 0.2217,
	"step": 2570
	},
	{
	"epoch": 0.5818673883626523,
	"grad_norm": 3.515625,
	"learning_rate": 1.1403333333333335e-05,
	"loss": 0.2039,
	"step": 2580
	},
	{
	"epoch": 0.5841226883175462,
	"grad_norm": 3.484375,
	"learning_rate": 1.1370000000000001e-05,
	"loss": 0.218,
	"step": 2590
	},
	{
	"epoch": 0.5863779882724403,
	"grad_norm": 3.921875,
	"learning_rate": 1.1336666666666668e-05,
	"loss": 0.2031,
	"step": 2600
	},
	{
	"epoch": 0.5886332882273342,
	"grad_norm": 3.796875,
	"learning_rate": 1.1303333333333336e-05,
	"loss": 0.1942,
	"step": 2610
	},
	{
	"epoch": 0.5908885881822282,
	"grad_norm": 4.03125,
	"learning_rate": 1.127e-05,
	"loss": 0.203,
	"step": 2620
	},
	{
	"epoch": 0.5931438881371223,
	"grad_norm": 3.25,
	"learning_rate": 1.1236666666666667e-05,
	"loss": 0.2204,
	"step": 2630
	},
	{
	"epoch": 0.5953991880920162,
	"grad_norm": 3.53125,
	"learning_rate": 1.1203333333333335e-05,
	"loss": 0.2046,
	"step": 2640
	},
	{
	"epoch": 0.5976544880469102,
	"grad_norm": 4.0,
	"learning_rate": 1.1170000000000001e-05,
	"loss": 0.2083,
	"step": 2650
	},
	{
	"epoch": 0.5999097880018043,
	"grad_norm": 4.15625,
	"learning_rate": 1.1136666666666666e-05,
	"loss": 0.2206,
	"step": 2660
	},
	{
	"epoch": 0.6021650879566982,
	"grad_norm": 4.0625,
	"learning_rate": 1.1103333333333334e-05,
	"loss": 0.2108,
	"step": 2670
	},
	{
	"epoch": 0.6044203879115922,
	"grad_norm": 3.90625,
	"learning_rate": 1.107e-05,
	"loss": 0.1931,
	"step": 2680
	},
	{
	"epoch": 0.6066756878664863,
	"grad_norm": 4.8125,
	"learning_rate": 1.1036666666666667e-05,
	"loss": 0.1909,
	"step": 2690
	},
	{
	"epoch": 0.6089309878213802,
	"grad_norm": 3.328125,
	"learning_rate": 1.1003333333333335e-05,
	"loss": 0.1994,
	"step": 2700
	},
	{
	"epoch": 0.6111862877762743,
	"grad_norm": 3.0625,
	"learning_rate": 1.097e-05,
	"loss": 0.1967,
	"step": 2710
	},
	{
	"epoch": 0.6134415877311682,
	"grad_norm": 3.546875,
	"learning_rate": 1.0936666666666666e-05,
	"loss": 0.2082,
	"step": 2720
	},
	{
	"epoch": 0.6156968876860622,
	"grad_norm": 3.03125,
	"learning_rate": 1.0903333333333335e-05,
	"loss": 0.2245,
	"step": 2730
	},
	{
	"epoch": 0.6179521876409563,
	"grad_norm": 3.25,
	"learning_rate": 1.0870000000000001e-05,
	"loss": 0.1893,
	"step": 2740
	},
	{
	"epoch": 0.6202074875958502,
	"grad_norm": 3.671875,
	"learning_rate": 1.0836666666666666e-05,
	"loss": 0.2133,
	"step": 2750
	},
	{
	"epoch": 0.6224627875507442,
	"grad_norm": 3.625,
	"learning_rate": 1.0803333333333334e-05,
	"loss": 0.1912,
	"step": 2760
	},
	{
	"epoch": 0.6247180875056383,
	"grad_norm": 3.609375,
	"learning_rate": 1.077e-05,
	"loss": 0.1967,
	"step": 2770
	},
	{
	"epoch": 0.6269733874605322,
	"grad_norm": 3.1875,
	"learning_rate": 1.0736666666666668e-05,
	"loss": 0.1858,
	"step": 2780
	},
	{
	"epoch": 0.6292286874154263,
	"grad_norm": 3.546875,
	"learning_rate": 1.0703333333333335e-05,
	"loss": 0.1995,
	"step": 2790
	},
	{
	"epoch": 0.6314839873703203,
	"grad_norm": 4.875,
	"learning_rate": 1.0670000000000001e-05,
	"loss": 0.1911,
	"step": 2800
	},
	{
	"epoch": 0.6337392873252142,
	"grad_norm": 4.3125,
	"learning_rate": 1.063666666666667e-05,
	"loss": 0.1938,
	"step": 2810
	},
	{
	"epoch": 0.6359945872801083,
	"grad_norm": 4.625,
	"learning_rate": 1.0603333333333334e-05,
	"loss": 0.215,
	"step": 2820
	},
	{
	"epoch": 0.6382498872350022,
	"grad_norm": 2.78125,
	"learning_rate": 1.057e-05,
	"loss": 0.2065,
	"step": 2830
	},
	{
	"epoch": 0.6405051871898962,
	"grad_norm": 3.0625,
	"learning_rate": 1.0536666666666669e-05,
	"loss": 0.1796,
	"step": 2840
	},
	{
	"epoch": 0.6427604871447903,
	"grad_norm": 3.796875,
	"learning_rate": 1.0503333333333335e-05,
	"loss": 0.1766,
	"step": 2850
	},
	{
	"epoch": 0.6450157870996842,
	"grad_norm": 4.5,
	"learning_rate": 1.047e-05,
	"loss": 0.1652,
	"step": 2860
	},
	{
	"epoch": 0.6472710870545783,
	"grad_norm": 3.421875,
	"learning_rate": 1.0436666666666668e-05,
	"loss": 0.1858,
	"step": 2870
	},
	{
	"epoch": 0.6495263870094723,
	"grad_norm": 3.28125,
	"learning_rate": 1.0403333333333334e-05,
	"loss": 0.1756,
	"step": 2880
	},
	{
	"epoch": 0.6517816869643662,
	"grad_norm": 3.265625,
	"learning_rate": 1.037e-05,
	"loss": 0.176,
	"step": 2890
	},
	{
	"epoch": 0.6540369869192603,
	"grad_norm": 3.203125,
	"learning_rate": 1.0336666666666669e-05,
	"loss": 0.1903,
	"step": 2900
	},
	{
	"epoch": 0.6562922868741543,
	"grad_norm": 4.0,
	"learning_rate": 1.0303333333333334e-05,
	"loss": 0.1878,
	"step": 2910
	},
	{
	"epoch": 0.6585475868290482,
	"grad_norm": 4.21875,
	"learning_rate": 1.027e-05,
	"loss": 0.1806,
	"step": 2920
	},
	{
	"epoch": 0.6608028867839423,
	"grad_norm": 3.109375,
	"learning_rate": 1.0236666666666668e-05,
	"loss": 0.1777,
	"step": 2930
	},
	{
	"epoch": 0.6630581867388363,
	"grad_norm": 4.0625,
	"learning_rate": 1.0203333333333334e-05,
	"loss": 0.1851,
	"step": 2940
	},
	{
	"epoch": 0.6653134866937302,
	"grad_norm": 2.90625,
	"learning_rate": 1.017e-05,
	"loss": 0.1684,
	"step": 2950
	},
	{
	"epoch": 0.6675687866486243,
	"grad_norm": 3.625,
	"learning_rate": 1.0136666666666667e-05,
	"loss": 0.1687,
	"step": 2960
	},
	{
	"epoch": 0.6698240866035182,
	"grad_norm": 3.375,
	"learning_rate": 1.0103333333333334e-05,
	"loss": 0.1723,
	"step": 2970
	},
	{
	"epoch": 0.6720793865584123,
	"grad_norm": 2.96875,
	"learning_rate": 1.007e-05,
	"loss": 0.1795,
	"step": 2980
	},
	{
	"epoch": 0.6743346865133063,
	"grad_norm": 3.484375,
	"learning_rate": 1.0036666666666668e-05,
	"loss": 0.1718,
	"step": 2990
	},
	{
	"epoch": 0.6765899864682002,
	"grad_norm": 3.5625,
	"learning_rate": 1.0003333333333333e-05,
	"loss": 0.1691,
	"step": 3000
	},
	{
	"epoch": 0.6788452864230943,
	"grad_norm": 3.203125,
	"learning_rate": 9.970000000000001e-06,
	"loss": 0.1805,
	"step": 3010
	},
	{
	"epoch": 0.6811005863779883,
	"grad_norm": 2.78125,
	"learning_rate": 9.936666666666668e-06,
	"loss": 0.1844,
	"step": 3020
	},
	{
	"epoch": 0.6833558863328822,
	"grad_norm": 4.21875,
	"learning_rate": 9.903333333333334e-06,
	"loss": 0.1612,
	"step": 3030
	},
	{
	"epoch": 0.6856111862877763,
	"grad_norm": 3.140625,
	"learning_rate": 9.87e-06,
	"loss": 0.1719,
	"step": 3040
	},
	{
	"epoch": 0.6878664862426703,
	"grad_norm": 3.78125,
	"learning_rate": 9.836666666666668e-06,
	"loss": 0.1639,
	"step": 3050
	},
	{
	"epoch": 0.6901217861975643,
	"grad_norm": 3.59375,
	"learning_rate": 9.803333333333333e-06,
	"loss": 0.1555,
	"step": 3060
	},
	{
	"epoch": 0.6923770861524583,
	"grad_norm": 3.109375,
	"learning_rate": 9.770000000000001e-06,
	"loss": 0.1695,
	"step": 3070
	},
	{
	"epoch": 0.6946323861073522,
	"grad_norm": 3.203125,
	"learning_rate": 9.736666666666668e-06,
	"loss": 0.1684,
	"step": 3080
	},
	{
	"epoch": 0.6968876860622463,
	"grad_norm": 3.546875,
	"learning_rate": 9.703333333333334e-06,
	"loss": 0.1669,
	"step": 3090
	},
	{
	"epoch": 0.6991429860171403,
	"grad_norm": 3.6875,
	"learning_rate": 9.67e-06,
	"loss": 0.1789,
	"step": 3100
	},
	{
	"epoch": 0.7013982859720342,
	"grad_norm": 3.578125,
	"learning_rate": 9.636666666666667e-06,
	"loss": 0.1776,
	"step": 3110
	},
	{
	"epoch": 0.7036535859269283,
	"grad_norm": 3.125,
	"learning_rate": 9.603333333333335e-06,
	"loss": 0.1561,
	"step": 3120
	},
	{
	"epoch": 0.7059088858818223,
	"grad_norm": 3.125,
	"learning_rate": 9.57e-06,
	"loss": 0.1609,
	"step": 3130
	},
	{
	"epoch": 0.7081641858367163,
	"grad_norm": 3.75,
	"learning_rate": 9.536666666666668e-06,
	"loss": 0.1398,
	"step": 3140
	},
	{
	"epoch": 0.7104194857916103,
	"grad_norm": 3.3125,
	"learning_rate": 9.503333333333334e-06,
	"loss": 0.167,
	"step": 3150
	},
	{
	"epoch": 0.7126747857465043,
	"grad_norm": 3.75,
	"learning_rate": 9.47e-06,
	"loss": 0.1546,
	"step": 3160
	},
	{
	"epoch": 0.7149300857013983,
	"grad_norm": 3.546875,
	"learning_rate": 9.436666666666667e-06,
	"loss": 0.1555,
	"step": 3170
	},
	{
	"epoch": 0.7171853856562923,
	"grad_norm": 3.15625,
	"learning_rate": 9.403333333333334e-06,
	"loss": 0.1766,
	"step": 3180
	},
	{
	"epoch": 0.7194406856111862,
	"grad_norm": 3.390625,
	"learning_rate": 9.370000000000002e-06,
	"loss": 0.1705,
	"step": 3190
	},
	{
	"epoch": 0.7216959855660803,
	"grad_norm": 3.671875,
	"learning_rate": 9.336666666666666e-06,
	"loss": 0.1784,
	"step": 3200
	},
	{
	"epoch": 0.7239512855209743,
	"grad_norm": 3.125,
	"learning_rate": 9.303333333333335e-06,
	"loss": 0.1705,
	"step": 3210
	},
	{
	"epoch": 0.7262065854758682,
	"grad_norm": 3.28125,
	"learning_rate": 9.270000000000001e-06,
	"loss": 0.1562,
	"step": 3220
	},
	{
	"epoch": 0.7284618854307623,
	"grad_norm": 2.96875,
	"learning_rate": 9.236666666666667e-06,
	"loss": 0.1421,
	"step": 3230
	},
	{
	"epoch": 0.7307171853856563,
	"grad_norm": 3.609375,
	"learning_rate": 9.203333333333334e-06,
	"loss": 0.1663,
	"step": 3240
	},
	{
	"epoch": 0.7329724853405503,
	"grad_norm": 2.84375,
	"learning_rate": 9.17e-06,
	"loss": 0.1729,
	"step": 3250
	},
	{
	"epoch": 0.7352277852954443,
	"grad_norm": 2.921875,
	"learning_rate": 9.136666666666667e-06,
	"loss": 0.1572,
	"step": 3260
	},
	{
	"epoch": 0.7374830852503383,
	"grad_norm": 2.75,
	"learning_rate": 9.103333333333335e-06,
	"loss": 0.1574,
	"step": 3270
	},
	{
	"epoch": 0.7397383852052323,
	"grad_norm": 4.0,
	"learning_rate": 9.070000000000001e-06,
	"loss": 0.158,
	"step": 3280
	},
	{
	"epoch": 0.7419936851601263,
	"grad_norm": 3.140625,
	"learning_rate": 9.036666666666668e-06,
	"loss": 0.1743,
	"step": 3290
	},
	{
	"epoch": 0.7442489851150202,
	"grad_norm": 3.125,
	"learning_rate": 9.003333333333334e-06,
	"loss": 0.1492,
	"step": 3300
	},
	{
	"epoch": 0.7465042850699143,
	"grad_norm": 3.578125,
	"learning_rate": 8.97e-06,
	"loss": 0.1544,
	"step": 3310
	},
	{
	"epoch": 0.7487595850248083,
	"grad_norm": 3.046875,
	"learning_rate": 8.936666666666669e-06,
	"loss": 0.154,
	"step": 3320
	},
	{
	"epoch": 0.7510148849797023,
	"grad_norm": 3.234375,
	"learning_rate": 8.903333333333333e-06,
	"loss": 0.1515,
	"step": 3330
	},
	{
	"epoch": 0.7532701849345963,
	"grad_norm": 3.234375,
	"learning_rate": 8.870000000000001e-06,
	"loss": 0.1601,
	"step": 3340
	},
	{
	"epoch": 0.7555254848894903,
	"grad_norm": 5.375,
	"learning_rate": 8.836666666666668e-06,
	"loss": 0.1541,
	"step": 3350
	},
	{
	"epoch": 0.7577807848443843,
	"grad_norm": 3.0,
	"learning_rate": 8.803333333333334e-06,
	"loss": 0.137,
	"step": 3360
	},
	{
	"epoch": 0.7600360847992783,
	"grad_norm": 4.3125,
	"learning_rate": 8.77e-06,
	"loss": 0.1518,
	"step": 3370
	},
	{
	"epoch": 0.7622913847541724,
	"grad_norm": 2.96875,
	"learning_rate": 8.736666666666667e-06,
	"loss": 0.1557,
	"step": 3380
	},
	{
	"epoch": 0.7645466847090663,
	"grad_norm": 3.171875,
	"learning_rate": 8.703333333333334e-06,
	"loss": 0.1459,
	"step": 3390
	},
	{
	"epoch": 0.7668019846639603,
	"grad_norm": 3.390625,
	"learning_rate": 8.67e-06,
	"loss": 0.1457,
	"step": 3400
	},
	{
	"epoch": 0.7690572846188543,
	"grad_norm": 2.828125,
	"learning_rate": 8.636666666666668e-06,
	"loss": 0.1437,
	"step": 3410
	},
	{
	"epoch": 0.7713125845737483,
	"grad_norm": 3.53125,
	"learning_rate": 8.603333333333333e-06,
	"loss": 0.1575,
	"step": 3420
	},
	{
	"epoch": 0.7735678845286423,
	"grad_norm": 2.765625,
	"learning_rate": 8.570000000000001e-06,
	"loss": 0.1405,
	"step": 3430
	},
	{
	"epoch": 0.7758231844835363,
	"grad_norm": 2.46875,
	"learning_rate": 8.536666666666667e-06,
	"loss": 0.1479,
	"step": 3440
	},
	{
	"epoch": 0.7780784844384303,
	"grad_norm": 3.140625,
	"learning_rate": 8.503333333333334e-06,
	"loss": 0.1513,
	"step": 3450
	},
	{
	"epoch": 0.7803337843933243,
	"grad_norm": 3.3125,
	"learning_rate": 8.47e-06,
	"loss": 0.1437,
	"step": 3460
	},
	{
	"epoch": 0.7825890843482183,
	"grad_norm": 2.875,
	"learning_rate": 8.436666666666667e-06,
	"loss": 0.1434,
	"step": 3470
	},
	{
	"epoch": 0.7848443843031123,
	"grad_norm": 2.34375,
	"learning_rate": 8.403333333333335e-06,
	"loss": 0.1442,
	"step": 3480
	},
	{
	"epoch": 0.7870996842580064,
	"grad_norm": 3.578125,
	"learning_rate": 8.370000000000001e-06,
	"loss": 0.1449,
	"step": 3490
	},
	{
	"epoch": 0.7893549842129003,
	"grad_norm": 3.453125,
	"learning_rate": 8.336666666666668e-06,
	"loss": 0.151,
	"step": 3500
	},
	{
	"epoch": 0.7916102841677943,
	"grad_norm": 2.796875,
	"learning_rate": 8.303333333333334e-06,
	"loss": 0.1407,
	"step": 3510
	},
	{
	"epoch": 0.7938655841226884,
	"grad_norm": 3.015625,
	"learning_rate": 8.27e-06,
	"loss": 0.1566,
	"step": 3520
	},
	{
	"epoch": 0.7961208840775823,
	"grad_norm": 3.328125,
	"learning_rate": 8.236666666666667e-06,
	"loss": 0.1574,
	"step": 3530
	},
	{
	"epoch": 0.7983761840324763,
	"grad_norm": 2.78125,
	"learning_rate": 8.203333333333335e-06,
	"loss": 0.1434,
	"step": 3540
	},
	{
	"epoch": 0.8006314839873703,
	"grad_norm": 2.671875,
	"learning_rate": 8.17e-06,
	"loss": 0.1379,
	"step": 3550
	},
	{
	"epoch": 0.8028867839422643,
	"grad_norm": 2.984375,
	"learning_rate": 8.136666666666668e-06,
	"loss": 0.1685,
	"step": 3560
	},
	{
	"epoch": 0.8051420838971584,
	"grad_norm": 2.875,
	"learning_rate": 8.103333333333334e-06,
	"loss": 0.1564,
	"step": 3570
	},
	{
	"epoch": 0.8073973838520523,
	"grad_norm": 3.765625,
	"learning_rate": 8.07e-06,
	"loss": 0.1399,
	"step": 3580
	},
	{
	"epoch": 0.8096526838069463,
	"grad_norm": 3.71875,
	"learning_rate": 8.036666666666667e-06,
	"loss": 0.1422,
	"step": 3590
	},
	{
	"epoch": 0.8119079837618404,
	"grad_norm": 3.015625,
	"learning_rate": 8.003333333333334e-06,
	"loss": 0.1439,
	"step": 3600
	},
	{
	"epoch": 0.8141632837167343,
	"grad_norm": 3.3125,
	"learning_rate": 7.970000000000002e-06,
	"loss": 0.1473,
	"step": 3610
	},
	{
	"epoch": 0.8164185836716283,
	"grad_norm": 3.484375,
	"learning_rate": 7.936666666666666e-06,
	"loss": 0.1598,
	"step": 3620
	},
	{
	"epoch": 0.8186738836265224,
	"grad_norm": 3.671875,
	"learning_rate": 7.903333333333334e-06,
	"loss": 0.1431,
	"step": 3630
	},
	{
	"epoch": 0.8209291835814163,
	"grad_norm": 3.375,
	"learning_rate": 7.870000000000001e-06,
	"loss": 0.1338,
	"step": 3640
	},
	{
	"epoch": 0.8231844835363104,
	"grad_norm": 4.34375,
	"learning_rate": 7.836666666666667e-06,
	"loss": 0.1437,
	"step": 3650
	},
	{
	"epoch": 0.8254397834912043,
	"grad_norm": 4.5625,
	"learning_rate": 7.803333333333334e-06,
	"loss": 0.1383,
	"step": 3660
	},
	{
	"epoch": 0.8276950834460983,
	"grad_norm": 2.84375,
	"learning_rate": 7.77e-06,
	"loss": 0.1452,
	"step": 3670
	},
	{
	"epoch": 0.8299503834009924,
	"grad_norm": 3.6875,
	"learning_rate": 7.736666666666667e-06,
	"loss": 0.1566,
	"step": 3680
	},
	{
	"epoch": 0.8322056833558863,
	"grad_norm": 3.4375,
	"learning_rate": 7.703333333333333e-06,
	"loss": 0.1416,
	"step": 3690
	},
	{
	"epoch": 0.8344609833107803,
	"grad_norm": 3.21875,
	"learning_rate": 7.670000000000001e-06,
	"loss": 0.1296,
	"step": 3700
	},
	{
	"epoch": 0.8367162832656744,
	"grad_norm": 2.78125,
	"learning_rate": 7.636666666666668e-06,
	"loss": 0.1422,
	"step": 3710
	},
	{
	"epoch": 0.8389715832205683,
	"grad_norm": 3.765625,
	"learning_rate": 7.603333333333334e-06,
	"loss": 0.1448,
	"step": 3720
	},
	{
	"epoch": 0.8412268831754623,
	"grad_norm": 2.859375,
	"learning_rate": 7.57e-06,
	"loss": 0.135,
	"step": 3730
	},
	{
	"epoch": 0.8434821831303564,
	"grad_norm": 3.0,
	"learning_rate": 7.536666666666668e-06,
	"loss": 0.1428,
	"step": 3740
	},
	{
	"epoch": 0.8457374830852503,
	"grad_norm": 3.28125,
	"learning_rate": 7.503333333333333e-06,
	"loss": 0.138,
	"step": 3750
	},
	{
	"epoch": 0.8479927830401444,
	"grad_norm": 3.375,
	"learning_rate": 7.4700000000000005e-06,
	"loss": 0.125,
	"step": 3760
	},
	{
	"epoch": 0.8502480829950383,
	"grad_norm": 2.296875,
	"learning_rate": 7.436666666666668e-06,
	"loss": 0.1317,
	"step": 3770
	},
	{
	"epoch": 0.8525033829499323,
	"grad_norm": 3.296875,
	"learning_rate": 7.403333333333333e-06,
	"loss": 0.1258,
	"step": 3780
	},
	{
	"epoch": 0.8547586829048264,
	"grad_norm": 2.671875,
	"learning_rate": 7.370000000000001e-06,
	"loss": 0.1403,
	"step": 3790
	},
	{
	"epoch": 0.8570139828597203,
	"grad_norm": 4.03125,
	"learning_rate": 7.336666666666668e-06,
	"loss": 0.1466,
	"step": 3800
	},
	{
	"epoch": 0.8592692828146143,
	"grad_norm": 2.546875,
	"learning_rate": 7.3033333333333334e-06,
	"loss": 0.1262,
	"step": 3810
	},
	{
	"epoch": 0.8615245827695084,
	"grad_norm": 1.9921875,
	"learning_rate": 7.270000000000001e-06,
	"loss": 0.1427,
	"step": 3820
	},
	{
	"epoch": 0.8637798827244023,
	"grad_norm": 3.546875,
	"learning_rate": 7.236666666666667e-06,
	"loss": 0.1193,
	"step": 3830
	},
	{
	"epoch": 0.8660351826792964,
	"grad_norm": 4.1875,
	"learning_rate": 7.203333333333334e-06,
	"loss": 0.1337,
	"step": 3840
	},
	{
	"epoch": 0.8682904826341904,
	"grad_norm": 2.78125,
	"learning_rate": 7.17e-06,
	"loss": 0.1472,
	"step": 3850
	},
	{
	"epoch": 0.8705457825890843,
	"grad_norm": 2.75,
	"learning_rate": 7.136666666666667e-06,
	"loss": 0.1531,
	"step": 3860
	},
	{
	"epoch": 0.8728010825439784,
	"grad_norm": 2.296875,
	"learning_rate": 7.1033333333333345e-06,
	"loss": 0.1334,
	"step": 3870
	},
	{
	"epoch": 0.8750563824988723,
	"grad_norm": 2.765625,
	"learning_rate": 7.07e-06,
	"loss": 0.1339,
	"step": 3880
	},
	{
	"epoch": 0.8773116824537663,
	"grad_norm": 3.234375,
	"learning_rate": 7.036666666666667e-06,
	"loss": 0.1369,
	"step": 3890
	},
	{
	"epoch": 0.8795669824086604,
	"grad_norm": 3.765625,
	"learning_rate": 7.003333333333335e-06,
	"loss": 0.1214,
	"step": 3900
	},
	{
	"epoch": 0.8818222823635543,
	"grad_norm": 2.734375,
	"learning_rate": 6.97e-06,
	"loss": 0.1387,
	"step": 3910
	},
	{
	"epoch": 0.8840775823184484,
	"grad_norm": 3.125,
	"learning_rate": 6.9366666666666675e-06,
	"loss": 0.1469,
	"step": 3920
	},
	{
	"epoch": 0.8863328822733424,
	"grad_norm": 2.5,
	"learning_rate": 6.903333333333334e-06,
	"loss": 0.1432,
	"step": 3930
	},
	{
	"epoch": 0.8885881822282363,
	"grad_norm": 2.984375,
	"learning_rate": 6.870000000000001e-06,
	"loss": 0.1337,
	"step": 3940
	},
	{
	"epoch": 0.8908434821831304,
	"grad_norm": 2.6875,
	"learning_rate": 6.836666666666667e-06,
	"loss": 0.131,
	"step": 3950
	},
	{
	"epoch": 0.8930987821380244,
	"grad_norm": 2.78125,
	"learning_rate": 6.803333333333334e-06,
	"loss": 0.1385,
	"step": 3960
	},
	{
	"epoch": 0.8953540820929183,
	"grad_norm": 2.1875,
	"learning_rate": 6.770000000000001e-06,
	"loss": 0.1379,
	"step": 3970
	},
	{
	"epoch": 0.8976093820478124,
	"grad_norm": 2.640625,
	"learning_rate": 6.736666666666667e-06,
	"loss": 0.1307,
	"step": 3980
	},
	{
	"epoch": 0.8998646820027063,
	"grad_norm": 3.109375,
	"learning_rate": 6.703333333333334e-06,
	"loss": 0.1199,
	"step": 3990
	},
	{
	"epoch": 0.9021199819576003,
	"grad_norm": 3.109375,
	"learning_rate": 6.6700000000000005e-06,
	"loss": 0.1262,
	"step": 4000
	},
	{
	"epoch": 0.9043752819124944,
	"grad_norm": 3.453125,
	"learning_rate": 6.636666666666667e-06,
	"loss": 0.1275,
	"step": 4010
	},
	{
	"epoch": 0.9066305818673883,
	"grad_norm": 3.21875,
	"learning_rate": 6.603333333333334e-06,
	"loss": 0.1321,
	"step": 4020
	},
	{
	"epoch": 0.9088858818222824,
	"grad_norm": 2.71875,
	"learning_rate": 6.570000000000001e-06,
	"loss": 0.1275,
	"step": 4030
	},
	{
	"epoch": 0.9111411817771764,
	"grad_norm": 3.375,
	"learning_rate": 6.536666666666667e-06,
	"loss": 0.1068,
	"step": 4040
	},
	{
	"epoch": 0.9133964817320703,
	"grad_norm": 2.984375,
	"learning_rate": 6.5033333333333335e-06,
	"loss": 0.1214,
	"step": 4050
	},
	{
	"epoch": 0.9156517816869644,
	"grad_norm": 3.28125,
	"learning_rate": 6.470000000000001e-06,
	"loss": 0.1306,
	"step": 4060
	},
	{
	"epoch": 0.9179070816418584,
	"grad_norm": 3.40625,
	"learning_rate": 6.436666666666668e-06,
	"loss": 0.1331,
	"step": 4070
	},
	{
	"epoch": 0.9201623815967523,
	"grad_norm": 3.578125,
	"learning_rate": 6.403333333333334e-06,
	"loss": 0.1334,
	"step": 4080
	},
	{
	"epoch": 0.9224176815516464,
	"grad_norm": 2.40625,
	"learning_rate": 6.370000000000001e-06,
	"loss": 0.1352,
	"step": 4090
	},
	{
	"epoch": 0.9246729815065403,
	"grad_norm": 2.734375,
	"learning_rate": 6.336666666666667e-06,
	"loss": 0.1138,
	"step": 4100
	},
	{
	"epoch": 0.9269282814614344,
	"grad_norm": 2.984375,
	"learning_rate": 6.303333333333334e-06,
	"loss": 0.1163,
	"step": 4110
	},
	{
	"epoch": 0.9291835814163284,
	"grad_norm": 3.21875,
	"learning_rate": 6.27e-06,
	"loss": 0.1235,
	"step": 4120
	},
	{
	"epoch": 0.9314388813712223,
	"grad_norm": 3.40625,
	"learning_rate": 6.236666666666667e-06,
	"loss": 0.128,
	"step": 4130
	},
	{
	"epoch": 0.9336941813261164,
	"grad_norm": 2.828125,
	"learning_rate": 6.203333333333334e-06,
	"loss": 0.1254,
	"step": 4140
	},
	{
	"epoch": 0.9359494812810104,
	"grad_norm": 2.78125,
	"learning_rate": 6.17e-06,
	"loss": 0.1272,
	"step": 4150
	},
	{
	"epoch": 0.9382047812359043,
	"grad_norm": 2.390625,
	"learning_rate": 6.1366666666666675e-06,
	"loss": 0.1294,
	"step": 4160
	},
	{
	"epoch": 0.9404600811907984,
	"grad_norm": 2.515625,
	"learning_rate": 6.103333333333333e-06,
	"loss": 0.1231,
	"step": 4170
	},
	{
	"epoch": 0.9427153811456924,
	"grad_norm": 2.6875,
	"learning_rate": 6.07e-06,
	"loss": 0.1424,
	"step": 4180
	},
	{
	"epoch": 0.9449706811005864,
	"grad_norm": 2.71875,
	"learning_rate": 6.036666666666668e-06,
	"loss": 0.1214,
	"step": 4190
	},
	{
	"epoch": 0.9472259810554804,
	"grad_norm": 3.15625,
	"learning_rate": 6.003333333333334e-06,
	"loss": 0.1147,
	"step": 4200
	},
	{
	"epoch": 0.9494812810103744,
	"grad_norm": 2.546875,
	"learning_rate": 5.9700000000000004e-06,
	"loss": 0.1256,
	"step": 4210
	},
	{
	"epoch": 0.9517365809652684,
	"grad_norm": 2.796875,
	"learning_rate": 5.936666666666667e-06,
	"loss": 0.1232,
	"step": 4220
	},
	{
	"epoch": 0.9539918809201624,
	"grad_norm": 2.765625,
	"learning_rate": 5.903333333333334e-06,
	"loss": 0.1103,
	"step": 4230
	},
	{
	"epoch": 0.9562471808750563,
	"grad_norm": 4.09375,
	"learning_rate": 5.8700000000000005e-06,
	"loss": 0.1294,
	"step": 4240
	},
	{
	"epoch": 0.9585024808299504,
	"grad_norm": 2.46875,
	"learning_rate": 5.836666666666667e-06,
	"loss": 0.1243,
	"step": 4250
	},
	{
	"epoch": 0.9607577807848444,
	"grad_norm": 2.4375,
	"learning_rate": 5.803333333333334e-06,
	"loss": 0.1165,
	"step": 4260
	},
	{
	"epoch": 0.9630130807397383,
	"grad_norm": 3.4375,
	"learning_rate": 5.77e-06,
	"loss": 0.1192,
	"step": 4270
	},
	{
	"epoch": 0.9652683806946324,
	"grad_norm": 2.28125,
	"learning_rate": 5.736666666666667e-06,
	"loss": 0.1175,
	"step": 4280
	},
	{
	"epoch": 0.9675236806495264,
	"grad_norm": 2.328125,
	"learning_rate": 5.703333333333334e-06,
	"loss": 0.1214,
	"step": 4290
	},
	{
	"epoch": 0.9697789806044204,
	"grad_norm": 2.765625,
	"learning_rate": 5.67e-06,
	"loss": 0.1162,
	"step": 4300
	},
	{
	"epoch": 0.9720342805593144,
	"grad_norm": 2.765625,
	"learning_rate": 5.636666666666667e-06,
	"loss": 0.1221,
	"step": 4310
	},
	{
	"epoch": 0.9742895805142084,
	"grad_norm": 2.828125,
	"learning_rate": 5.603333333333334e-06,
	"loss": 0.1135,
	"step": 4320
	},
	{
	"epoch": 0.9765448804691024,
	"grad_norm": 2.40625,
	"learning_rate": 5.570000000000001e-06,
	"loss": 0.1137,
	"step": 4330
	},
	{
	"epoch": 0.9788001804239964,
	"grad_norm": 2.71875,
	"learning_rate": 5.5366666666666665e-06,
	"loss": 0.1209,
	"step": 4340
	},
	{
	"epoch": 0.9810554803788903,
	"grad_norm": 2.203125,
	"learning_rate": 5.503333333333334e-06,
	"loss": 0.1373,
	"step": 4350
	},
	{
	"epoch": 0.9833107803337844,
	"grad_norm": 2.640625,
	"learning_rate": 5.470000000000001e-06,
	"loss": 0.1196,
	"step": 4360
	},
	{
	"epoch": 0.9855660802886784,
	"grad_norm": 3.0625,
	"learning_rate": 5.4366666666666666e-06,
	"loss": 0.1194,
	"step": 4370
	},
	{
	"epoch": 0.9878213802435724,
	"grad_norm": 3.3125,
	"learning_rate": 5.403333333333334e-06,
	"loss": 0.1098,
	"step": 4380
	},
	{
	"epoch": 0.9900766801984664,
	"grad_norm": 2.59375,
	"learning_rate": 5.370000000000001e-06,
	"loss": 0.1192,
	"step": 4390
	},
	{
	"epoch": 0.9923319801533604,
	"grad_norm": 2.734375,
	"learning_rate": 5.336666666666667e-06,
	"loss": 0.1077,
	"step": 4400
	},
	{
	"epoch": 0.9945872801082544,
	"grad_norm": 2.546875,
	"learning_rate": 5.303333333333334e-06,
	"loss": 0.126,
	"step": 4410
	},
	{
	"epoch": 0.9968425800631484,
	"grad_norm": 2.828125,
	"learning_rate": 5.27e-06,
	"loss": 0.1223,
	"step": 4420
	},
	{
	"epoch": 0.9990978800180425,
	"grad_norm": 3.515625,
	"learning_rate": 5.236666666666667e-06,
	"loss": 0.1176,
	"step": 4430
	},
	{
	"epoch": 1.0013531799729365,
	"grad_norm": 2.640625,
	"learning_rate": 5.203333333333333e-06,
	"loss": 0.1064,
	"step": 4440
	},
	{
	"epoch": 1.0036084799278304,
	"grad_norm": 1.5625,
	"learning_rate": 5.1700000000000005e-06,
	"loss": 0.1128,
	"step": 4450
	},
	{
	"epoch": 1.0058637798827244,
	"grad_norm": 2.078125,
	"learning_rate": 5.136666666666668e-06,
	"loss": 0.0987,
	"step": 4460
	},
	{
	"epoch": 1.0081190798376185,
	"grad_norm": 2.359375,
	"learning_rate": 5.103333333333333e-06,
	"loss": 0.1084,
	"step": 4470
	},
	{
	"epoch": 1.0103743797925124,
	"grad_norm": 2.0,
	"learning_rate": 5.070000000000001e-06,
	"loss": 0.1035,
	"step": 4480
	},
	{
	"epoch": 1.0126296797474064,
	"grad_norm": 2.234375,
	"learning_rate": 5.036666666666668e-06,
	"loss": 0.1083,
	"step": 4490
	},
	{
	"epoch": 1.0148849797023005,
	"grad_norm": 2.359375,
	"learning_rate": 5.0033333333333334e-06,
	"loss": 0.117,
	"step": 4500
	},
	{
	"epoch": 1.0171402796571944,
	"grad_norm": 3.234375,
	"learning_rate": 4.970000000000001e-06,
	"loss": 0.0979,
	"step": 4510
	},
	{
	"epoch": 1.0193955796120884,
	"grad_norm": 1.9765625,
	"learning_rate": 4.936666666666667e-06,
	"loss": 0.0954,
	"step": 4520
	},
	{
	"epoch": 1.0216508795669823,
	"grad_norm": 2.890625,
	"learning_rate": 4.9033333333333335e-06,
	"loss": 0.0957,
	"step": 4530
	},
	{
	"epoch": 1.0239061795218765,
	"grad_norm": 3.046875,
	"learning_rate": 4.87e-06,
	"loss": 0.1065,
	"step": 4540
	},
	{
	"epoch": 1.0261614794767704,
	"grad_norm": 2.046875,
	"learning_rate": 4.836666666666667e-06,
	"loss": 0.0878,
	"step": 4550
	},
	{
	"epoch": 1.0284167794316643,
	"grad_norm": 2.390625,
	"learning_rate": 4.803333333333334e-06,
	"loss": 0.1011,
	"step": 4560
	},
	{
	"epoch": 1.0306720793865585,
	"grad_norm": 2.828125,
	"learning_rate": 4.77e-06,
	"loss": 0.0977,
	"step": 4570
	},
	{
	"epoch": 1.0329273793414524,
	"grad_norm": 2.59375,
	"learning_rate": 4.736666666666667e-06,
	"loss": 0.1086,
	"step": 4580
	},
	{
	"epoch": 1.0351826792963463,
	"grad_norm": 2.203125,
	"learning_rate": 4.703333333333334e-06,
	"loss": 0.1006,
	"step": 4590
	},
	{
	"epoch": 1.0374379792512405,
	"grad_norm": 3.65625,
	"learning_rate": 4.670000000000001e-06,
	"loss": 0.1144,
	"step": 4600
	},
	{
	"epoch": 1.0396932792061344,
	"grad_norm": 2.40625,
	"learning_rate": 4.6366666666666674e-06,
	"loss": 0.101,
	"step": 4610
	},
	{
	"epoch": 1.0419485791610283,
	"grad_norm": 2.171875,
	"learning_rate": 4.603333333333334e-06,
	"loss": 0.0841,
	"step": 4620
	},
	{
	"epoch": 1.0442038791159225,
	"grad_norm": 3.921875,
	"learning_rate": 4.57e-06,
	"loss": 0.1046,
	"step": 4630
	},
	{
	"epoch": 1.0464591790708164,
	"grad_norm": 2.4375,
	"learning_rate": 4.536666666666667e-06,
	"loss": 0.0975,
	"step": 4640
	},
	{
	"epoch": 1.0487144790257104,
	"grad_norm": 3.171875,
	"learning_rate": 4.503333333333333e-06,
	"loss": 0.0955,
	"step": 4650
	},
	{
	"epoch": 1.0509697789806045,
	"grad_norm": 2.546875,
	"learning_rate": 4.47e-06,
	"loss": 0.1083,
	"step": 4660
	},
	{
	"epoch": 1.0532250789354984,
	"grad_norm": 2.078125,
	"learning_rate": 4.436666666666667e-06,
	"loss": 0.1139,
	"step": 4670
	},
	{
	"epoch": 1.0554803788903924,
	"grad_norm": 2.421875,
	"learning_rate": 4.403333333333334e-06,
	"loss": 0.1052,
	"step": 4680
	},
	{
	"epoch": 1.0577356788452865,
	"grad_norm": 2.09375,
	"learning_rate": 4.3700000000000005e-06,
	"loss": 0.0956,
	"step": 4690
	},
	{
	"epoch": 1.0599909788001805,
	"grad_norm": 2.578125,
	"learning_rate": 4.336666666666667e-06,
	"loss": 0.0991,
	"step": 4700
	},
	{
	"epoch": 1.0622462787550744,
	"grad_norm": 2.15625,
	"learning_rate": 4.303333333333334e-06,
	"loss": 0.1256,
	"step": 4710
	},
	{
	"epoch": 1.0645015787099683,
	"grad_norm": 2.34375,
	"learning_rate": 4.270000000000001e-06,
	"loss": 0.1075,
	"step": 4720
	},
	{
	"epoch": 1.0667568786648625,
	"grad_norm": 2.234375,
	"learning_rate": 4.236666666666667e-06,
	"loss": 0.0935,
	"step": 4730
	},
	{
	"epoch": 1.0690121786197564,
	"grad_norm": 1.78125,
	"learning_rate": 4.2033333333333335e-06,
	"loss": 0.1012,
	"step": 4740
	},
	{
	"epoch": 1.0712674785746503,
	"grad_norm": 2.0625,
	"learning_rate": 4.17e-06,
	"loss": 0.1035,
	"step": 4750
	},
	{
	"epoch": 1.0735227785295445,
	"grad_norm": 3.328125,
	"learning_rate": 4.136666666666667e-06,
	"loss": 0.1075,
	"step": 4760
	},
	{
	"epoch": 1.0757780784844384,
	"grad_norm": 1.9296875,
	"learning_rate": 4.1033333333333336e-06,
	"loss": 0.1054,
	"step": 4770
	},
	{
	"epoch": 1.0780333784393323,
	"grad_norm": 2.265625,
	"learning_rate": 4.07e-06,
	"loss": 0.0883,
	"step": 4780
	},
	{
	"epoch": 1.0802886783942265,
	"grad_norm": 2.390625,
	"learning_rate": 4.036666666666667e-06,
	"loss": 0.0988,
	"step": 4790
	},
	{
	"epoch": 1.0825439783491204,
	"grad_norm": 3.078125,
	"learning_rate": 4.003333333333334e-06,
	"loss": 0.1047,
	"step": 4800
	},
	{
	"epoch": 1.0847992783040143,
	"grad_norm": 2.84375,
	"learning_rate": 3.97e-06,
	"loss": 0.123,
	"step": 4810
	},
	{
	"epoch": 1.0870545782589085,
	"grad_norm": 2.671875,
	"learning_rate": 3.936666666666667e-06,
	"loss": 0.0982,
	"step": 4820
	},
	{
	"epoch": 1.0893098782138024,
	"grad_norm": 2.515625,
	"learning_rate": 3.903333333333334e-06,
	"loss": 0.1112,
	"step": 4830
	},
	{
	"epoch": 1.0915651781686964,
	"grad_norm": 2.59375,
	"learning_rate": 3.87e-06,
	"loss": 0.119,
	"step": 4840
	},
	{
	"epoch": 1.0938204781235905,
	"grad_norm": 1.9765625,
	"learning_rate": 3.836666666666667e-06,
	"loss": 0.0939,
	"step": 4850
	},
	{
	"epoch": 1.0960757780784844,
	"grad_norm": 2.734375,
	"learning_rate": 3.803333333333334e-06,
	"loss": 0.0933,
	"step": 4860
	},
	{
	"epoch": 1.0983310780333784,
	"grad_norm": 3.265625,
	"learning_rate": 3.7700000000000003e-06,
	"loss": 0.0983,
	"step": 4870
	},
	{
	"epoch": 1.1005863779882725,
	"grad_norm": 1.8203125,
	"learning_rate": 3.7366666666666667e-06,
	"loss": 0.1099,
	"step": 4880
	},
	{
	"epoch": 1.1028416779431665,
	"grad_norm": 2.203125,
	"learning_rate": 3.7033333333333336e-06,
	"loss": 0.0952,
	"step": 4890
	},
	{
	"epoch": 1.1050969778980604,
	"grad_norm": 2.0625,
	"learning_rate": 3.6700000000000004e-06,
	"loss": 0.0789,
	"step": 4900
	},
	{
	"epoch": 1.1073522778529545,
	"grad_norm": 2.234375,
	"learning_rate": 3.6366666666666673e-06,
	"loss": 0.1048,
	"step": 4910
	},
	{
	"epoch": 1.1096075778078485,
	"grad_norm": 2.765625,
	"learning_rate": 3.6033333333333337e-06,
	"loss": 0.1165,
	"step": 4920
	},
	{
	"epoch": 1.1118628777627424,
	"grad_norm": 3.46875,
	"learning_rate": 3.57e-06,
	"loss": 0.1013,
	"step": 4930
	},
	{
	"epoch": 1.1141181777176365,
	"grad_norm": 2.609375,
	"learning_rate": 3.536666666666667e-06,
	"loss": 0.1291,
	"step": 4940
	},
	{
	"epoch": 1.1163734776725305,
	"grad_norm": 2.3125,
	"learning_rate": 3.5033333333333334e-06,
	"loss": 0.1018,
	"step": 4950
	},
	{
	"epoch": 1.1186287776274244,
	"grad_norm": 2.890625,
	"learning_rate": 3.4700000000000002e-06,
	"loss": 0.1039,
	"step": 4960
	},
	{
	"epoch": 1.1208840775823186,
	"grad_norm": 2.65625,
	"learning_rate": 3.436666666666667e-06,
	"loss": 0.0958,
	"step": 4970
	},
	{
	"epoch": 1.1231393775372125,
	"grad_norm": 2.140625,
	"learning_rate": 3.4033333333333335e-06,
	"loss": 0.0811,
	"step": 4980
	},
	{
	"epoch": 1.1253946774921064,
	"grad_norm": 2.078125,
	"learning_rate": 3.3700000000000003e-06,
	"loss": 0.1002,
	"step": 4990
	},
	{
	"epoch": 1.1276499774470006,
	"grad_norm": 2.53125,
	"learning_rate": 3.3366666666666668e-06,
	"loss": 0.1201,
	"step": 5000
	},
	{
	"epoch": 1.1299052774018945,
	"grad_norm": 2.109375,
	"learning_rate": 3.303333333333333e-06,
	"loss": 0.1172,
	"step": 5010
	},
	{
	"epoch": 1.1321605773567884,
	"grad_norm": 2.109375,
	"learning_rate": 3.2700000000000005e-06,
	"loss": 0.1013,
	"step": 5020
	},
	{
	"epoch": 1.1344158773116824,
	"grad_norm": 2.859375,
	"learning_rate": 3.236666666666667e-06,
	"loss": 0.0815,
	"step": 5030
	},
	{
	"epoch": 1.1366711772665765,
	"grad_norm": 1.859375,
	"learning_rate": 3.2033333333333337e-06,
	"loss": 0.1105,
	"step": 5040
	},
	{
	"epoch": 1.1389264772214704,
	"grad_norm": 2.078125,
	"learning_rate": 3.17e-06,
	"loss": 0.1004,
	"step": 5050
	},
	{
	"epoch": 1.1411817771763644,
	"grad_norm": 2.515625,
	"learning_rate": 3.1366666666666666e-06,
	"loss": 0.0956,
	"step": 5060
	},
	{
	"epoch": 1.1434370771312585,
	"grad_norm": 2.234375,
	"learning_rate": 3.103333333333334e-06,
	"loss": 0.0966,
	"step": 5070
	},
	{
	"epoch": 1.1456923770861525,
	"grad_norm": 1.671875,
	"learning_rate": 3.0700000000000003e-06,
	"loss": 0.1093,
	"step": 5080
	},
	{
	"epoch": 1.1479476770410464,
	"grad_norm": 1.8984375,
	"learning_rate": 3.0366666666666667e-06,
	"loss": 0.1048,
	"step": 5090
	},
	{
	"epoch": 1.1502029769959405,
	"grad_norm": 2.46875,
	"learning_rate": 3.0033333333333335e-06,
	"loss": 0.096,
	"step": 5100
	},
	{
	"epoch": 1.1524582769508345,
	"grad_norm": 2.1875,
	"learning_rate": 2.97e-06,
	"loss": 0.1086,
	"step": 5110
	},
	{
	"epoch": 1.1547135769057284,
	"grad_norm": 2.265625,
	"learning_rate": 2.936666666666667e-06,
	"loss": 0.107,
	"step": 5120
	},
	{
	"epoch": 1.1569688768606226,
	"grad_norm": 2.359375,
	"learning_rate": 2.9033333333333336e-06,
	"loss": 0.101,
	"step": 5130
	},
	{
	"epoch": 1.1592241768155165,
	"grad_norm": 1.9140625,
	"learning_rate": 2.87e-06,
	"loss": 0.0915,
	"step": 5140
	},
	{
	"epoch": 1.1614794767704104,
	"grad_norm": 2.328125,
	"learning_rate": 2.836666666666667e-06,
	"loss": 0.1138,
	"step": 5150
	},
	{
	"epoch": 1.1637347767253043,
	"grad_norm": 2.328125,
	"learning_rate": 2.8033333333333333e-06,
	"loss": 0.1046,
	"step": 5160
	},
	{
	"epoch": 1.1659900766801985,
	"grad_norm": 2.953125,
	"learning_rate": 2.7700000000000006e-06,
	"loss": 0.1082,
	"step": 5170
	},
	{
	"epoch": 1.1682453766350924,
	"grad_norm": 1.75,
	"learning_rate": 2.736666666666667e-06,
	"loss": 0.102,
	"step": 5180
	},
	{
	"epoch": 1.1705006765899864,
	"grad_norm": 2.296875,
	"learning_rate": 2.7033333333333334e-06,
	"loss": 0.0988,
	"step": 5190
	},
	{
	"epoch": 1.1727559765448805,
	"grad_norm": 3.015625,
	"learning_rate": 2.6700000000000003e-06,
	"loss": 0.1008,
	"step": 5200
	},
	{
	"epoch": 1.1750112764997744,
	"grad_norm": 2.0625,
	"learning_rate": 2.6366666666666667e-06,
	"loss": 0.1001,
	"step": 5210
	},
	{
	"epoch": 1.1772665764546684,
	"grad_norm": 1.765625,
	"learning_rate": 2.603333333333334e-06,
	"loss": 0.102,
	"step": 5220
	},
	{
	"epoch": 1.1795218764095625,
	"grad_norm": 2.1875,
	"learning_rate": 2.5700000000000004e-06,
	"loss": 0.0954,
	"step": 5230
	},
	{
	"epoch": 1.1817771763644564,
	"grad_norm": 2.546875,
	"learning_rate": 2.536666666666667e-06,
	"loss": 0.1014,
	"step": 5240
	},
	{
	"epoch": 1.1840324763193504,
	"grad_norm": 1.6875,
	"learning_rate": 2.5033333333333336e-06,
	"loss": 0.1032,
	"step": 5250
	},
	{
	"epoch": 1.1862877762742445,
	"grad_norm": 2.078125,
	"learning_rate": 2.47e-06,
	"loss": 0.1037,
	"step": 5260
	},
	{
	"epoch": 1.1885430762291385,
	"grad_norm": 2.171875,
	"learning_rate": 2.436666666666667e-06,
	"loss": 0.0912,
	"step": 5270
	},
	{
	"epoch": 1.1907983761840324,
	"grad_norm": 2.546875,
	"learning_rate": 2.4033333333333338e-06,
	"loss": 0.0874,
	"step": 5280
	},
	{
	"epoch": 1.1930536761389265,
	"grad_norm": 2.296875,
	"learning_rate": 2.37e-06,
	"loss": 0.0877,
	"step": 5290
	},
	{
	"epoch": 1.1953089760938205,
	"grad_norm": 2.875,
	"learning_rate": 2.3366666666666666e-06,
	"loss": 0.0966,
	"step": 5300
	},
	{
	"epoch": 1.1975642760487144,
	"grad_norm": 1.9921875,
	"learning_rate": 2.3033333333333334e-06,
	"loss": 0.096,
	"step": 5310
	},
	{
	"epoch": 1.1998195760036086,
	"grad_norm": 2.234375,
	"learning_rate": 2.2700000000000003e-06,
	"loss": 0.1119,
	"step": 5320
	},
	{
	"epoch": 1.2020748759585025,
	"grad_norm": 2.078125,
	"learning_rate": 2.236666666666667e-06,
	"loss": 0.0967,
	"step": 5330
	},
	{
	"epoch": 1.2043301759133964,
	"grad_norm": 1.921875,
	"learning_rate": 2.2033333333333336e-06,
	"loss": 0.1065,
	"step": 5340
	},
	{
	"epoch": 1.2065854758682906,
	"grad_norm": 3.65625,
	"learning_rate": 2.17e-06,
	"loss": 0.1093,
	"step": 5350
	},
	{
	"epoch": 1.2088407758231845,
	"grad_norm": 2.28125,
	"learning_rate": 2.136666666666667e-06,
	"loss": 0.1131,
	"step": 5360
	},
	{
	"epoch": 1.2110960757780784,
	"grad_norm": 2.25,
	"learning_rate": 2.1033333333333337e-06,
	"loss": 0.0938,
	"step": 5370
	},
	{
	"epoch": 1.2133513757329726,
	"grad_norm": 2.203125,
	"learning_rate": 2.07e-06,
	"loss": 0.0951,
	"step": 5380
	},
	{
	"epoch": 1.2156066756878665,
	"grad_norm": 2.09375,
	"learning_rate": 2.036666666666667e-06,
	"loss": 0.1138,
	"step": 5390
	},
	{
	"epoch": 1.2178619756427604,
	"grad_norm": 2.34375,
	"learning_rate": 2.0033333333333334e-06,
	"loss": 0.0944,
	"step": 5400
	},
	{
	"epoch": 1.2201172755976546,
	"grad_norm": 1.9296875,
	"learning_rate": 1.97e-06,
	"loss": 0.0991,
	"step": 5410
	},
	{
	"epoch": 1.2223725755525485,
	"grad_norm": 2.234375,
	"learning_rate": 1.9366666666666666e-06,
	"loss": 0.1096,
	"step": 5420
	},
	{
	"epoch": 1.2246278755074425,
	"grad_norm": 2.03125,
	"learning_rate": 1.9033333333333335e-06,
	"loss": 0.1197,
	"step": 5430
	},
	{
	"epoch": 1.2268831754623366,
	"grad_norm": 2.15625,
	"learning_rate": 1.87e-06,
	"loss": 0.1,
	"step": 5440
	},
	{
	"epoch": 1.2291384754172305,
	"grad_norm": 2.15625,
	"learning_rate": 1.836666666666667e-06,
	"loss": 0.1017,
	"step": 5450
	},
	{
	"epoch": 1.2313937753721245,
	"grad_norm": 2.234375,
	"learning_rate": 1.8033333333333336e-06,
	"loss": 0.1099,
	"step": 5460
	},
	{
	"epoch": 1.2336490753270186,
	"grad_norm": 2.109375,
	"learning_rate": 1.77e-06,
	"loss": 0.1058,
	"step": 5470
	},
	{
	"epoch": 1.2359043752819125,
	"grad_norm": 2.171875,
	"learning_rate": 1.7366666666666668e-06,
	"loss": 0.1007,
	"step": 5480
	},
	{
	"epoch": 1.2381596752368065,
	"grad_norm": 2.375,
	"learning_rate": 1.7033333333333335e-06,
	"loss": 0.0947,
	"step": 5490
	},
	{
	"epoch": 1.2404149751917004,
	"grad_norm": 2.125,
	"learning_rate": 1.6700000000000003e-06,
	"loss": 0.0936,
	"step": 5500
	}
	],
	"logging_steps": 10,
	"max_steps": 6000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 4.057702632259584e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}