{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.35,
  "eval_steps": 500,
  "global_step": 2800,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00125,
      "grad_norm": 0.40701737999916077,
      "learning_rate": 6.417e-06,
      "loss": 1.9589118957519531,
      "step": 10
    },
    {
      "epoch": 0.0025,
      "grad_norm": 0.3704953193664551,
      "learning_rate": 1.3547e-05,
      "loss": 1.879218864440918,
      "step": 20
    },
    {
      "epoch": 0.00375,
      "grad_norm": 0.34090375900268555,
      "learning_rate": 2.0677e-05,
      "loss": 1.8871658325195313,
      "step": 30
    },
    {
      "epoch": 0.005,
      "grad_norm": 0.33982428908348083,
      "learning_rate": 2.7807e-05,
      "loss": 1.8348798751831055,
      "step": 40
    },
    {
      "epoch": 0.00625,
      "grad_norm": 0.3448389172554016,
      "learning_rate": 3.4937e-05,
      "loss": 1.8976055145263673,
      "step": 50
    },
    {
      "epoch": 0.0075,
      "grad_norm": 0.3351344168186188,
      "learning_rate": 4.2066999999999996e-05,
      "loss": 1.8488676071166992,
      "step": 60
    },
    {
      "epoch": 0.00875,
      "grad_norm": 0.33170202374458313,
      "learning_rate": 4.9197e-05,
      "loss": 1.8325592041015626,
      "step": 70
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.34600478410720825,
      "learning_rate": 5.6327e-05,
      "loss": 1.8475696563720703,
      "step": 80
    },
    {
      "epoch": 0.01125,
      "grad_norm": 0.34344804286956787,
      "learning_rate": 6.3457e-05,
      "loss": 1.8463781356811524,
      "step": 90
    },
    {
      "epoch": 0.0125,
      "grad_norm": 0.32425570487976074,
      "learning_rate": 7.0587e-05,
      "loss": 1.8811756134033204,
      "step": 100
    },
    {
      "epoch": 0.01375,
      "grad_norm": 0.33838146924972534,
      "learning_rate": 7.7717e-05,
      "loss": 1.8498527526855468,
      "step": 110
    },
    {
      "epoch": 0.015,
      "grad_norm": 0.34978190064430237,
      "learning_rate": 8.4847e-05,
      "loss": 1.7197338104248048,
      "step": 120
    },
    {
      "epoch": 0.01625,
      "grad_norm": 0.3554218113422394,
      "learning_rate": 9.1977e-05,
      "loss": 1.7990310668945313,
      "step": 130
    },
    {
      "epoch": 0.0175,
      "grad_norm": 0.3349857032299042,
      "learning_rate": 9.910699999999998e-05,
      "loss": 1.8458877563476563,
      "step": 140
    },
    {
      "epoch": 0.01875,
      "grad_norm": 0.3333263099193573,
      "learning_rate": 0.00010623699999999999,
      "loss": 1.8082691192626954,
      "step": 150
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.3492045998573303,
      "learning_rate": 0.000113367,
      "loss": 1.7753177642822267,
      "step": 160
    },
    {
      "epoch": 0.02125,
      "grad_norm": 0.33766260743141174,
      "learning_rate": 0.000120497,
      "loss": 1.7588382720947267,
      "step": 170
    },
    {
      "epoch": 0.0225,
      "grad_norm": 0.3680027723312378,
      "learning_rate": 0.000127627,
      "loss": 1.7494930267333983,
      "step": 180
    },
    {
      "epoch": 0.02375,
      "grad_norm": 0.35260000824928284,
      "learning_rate": 0.000134757,
      "loss": 1.758560562133789,
      "step": 190
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.3592912256717682,
      "learning_rate": 0.000141887,
      "loss": 1.8017724990844726,
      "step": 200
    },
    {
      "epoch": 0.02625,
      "grad_norm": 0.34770476818084717,
      "learning_rate": 0.00014259953155930407,
      "loss": 1.8061519622802735,
      "step": 210
    },
    {
      "epoch": 0.0275,
      "grad_norm": 0.358970582485199,
      "learning_rate": 0.00014259791226603537,
      "loss": 1.8515422821044922,
      "step": 220
    },
    {
      "epoch": 0.02875,
      "grad_norm": 0.34490638971328735,
      "learning_rate": 0.00014259513636323773,
      "loss": 1.8080307006835938,
      "step": 230
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.3587310016155243,
      "learning_rate": 0.00014259120389594238,
      "loss": 1.8180580139160156,
      "step": 240
    },
    {
      "epoch": 0.03125,
      "grad_norm": 0.35348573327064514,
      "learning_rate": 0.0001425861149279427,
      "loss": 1.822945785522461,
      "step": 250
    },
    {
      "epoch": 0.0325,
      "grad_norm": 0.3408539891242981,
      "learning_rate": 0.00014257986954179292,
      "loss": 1.804990577697754,
      "step": 260
    },
    {
      "epoch": 0.03375,
      "grad_norm": 0.35097193717956543,
      "learning_rate": 0.00014257246783880696,
      "loss": 1.8341880798339845,
      "step": 270
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.3467462956905365,
      "learning_rate": 0.00014256390993905687,
      "loss": 1.7296785354614257,
      "step": 280
    },
    {
      "epoch": 0.03625,
      "grad_norm": 0.3492400050163269,
      "learning_rate": 0.00014255419598137062,
      "loss": 1.8266151428222657,
      "step": 290
    },
    {
      "epoch": 0.0375,
      "grad_norm": 0.3718615472316742,
      "learning_rate": 0.00014254332612333005,
      "loss": 1.7514339447021485,
      "step": 300
    },
    {
      "epoch": 0.03875,
      "grad_norm": 0.3476354479789734,
      "learning_rate": 0.00014253130054126827,
      "loss": 1.8226016998291015,
      "step": 310
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.34655508399009705,
      "learning_rate": 0.00014251811943026674,
      "loss": 1.8513336181640625,
      "step": 320
    },
    {
      "epoch": 0.04125,
      "grad_norm": 0.3519170880317688,
      "learning_rate": 0.00014250378300415223,
      "loss": 1.864480972290039,
      "step": 330
    },
    {
      "epoch": 0.0425,
      "grad_norm": 0.3491443395614624,
      "learning_rate": 0.00014248829149549318,
      "loss": 1.8030773162841798,
      "step": 340
    },
    {
      "epoch": 0.04375,
      "grad_norm": 0.3646671175956726,
      "learning_rate": 0.00014247164515559605,
      "loss": 1.782710647583008,
      "step": 350
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.3525862395763397,
      "learning_rate": 0.00014245384425450123,
      "loss": 1.8301689147949218,
      "step": 360
    },
    {
      "epoch": 0.04625,
      "grad_norm": 0.3430674970149994,
      "learning_rate": 0.00014243488908097866,
      "loss": 1.7636734008789063,
      "step": 370
    },
    {
      "epoch": 0.0475,
      "grad_norm": 0.3655545115470886,
      "learning_rate": 0.00014241477994252308,
      "loss": 1.8431385040283204,
      "step": 380
    },
    {
      "epoch": 0.04875,
      "grad_norm": 0.35655322670936584,
      "learning_rate": 0.00014239351716534906,
      "loss": 1.8405876159667969,
      "step": 390
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3450303077697754,
      "learning_rate": 0.00014237110109438587,
      "loss": 1.7880744934082031,
      "step": 400
    },
    {
      "epoch": 0.05125,
      "grad_norm": 0.36362725496292114,
      "learning_rate": 0.0001423475320932716,
      "loss": 1.803448486328125,
      "step": 410
    },
    {
      "epoch": 0.0525,
      "grad_norm": 0.3608654737472534,
      "learning_rate": 0.0001423228105443475,
      "loss": 1.7959218978881837,
      "step": 420
    },
    {
      "epoch": 0.05375,
      "grad_norm": 0.3524814248085022,
      "learning_rate": 0.00014229693684865167,
      "loss": 1.8105106353759766,
      "step": 430
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.35871171951293945,
      "learning_rate": 0.0001422699114259126,
      "loss": 1.7514846801757813,
      "step": 440
    },
    {
      "epoch": 0.05625,
      "grad_norm": 0.3381369709968567,
      "learning_rate": 0.00014224173471454223,
      "loss": 1.811713981628418,
      "step": 450
    },
    {
      "epoch": 0.0575,
      "grad_norm": 0.3746880292892456,
      "learning_rate": 0.00014221240717162908,
      "loss": 1.7895519256591796,
      "step": 460
    },
    {
      "epoch": 0.05875,
      "grad_norm": 0.35921189188957214,
      "learning_rate": 0.00014218192927293062,
      "loss": 1.7877384185791017,
      "step": 470
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.3727467656135559,
      "learning_rate": 0.00014215030151286563,
      "loss": 1.8092086791992188,
      "step": 480
    },
    {
      "epoch": 0.06125,
      "grad_norm": 0.36004638671875,
      "learning_rate": 0.00014211752440450624,
      "loss": 1.845526123046875,
      "step": 490
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.34500977396965027,
      "learning_rate": 0.00014208359847956947,
      "loss": 1.793890380859375,
      "step": 500
    },
    {
      "epoch": 0.06375,
      "grad_norm": 0.3571811020374298,
      "learning_rate": 0.00014204852428840873,
      "loss": 1.8021648406982422,
      "step": 510
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.3511386513710022,
      "learning_rate": 0.0001420123024000048,
      "loss": 1.7810476303100586,
      "step": 520
    },
    {
      "epoch": 0.06625,
      "grad_norm": 0.3544309139251709,
      "learning_rate": 0.00014197493340195673,
      "loss": 1.782750701904297,
      "step": 530
    },
    {
      "epoch": 0.0675,
      "grad_norm": 0.35211437940597534,
      "learning_rate": 0.00014193641790047207,
      "loss": 1.8397369384765625,
      "step": 540
    },
    {
      "epoch": 0.06875,
      "grad_norm": 0.3561457097530365,
      "learning_rate": 0.00014189675652035737,
      "loss": 1.806086540222168,
      "step": 550
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.3514038026332855,
      "learning_rate": 0.0001418559499050077,
      "loss": 1.7963085174560547,
      "step": 560
    },
    {
      "epoch": 0.07125,
      "grad_norm": 0.35221120715141296,
      "learning_rate": 0.00014181399871639652,
      "loss": 1.777400016784668,
      "step": 570
    },
    {
      "epoch": 0.0725,
      "grad_norm": 0.34728357195854187,
      "learning_rate": 0.00014177090363506466,
      "loss": 1.7832159042358398,
      "step": 580
    },
    {
      "epoch": 0.07375,
      "grad_norm": 0.35810062289237976,
      "learning_rate": 0.00014172666536010946,
      "loss": 1.7859878540039062,
      "step": 590
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.3402475118637085,
      "learning_rate": 0.00014168128460917344,
      "loss": 1.8559268951416015,
      "step": 600
    },
    {
      "epoch": 0.07625,
      "grad_norm": 0.36799490451812744,
      "learning_rate": 0.00014163476211843254,
      "loss": 1.8264755249023437,
      "step": 610
    },
    {
      "epoch": 0.0775,
      "grad_norm": 0.3646862804889679,
      "learning_rate": 0.00014158709864258424,
      "loss": 1.800428581237793,
      "step": 620
    },
    {
      "epoch": 0.07875,
      "grad_norm": 0.37956395745277405,
      "learning_rate": 0.00014153829495483538,
      "loss": 1.7767526626586914,
      "step": 630
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.3566032648086548,
      "learning_rate": 0.00014148835184688949,
      "loss": 1.8472091674804687,
      "step": 640
    },
    {
      "epoch": 0.08125,
      "grad_norm": 0.333779513835907,
      "learning_rate": 0.000141437270128934,
      "loss": 1.8140777587890624,
      "step": 650
    },
    {
      "epoch": 0.0825,
      "grad_norm": 0.3429010212421417,
      "learning_rate": 0.0001413850506296272,
      "loss": 1.8366750717163085,
      "step": 660
    },
    {
      "epoch": 0.08375,
      "grad_norm": 0.3753111660480499,
      "learning_rate": 0.00014133169419608456,
      "loss": 1.760198211669922,
      "step": 670
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.35503339767456055,
      "learning_rate": 0.0001412772016938653,
      "loss": 1.8173086166381835,
      "step": 680
    },
    {
      "epoch": 0.08625,
      "grad_norm": 0.358216792345047,
      "learning_rate": 0.0001412215740069581,
      "loss": 1.7937744140625,
      "step": 690
    },
    {
      "epoch": 0.0875,
      "grad_norm": 0.3600156605243683,
      "learning_rate": 0.00014116481203776677,
      "loss": 1.7986185073852539,
      "step": 700
    },
    {
      "epoch": 0.08875,
      "grad_norm": 0.3507816195487976,
      "learning_rate": 0.00014110691670709584,
      "loss": 1.7555866241455078,
      "step": 710
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.35459256172180176,
      "learning_rate": 0.00014104788895413529,
      "loss": 1.795433807373047,
      "step": 720
    },
    {
      "epoch": 0.09125,
      "grad_norm": 0.35286569595336914,
      "learning_rate": 0.00014098772973644564,
      "loss": 1.820347213745117,
      "step": 730
    },
    {
      "epoch": 0.0925,
      "grad_norm": 0.3857751786708832,
      "learning_rate": 0.00014092644002994218,
      "loss": 1.8153291702270509,
      "step": 740
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.3553074598312378,
      "learning_rate": 0.00014086402082887924,
      "loss": 1.8413051605224608,
      "step": 750
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.35642898082733154,
      "learning_rate": 0.0001408004731458341,
      "loss": 1.7815227508544922,
      "step": 760
    },
    {
      "epoch": 0.09625,
      "grad_norm": 0.37263238430023193,
      "learning_rate": 0.00014073579801169043,
      "loss": 1.8360301971435546,
      "step": 770
    },
    {
      "epoch": 0.0975,
      "grad_norm": 0.37507593631744385,
      "learning_rate": 0.00014066999647562167,
      "loss": 1.8166229248046875,
      "step": 780
    },
    {
      "epoch": 0.09875,
      "grad_norm": 0.3496163487434387,
      "learning_rate": 0.00014060306960507398,
      "loss": 1.7876134872436524,
      "step": 790
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.350668340921402,
      "learning_rate": 0.000140535018485749,
      "loss": 1.8262884140014648,
      "step": 800
    },
    {
      "epoch": 0.10125,
      "grad_norm": 0.36257749795913696,
      "learning_rate": 0.00014046584422158602,
      "loss": 1.7791305541992188,
      "step": 810
    },
    {
      "epoch": 0.1025,
      "grad_norm": 0.357570081949234,
      "learning_rate": 0.00014039554793474442,
      "loss": 1.8329212188720703,
      "step": 820
    },
    {
      "epoch": 0.10375,
      "grad_norm": 0.354640930891037,
      "learning_rate": 0.00014032413076558507,
      "loss": 1.7825984954833984,
      "step": 830
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.35969364643096924,
      "learning_rate": 0.00014025159387265215,
      "loss": 1.7961544036865233,
      "step": 840
    },
    {
      "epoch": 0.10625,
      "grad_norm": 0.3408399224281311,
      "learning_rate": 0.00014017793843265416,
      "loss": 1.8031917572021485,
      "step": 850
    },
    {
      "epoch": 0.1075,
      "grad_norm": 0.3505636751651764,
      "learning_rate": 0.00014010316564044495,
      "loss": 1.8270240783691407,
      "step": 860
    },
    {
      "epoch": 0.10875,
      "grad_norm": 0.3612024784088135,
      "learning_rate": 0.00014002727670900427,
      "loss": 1.8037662506103516,
      "step": 870
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.3611273467540741,
      "learning_rate": 0.00013995027286941813,
      "loss": 1.7805574417114258,
      "step": 880
    },
    {
      "epoch": 0.11125,
      "grad_norm": 0.370518296957016,
      "learning_rate": 0.00013987215537085876,
      "loss": 1.83743896484375,
      "step": 890
    },
    {
      "epoch": 0.1125,
      "grad_norm": 0.3627995550632477,
      "learning_rate": 0.00013979292548056446,
      "loss": 1.8568729400634765,
      "step": 900
    },
    {
      "epoch": 0.11375,
      "grad_norm": 0.33446118235588074,
      "learning_rate": 0.00013971258448381896,
      "loss": 1.8121458053588868,
      "step": 910
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.35702356696128845,
      "learning_rate": 0.00013963113368393058,
      "loss": 1.8272817611694336,
      "step": 920
    },
    {
      "epoch": 0.11625,
      "grad_norm": 0.35480058193206787,
      "learning_rate": 0.00013954857440221107,
      "loss": 1.8286819458007812,
      "step": 930
    },
    {
      "epoch": 0.1175,
      "grad_norm": 0.33891281485557556,
      "learning_rate": 0.00013946490797795425,
      "loss": 1.7881786346435546,
      "step": 940
    },
    {
      "epoch": 0.11875,
      "grad_norm": 0.34998786449432373,
      "learning_rate": 0.00013938013576841426,
      "loss": 1.8192798614501953,
      "step": 950
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.36356785893440247,
      "learning_rate": 0.0001392942591487834,
      "loss": 1.8080211639404298,
      "step": 960
    },
    {
      "epoch": 0.12125,
      "grad_norm": 0.3536245822906494,
      "learning_rate": 0.00013920727951217003,
      "loss": 1.7745712280273438,
      "step": 970
    },
    {
      "epoch": 0.1225,
      "grad_norm": 0.35819944739341736,
      "learning_rate": 0.00013911919826957588,
      "loss": 1.8335809707641602,
      "step": 980
    },
    {
      "epoch": 0.12375,
      "grad_norm": 0.3673238754272461,
      "learning_rate": 0.0001390300168498732,
      "loss": 1.7918657302856444,
      "step": 990
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.37633419036865234,
      "learning_rate": 0.0001389397366997814,
      "loss": 1.7912788391113281,
      "step": 1000
    },
    {
      "epoch": 0.12625,
      "grad_norm": 0.36260703206062317,
      "learning_rate": 0.00013884835928384387,
      "loss": 1.7769220352172852,
      "step": 1010
    },
    {
      "epoch": 0.1275,
      "grad_norm": 0.3502698242664337,
      "learning_rate": 0.00013875588608440397,
      "loss": 1.8571086883544923,
      "step": 1020
    },
    {
      "epoch": 0.12875,
      "grad_norm": 0.37244319915771484,
      "learning_rate": 0.0001386623186015812,
      "loss": 1.7873695373535157,
      "step": 1030
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.36906760931015015,
      "learning_rate": 0.00013856765835324657,
      "loss": 1.7982921600341797,
      "step": 1040
    },
    {
      "epoch": 0.13125,
      "grad_norm": 0.3458193838596344,
      "learning_rate": 0.0001384719068749984,
      "loss": 1.896946907043457,
      "step": 1050
    },
    {
      "epoch": 0.1325,
      "grad_norm": 0.3625653088092804,
      "learning_rate": 0.00013837506572013695,
      "loss": 1.8590087890625,
      "step": 1060
    },
    {
      "epoch": 0.13375,
      "grad_norm": 0.37704798579216003,
      "learning_rate": 0.00013827713645963959,
      "loss": 1.7953170776367187,
      "step": 1070
    },
    {
      "epoch": 0.135,
      "grad_norm": 0.35103756189346313,
      "learning_rate": 0.00013817812068213505,
      "loss": 1.864565658569336,
      "step": 1080
    },
    {
      "epoch": 0.13625,
      "grad_norm": 0.39145445823669434,
      "learning_rate": 0.0001380780199938779,
      "loss": 1.787282371520996,
      "step": 1090
    },
    {
      "epoch": 0.1375,
      "grad_norm": 0.3810483515262604,
      "learning_rate": 0.00013797683601872218,
      "loss": 1.8461406707763672,
      "step": 1100
    },
    {
      "epoch": 0.13875,
      "grad_norm": 0.36001554131507874,
      "learning_rate": 0.00013787457039809542,
      "loss": 1.7846809387207032,
      "step": 1110
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.36254000663757324,
      "learning_rate": 0.0001377712247909717,
      "loss": 1.8589000701904297,
      "step": 1120
    },
    {
      "epoch": 0.14125,
      "grad_norm": 0.3535791337490082,
      "learning_rate": 0.00013766680087384488,
      "loss": 1.790989875793457,
      "step": 1130
    },
    {
      "epoch": 0.1425,
      "grad_norm": 0.36819183826446533,
      "learning_rate": 0.00013756130034070147,
      "loss": 1.8115760803222656,
      "step": 1140
    },
    {
      "epoch": 0.14375,
      "grad_norm": 0.35042834281921387,
      "learning_rate": 0.00013745472490299298,
      "loss": 1.7872331619262696,
      "step": 1150
    },
    {
      "epoch": 0.145,
      "grad_norm": 0.36452701687812805,
      "learning_rate": 0.0001373470762896083,
      "loss": 1.8083602905273437,
      "step": 1160
    },
    {
      "epoch": 0.14625,
      "grad_norm": 0.35632047057151794,
      "learning_rate": 0.00013723835624684556,
      "loss": 1.8238039016723633,
      "step": 1170
    },
    {
      "epoch": 0.1475,
      "grad_norm": 0.36330121755599976,
      "learning_rate": 0.00013712856653838384,
      "loss": 1.8468303680419922,
      "step": 1180
    },
    {
      "epoch": 0.14875,
      "grad_norm": 0.37948107719421387,
      "learning_rate": 0.0001370177089452546,
      "loss": 1.7772663116455079,
      "step": 1190
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.3759608268737793,
      "learning_rate": 0.0001369057852658127,
      "loss": 1.793960952758789,
      "step": 1200
    },
    {
      "epoch": 0.15125,
      "grad_norm": 0.3672516644001007,
      "learning_rate": 0.00013679279731570733,
      "loss": 1.7799537658691407,
      "step": 1210
    },
    {
      "epoch": 0.1525,
      "grad_norm": 0.3496241569519043,
      "learning_rate": 0.00013667874692785244,
      "loss": 1.7861103057861327,
      "step": 1220
    },
    {
      "epoch": 0.15375,
      "grad_norm": 0.3461642265319824,
      "learning_rate": 0.00013656363595239708,
      "loss": 1.8481361389160156,
      "step": 1230
    },
    {
      "epoch": 0.155,
      "grad_norm": 0.33858028054237366,
      "learning_rate": 0.0001364474662566954,
      "loss": 1.77642822265625,
      "step": 1240
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.3424132764339447,
      "learning_rate": 0.00013633023972527632,
      "loss": 1.7893180847167969,
      "step": 1250
    },
    {
      "epoch": 0.1575,
      "grad_norm": 0.35095998644828796,
      "learning_rate": 0.00013621195825981293,
      "loss": 1.7366466522216797,
      "step": 1260
    },
    {
      "epoch": 0.15875,
      "grad_norm": 0.36417317390441895,
      "learning_rate": 0.00013609262377909176,
      "loss": 1.839132308959961,
      "step": 1270
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.3565835654735565,
      "learning_rate": 0.00013597223821898145,
      "loss": 1.757269287109375,
      "step": 1280
    },
    {
      "epoch": 0.16125,
      "grad_norm": 0.34676891565322876,
      "learning_rate": 0.00013585080353240158,
      "loss": 1.781381607055664,
      "step": 1290
    },
    {
      "epoch": 0.1625,
      "grad_norm": 0.3492533564567566,
      "learning_rate": 0.00013572832168929085,
      "loss": 1.8004392623901366,
      "step": 1300
    },
    {
      "epoch": 0.16375,
      "grad_norm": 0.33528923988342285,
      "learning_rate": 0.0001356047946765751,
      "loss": 1.7787307739257812,
      "step": 1310
    },
    {
      "epoch": 0.165,
      "grad_norm": 0.35009509325027466,
      "learning_rate": 0.00013548022449813522,
      "loss": 1.7703327178955077,
      "step": 1320
    },
    {
      "epoch": 0.16625,
      "grad_norm": 0.38126665353775024,
      "learning_rate": 0.00013535461317477446,
      "loss": 1.8216169357299805,
      "step": 1330
    },
    {
      "epoch": 0.1675,
      "grad_norm": 0.3653838038444519,
      "learning_rate": 0.00013522796274418575,
      "loss": 1.784686279296875,
      "step": 1340
    },
    {
      "epoch": 0.16875,
      "grad_norm": 0.35842376947402954,
      "learning_rate": 0.00013510027526091872,
      "loss": 1.818338394165039,
      "step": 1350
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.3575061559677124,
      "learning_rate": 0.00013497155279634617,
      "loss": 1.8177734375,
      "step": 1360
    },
    {
      "epoch": 0.17125,
      "grad_norm": 0.36351051926612854,
      "learning_rate": 0.00013484179743863064,
      "loss": 1.8408927917480469,
      "step": 1370
    },
    {
      "epoch": 0.1725,
      "grad_norm": 0.37017935514450073,
      "learning_rate": 0.0001347110112926905,
      "loss": 1.8088676452636718,
      "step": 1380
    },
    {
      "epoch": 0.17375,
      "grad_norm": 0.35998839139938354,
      "learning_rate": 0.00013457919648016573,
      "loss": 1.8451946258544922,
      "step": 1390
    },
    {
      "epoch": 0.175,
      "grad_norm": 0.36173009872436523,
      "learning_rate": 0.0001344463551393836,
      "loss": 1.7784915924072267,
      "step": 1400
    },
    {
      "epoch": 0.17625,
      "grad_norm": 0.3683062493801117,
      "learning_rate": 0.00013431248942532385,
      "loss": 1.745309829711914,
      "step": 1410
    },
    {
      "epoch": 0.1775,
      "grad_norm": 0.3488103151321411,
      "learning_rate": 0.00013417760150958392,
      "loss": 1.793316650390625,
      "step": 1420
    },
    {
      "epoch": 0.17875,
      "grad_norm": 0.35314610600471497,
      "learning_rate": 0.00013404169358034355,
      "loss": 1.7867753982543946,
      "step": 1430
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.3577822744846344,
      "learning_rate": 0.0001339047678423294,
      "loss": 1.7581512451171875,
      "step": 1440
    },
    {
      "epoch": 0.18125,
      "grad_norm": 0.3387848436832428,
      "learning_rate": 0.00013376682651677918,
      "loss": 1.7947473526000977,
      "step": 1450
    },
    {
      "epoch": 0.1825,
      "grad_norm": 0.3571684658527374,
      "learning_rate": 0.00013362787184140572,
      "loss": 1.7496719360351562,
      "step": 1460
    },
    {
      "epoch": 0.18375,
      "grad_norm": 0.3472369313240051,
      "learning_rate": 0.0001334879060703606,
      "loss": 1.7750968933105469,
      "step": 1470
    },
    {
      "epoch": 0.185,
      "grad_norm": 0.3559383749961853,
      "learning_rate": 0.00013334693147419759,
      "loss": 1.8256034851074219,
      "step": 1480
    },
    {
      "epoch": 0.18625,
      "grad_norm": 0.35892486572265625,
      "learning_rate": 0.00013320495033983585,
      "loss": 1.7993803024291992,
      "step": 1490
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.3679066300392151,
      "learning_rate": 0.0001330619649705228,
      "loss": 1.8065261840820312,
      "step": 1500
    },
    {
      "epoch": 0.18875,
      "grad_norm": 0.36252209544181824,
      "learning_rate": 0.0001329179776857968,
      "loss": 1.8372112274169923,
      "step": 1510
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3526136577129364,
      "learning_rate": 0.0001327729908214494,
      "loss": 1.799185562133789,
      "step": 1520
    },
    {
      "epoch": 0.19125,
      "grad_norm": 0.3635775148868561,
      "learning_rate": 0.0001326270067294877,
      "loss": 1.8340118408203125,
      "step": 1530
    },
    {
      "epoch": 0.1925,
      "grad_norm": 0.36545416712760925,
      "learning_rate": 0.00013248002777809586,
      "loss": 1.7582477569580077,
      "step": 1540
    },
    {
      "epoch": 0.19375,
      "grad_norm": 0.37526363134384155,
      "learning_rate": 0.00013233205635159695,
      "loss": 1.799554443359375,
      "step": 1550
    },
    {
      "epoch": 0.195,
      "grad_norm": 0.35140055418014526,
      "learning_rate": 0.0001321830948504142,
      "loss": 1.84625244140625,
      "step": 1560
    },
    {
      "epoch": 0.19625,
      "grad_norm": 0.3566315770149231,
      "learning_rate": 0.0001320331456910319,
      "loss": 1.7883316040039063,
      "step": 1570
    },
    {
      "epoch": 0.1975,
      "grad_norm": 0.35099372267723083,
      "learning_rate": 0.0001318822113059565,
      "loss": 1.794087028503418,
      "step": 1580
    },
    {
      "epoch": 0.19875,
      "grad_norm": 0.35940778255462646,
      "learning_rate": 0.00013173029414367693,
      "loss": 1.7220880508422851,
      "step": 1590
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.36045801639556885,
      "learning_rate": 0.0001315773966686249,
      "loss": 1.7802143096923828,
      "step": 1600
    },
    {
      "epoch": 0.20125,
      "grad_norm": 0.3581635057926178,
      "learning_rate": 0.000131423521361135,
      "loss": 1.799722671508789,
      "step": 1610
    },
    {
      "epoch": 0.2025,
      "grad_norm": 0.33708855509757996,
      "learning_rate": 0.00013126867071740436,
      "loss": 1.8053092956542969,
      "step": 1620
    },
    {
      "epoch": 0.20375,
      "grad_norm": 0.3750436007976532,
      "learning_rate": 0.00013111284724945228,
      "loss": 1.8074203491210938,
      "step": 1630
    },
    {
      "epoch": 0.205,
      "grad_norm": 0.35119321942329407,
      "learning_rate": 0.0001309560534850794,
      "loss": 1.8175487518310547,
      "step": 1640
    },
    {
      "epoch": 0.20625,
      "grad_norm": 0.3611745834350586,
      "learning_rate": 0.00013079829196782668,
      "loss": 1.7702863693237305,
      "step": 1650
    },
    {
      "epoch": 0.2075,
      "grad_norm": 0.3799806833267212,
      "learning_rate": 0.00013063956525693424,
      "loss": 1.8235919952392579,
      "step": 1660
    },
    {
      "epoch": 0.20875,
      "grad_norm": 0.33240807056427,
      "learning_rate": 0.0001304798759272997,
      "loss": 1.768626594543457,
      "step": 1670
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.36028313636779785,
      "learning_rate": 0.00013031922656943647,
      "loss": 1.829296875,
      "step": 1680
    },
    {
      "epoch": 0.21125,
      "grad_norm": 0.34874534606933594,
      "learning_rate": 0.00013015761978943185,
      "loss": 1.8018821716308593,
      "step": 1690
    },
    {
      "epoch": 0.2125,
      "grad_norm": 0.34944280982017517,
      "learning_rate": 0.00012999505820890448,
      "loss": 1.8226497650146485,
      "step": 1700
    },
    {
      "epoch": 0.21375,
      "grad_norm": 0.35128575563430786,
      "learning_rate": 0.00012983154446496209,
      "loss": 1.7741992950439454,
      "step": 1710
    },
    {
      "epoch": 0.215,
      "grad_norm": 0.3564985692501068,
      "learning_rate": 0.0001296670812101586,
      "loss": 1.7850433349609376,
      "step": 1720
    },
    {
      "epoch": 0.21625,
      "grad_norm": 0.3676067292690277,
      "learning_rate": 0.000129501671112451,
      "loss": 1.8290214538574219,
      "step": 1730
    },
    {
      "epoch": 0.2175,
      "grad_norm": 0.3726136386394501,
      "learning_rate": 0.00012933531685515627,
      "loss": 1.7774532318115235,
      "step": 1740
    },
    {
      "epoch": 0.21875,
      "grad_norm": 0.3493287265300751,
      "learning_rate": 0.00012916802113690766,
      "loss": 1.7807361602783203,
      "step": 1750
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.37059202790260315,
      "learning_rate": 0.00012899978667161105,
      "loss": 1.749721145629883,
      "step": 1760
    },
    {
      "epoch": 0.22125,
      "grad_norm": 0.356022447347641,
      "learning_rate": 0.00012883061618840087,
      "loss": 1.8218292236328124,
      "step": 1770
    },
    {
      "epoch": 0.2225,
      "grad_norm": 0.3568074405193329,
      "learning_rate": 0.00012866051243159572,
      "loss": 1.8072574615478516,
      "step": 1780
    },
    {
      "epoch": 0.22375,
      "grad_norm": 0.3749092221260071,
      "learning_rate": 0.00012848947816065416,
      "loss": 1.8410078048706056,
      "step": 1790
    },
    {
      "epoch": 0.225,
      "grad_norm": 0.35633665323257446,
      "learning_rate": 0.00012831751615012955,
      "loss": 1.7817327499389648,
      "step": 1800
    },
    {
      "epoch": 0.22625,
      "grad_norm": 0.3607875108718872,
      "learning_rate": 0.00012814462918962533,
      "loss": 1.8118452072143554,
      "step": 1810
    },
    {
      "epoch": 0.2275,
      "grad_norm": 0.34315699338912964,
      "learning_rate": 0.00012797082008374967,
      "loss": 1.8008819580078126,
      "step": 1820
    },
    {
      "epoch": 0.22875,
      "grad_norm": 0.358188658952713,
      "learning_rate": 0.00012779609165206992,
      "loss": 1.8048545837402343,
      "step": 1830
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3641424775123596,
      "learning_rate": 0.000127620446729067,
      "loss": 1.8129388809204101,
      "step": 1840
    },
    {
      "epoch": 0.23125,
      "grad_norm": 0.36388713121414185,
      "learning_rate": 0.00012744388816408926,
      "loss": 1.7981510162353516,
      "step": 1850
    },
    {
      "epoch": 0.2325,
      "grad_norm": 0.3411344587802887,
      "learning_rate": 0.00012726641882130642,
      "loss": 1.7846858978271485,
      "step": 1860
    },
    {
      "epoch": 0.23375,
      "grad_norm": 0.36635443568229675,
      "learning_rate": 0.00012708804157966297,
      "loss": 1.8334461212158204,
      "step": 1870
    },
    {
      "epoch": 0.235,
      "grad_norm": 0.3459226191043854,
      "learning_rate": 0.00012690875933283154,
      "loss": 1.7850067138671875,
      "step": 1880
    },
    {
      "epoch": 0.23625,
      "grad_norm": 0.3630014657974243,
      "learning_rate": 0.00012672857498916595,
      "loss": 1.8400045394897462,
      "step": 1890
    },
    {
      "epoch": 0.2375,
      "grad_norm": 0.3783304691314697,
      "learning_rate": 0.000126547491471654,
      "loss": 1.7719623565673828,
      "step": 1900
    },
    {
      "epoch": 0.23875,
      "grad_norm": 0.3790845572948456,
      "learning_rate": 0.0001263655117178701,
      "loss": 1.8144996643066407,
      "step": 1910
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.35528555512428284,
      "learning_rate": 0.0001261826386799276,
      "loss": 1.797579002380371,
      "step": 1920
    },
    {
      "epoch": 0.24125,
      "grad_norm": 0.3462880253791809,
      "learning_rate": 0.00012599887532443088,
      "loss": 1.7669387817382813,
      "step": 1930
    },
    {
      "epoch": 0.2425,
      "grad_norm": 0.35499900579452515,
      "learning_rate": 0.00012581422463242716,
      "loss": 1.782514762878418,
      "step": 1940
    },
    {
      "epoch": 0.24375,
      "grad_norm": 0.35548484325408936,
      "learning_rate": 0.00012562868959935835,
      "loss": 1.7927711486816407,
      "step": 1950
    },
    {
      "epoch": 0.245,
      "grad_norm": 0.36208584904670715,
      "learning_rate": 0.00012544227323501222,
      "loss": 1.8539527893066405,
      "step": 1960
    },
    {
      "epoch": 0.24625,
      "grad_norm": 0.3629232347011566,
      "learning_rate": 0.0001252549785634738,
      "loss": 1.7535400390625,
      "step": 1970
    },
    {
      "epoch": 0.2475,
      "grad_norm": 0.33926820755004883,
      "learning_rate": 0.000125066808623076,
      "loss": 1.7788131713867188,
      "step": 1980
    },
    {
      "epoch": 0.24875,
      "grad_norm": 0.3651394546031952,
      "learning_rate": 0.00012487776646635072,
      "loss": 1.8248186111450195,
      "step": 1990
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.35856956243515015,
      "learning_rate": 0.00012468785515997905,
      "loss": 1.7728294372558593,
      "step": 2000
    },
    {
      "epoch": 0.25125,
      "grad_norm": 0.36707815527915955,
      "learning_rate": 0.0001244970777847416,
      "loss": 1.797306442260742,
      "step": 2010
    },
    {
      "epoch": 0.2525,
      "grad_norm": 0.37768349051475525,
      "learning_rate": 0.00012430543743546853,
      "loss": 1.8138954162597656,
      "step": 2020
    },
    {
      "epoch": 0.25375,
      "grad_norm": 0.3719421625137329,
      "learning_rate": 0.00012411293722098938,
      "loss": 1.8046173095703124,
      "step": 2030
    },
    {
      "epoch": 0.255,
      "grad_norm": 0.35382720828056335,
      "learning_rate": 0.00012391958026408258,
      "loss": 1.765408706665039,
      "step": 2040
    },
    {
      "epoch": 0.25625,
      "grad_norm": 0.3717374801635742,
      "learning_rate": 0.00012372536970142481,
      "loss": 1.794291877746582,
      "step": 2050
    },
    {
      "epoch": 0.2575,
      "grad_norm": 0.37810182571411133,
      "learning_rate": 0.0001235303086835401,
      "loss": 1.7855905532836913,
      "step": 2060
    },
    {
      "epoch": 0.25875,
      "grad_norm": 0.34465938806533813,
      "learning_rate": 0.00012333440037474877,
      "loss": 1.7502609252929688,
      "step": 2070
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3537978529930115,
      "learning_rate": 0.0001231376479531161,
      "loss": 1.8433588027954102,
      "step": 2080
    },
    {
      "epoch": 0.26125,
      "grad_norm": 0.3481179475784302,
      "learning_rate": 0.00012294005461040066,
      "loss": 1.778417205810547,
      "step": 2090
    },
    {
      "epoch": 0.2625,
      "grad_norm": 0.36712074279785156,
      "learning_rate": 0.00012274162355200264,
      "loss": 1.8297000885009767,
      "step": 2100
    },
    {
      "epoch": 0.26375,
      "grad_norm": 0.36218199133872986,
      "learning_rate": 0.0001225423579969119,
      "loss": 1.8048271179199218,
      "step": 2110
    },
    {
      "epoch": 0.265,
      "grad_norm": 0.3427264988422394,
      "learning_rate": 0.00012234226117765565,
      "loss": 1.765831756591797,
      "step": 2120
    },
    {
      "epoch": 0.26625,
      "grad_norm": 0.35128286480903625,
      "learning_rate": 0.00012214133634024592,
      "loss": 1.8477115631103516,
      "step": 2130
    },
    {
      "epoch": 0.2675,
      "grad_norm": 0.36919906735420227,
      "learning_rate": 0.0001219395867441272,
      "loss": 1.7384143829345704,
      "step": 2140
    },
    {
      "epoch": 0.26875,
      "grad_norm": 0.37480294704437256,
      "learning_rate": 0.00012173701566212328,
      "loss": 1.776589584350586,
      "step": 2150
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3442743718624115,
      "learning_rate": 0.00012153362638038429,
      "loss": 1.7534845352172852,
      "step": 2160
    },
    {
      "epoch": 0.27125,
      "grad_norm": 0.3617842495441437,
      "learning_rate": 0.0001213294221983334,
      "loss": 1.8287986755371093,
      "step": 2170
    },
    {
      "epoch": 0.2725,
      "grad_norm": 0.3468424081802368,
      "learning_rate": 0.00012112440642861319,
      "loss": 1.7810518264770507,
      "step": 2180
    },
    {
      "epoch": 0.27375,
      "grad_norm": 0.36655351519584656,
      "learning_rate": 0.000120918582397032,
      "loss": 1.8189208984375,
      "step": 2190
    },
    {
      "epoch": 0.275,
      "grad_norm": 0.35723134875297546,
      "learning_rate": 0.00012071195344251006,
      "loss": 1.8201839447021484,
      "step": 2200
    },
    {
      "epoch": 0.27625,
      "grad_norm": 0.36652442812919617,
      "learning_rate": 0.00012050452291702508,
      "loss": 1.8076786041259765,
      "step": 2210
    },
    {
      "epoch": 0.2775,
      "grad_norm": 0.3568657338619232,
      "learning_rate": 0.00012029629418555812,
      "loss": 1.7748506546020508,
      "step": 2220
    },
    {
      "epoch": 0.27875,
      "grad_norm": 0.34934675693511963,
      "learning_rate": 0.00012008727062603888,
      "loss": 1.8173185348510743,
      "step": 2230
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.34384509921073914,
      "learning_rate": 0.00011987745562929093,
      "loss": 1.7502407073974608,
      "step": 2240
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.3680790066719055,
      "learning_rate": 0.00011966685259897665,
      "loss": 1.741659927368164,
      "step": 2250
    },
    {
      "epoch": 0.2825,
      "grad_norm": 0.37108564376831055,
      "learning_rate": 0.00011945546495154214,
      "loss": 1.7894527435302734,
      "step": 2260
    },
    {
      "epoch": 0.28375,
      "grad_norm": 0.37491941452026367,
      "learning_rate": 0.00011924329611616168,
      "loss": 1.7868507385253907,
      "step": 2270
    },
    {
      "epoch": 0.285,
      "grad_norm": 0.3443116545677185,
      "learning_rate": 0.00011903034953468213,
      "loss": 1.7541233062744142,
      "step": 2280
    },
    {
      "epoch": 0.28625,
      "grad_norm": 0.3643540143966675,
      "learning_rate": 0.00011881662866156715,
      "loss": 1.8128959655761718,
      "step": 2290
    },
    {
      "epoch": 0.2875,
      "grad_norm": 0.35639819502830505,
      "learning_rate": 0.00011860213696384107,
      "loss": 1.7657649993896485,
      "step": 2300
    },
    {
      "epoch": 0.28875,
      "grad_norm": 0.36442187428474426,
      "learning_rate": 0.00011838687792103273,
      "loss": 1.792444610595703,
      "step": 2310
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.36035555601119995,
      "learning_rate": 0.00011817085502511903,
      "loss": 1.7670486450195313,
      "step": 2320
    },
    {
      "epoch": 0.29125,
      "grad_norm": 0.3552349805831909,
      "learning_rate": 0.00011795407178046817,
      "loss": 1.8542526245117188,
      "step": 2330
    },
    {
      "epoch": 0.2925,
      "grad_norm": 0.3693036437034607,
      "learning_rate": 0.00011773653170378296,
      "loss": 1.6886547088623047,
      "step": 2340
    },
    {
      "epoch": 0.29375,
      "grad_norm": 0.3605458736419678,
      "learning_rate": 0.00011751823832404365,
      "loss": 1.7754722595214845,
      "step": 2350
    },
    {
      "epoch": 0.295,
      "grad_norm": 0.35839903354644775,
      "learning_rate": 0.00011729919518245076,
      "loss": 1.7882440567016602,
      "step": 2360
    },
    {
      "epoch": 0.29625,
      "grad_norm": 0.36839786171913147,
      "learning_rate": 0.00011707940583236761,
      "loss": 1.7781326293945312,
      "step": 2370
    },
    {
      "epoch": 0.2975,
      "grad_norm": 0.35868513584136963,
      "learning_rate": 0.0001168588738392626,
      "loss": 1.7871665954589844,
      "step": 2380
    },
    {
      "epoch": 0.29875,
      "grad_norm": 0.3435186743736267,
      "learning_rate": 0.00011663760278065153,
      "loss": 1.8193252563476563,
      "step": 2390
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3949030935764313,
      "learning_rate": 0.00011641559624603941,
      "loss": 1.7928247451782227,
      "step": 2400
    },
    {
      "epoch": 0.30125,
      "grad_norm": 0.3681996762752533,
      "learning_rate": 0.00011619285783686234,
      "loss": 1.7616628646850585,
      "step": 2410
    },
    {
      "epoch": 0.3025,
      "grad_norm": 0.3694431781768799,
      "learning_rate": 0.00011596939116642899,
      "loss": 1.8024406433105469,
      "step": 2420
    },
    {
      "epoch": 0.30375,
      "grad_norm": 0.3637784719467163,
      "learning_rate": 0.00011574519985986208,
      "loss": 1.757676887512207,
      "step": 2430
    },
    {
      "epoch": 0.305,
      "grad_norm": 0.3616812229156494,
      "learning_rate": 0.00011552028755403952,
      "loss": 1.79559326171875,
      "step": 2440
    },
    {
      "epoch": 0.30625,
      "grad_norm": 0.36502957344055176,
      "learning_rate": 0.00011529465789753538,
      "loss": 1.7899351119995117,
      "step": 2450
    },
    {
      "epoch": 0.3075,
      "grad_norm": 0.3788166344165802,
      "learning_rate": 0.00011506831455056079,
      "loss": 1.8282848358154298,
      "step": 2460
    },
    {
      "epoch": 0.30875,
      "grad_norm": 0.36333489418029785,
      "learning_rate": 0.00011484126118490451,
      "loss": 1.766189956665039,
      "step": 2470
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.35034865140914917,
      "learning_rate": 0.00011461350148387332,
      "loss": 1.7669204711914062,
      "step": 2480
    },
    {
      "epoch": 0.31125,
      "grad_norm": 0.35153037309646606,
      "learning_rate": 0.00011438503914223241,
      "loss": 1.7271625518798828,
      "step": 2490
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.3732260763645172,
      "learning_rate": 0.00011415587786614524,
      "loss": 1.7690876007080079,
      "step": 2500
    },
    {
      "epoch": 0.31375,
      "grad_norm": 0.3613711893558502,
      "learning_rate": 0.0001139260213731136,
      "loss": 1.7684833526611328,
      "step": 2510
    },
    {
      "epoch": 0.315,
      "grad_norm": 0.35713133215904236,
      "learning_rate": 0.00011369547339191726,
      "loss": 1.7643346786499023,
      "step": 2520
    },
    {
      "epoch": 0.31625,
      "grad_norm": 0.35974639654159546,
      "learning_rate": 0.0001134642376625534,
      "loss": 1.7887260437011718,
      "step": 2530
    },
    {
      "epoch": 0.3175,
      "grad_norm": 0.36356088519096375,
      "learning_rate": 0.00011323231793617599,
      "loss": 1.788846206665039,
      "step": 2540
    },
    {
      "epoch": 0.31875,
      "grad_norm": 0.3578101098537445,
      "learning_rate": 0.00011299971797503495,
      "loss": 1.781305694580078,
      "step": 2550
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.35546955466270447,
      "learning_rate": 0.00011276644155241517,
      "loss": 1.7678417205810546,
      "step": 2560
    },
    {
      "epoch": 0.32125,
      "grad_norm": 0.3539295792579651,
      "learning_rate": 0.00011253249245257516,
      "loss": 1.7507053375244142,
      "step": 2570
    },
    {
      "epoch": 0.3225,
      "grad_norm": 0.35056355595588684,
      "learning_rate": 0.00011229787447068576,
      "loss": 1.8345399856567384,
      "step": 2580
    },
    {
      "epoch": 0.32375,
      "grad_norm": 0.3503001034259796,
      "learning_rate": 0.00011206259141276858,
      "loss": 1.8280166625976562,
      "step": 2590
    },
    {
      "epoch": 0.325,
      "grad_norm": 0.3602514863014221,
      "learning_rate": 0.0001118266470956342,
      "loss": 1.7046276092529298,
      "step": 2600
    },
    {
      "epoch": 0.32625,
      "grad_norm": 0.3672384023666382,
      "learning_rate": 0.00011159004534682027,
      "loss": 1.805099868774414,
      "step": 2610
    },
    {
      "epoch": 0.3275,
      "grad_norm": 0.3589872419834137,
      "learning_rate": 0.00011135279000452953,
      "loss": 1.7550365447998046,
      "step": 2620
    },
    {
      "epoch": 0.32875,
      "grad_norm": 0.3497745990753174,
      "learning_rate": 0.00011111488491756732,
      "loss": 1.758819580078125,
      "step": 2630
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3647236227989197,
      "learning_rate": 0.00011087633394527935,
      "loss": 1.765294647216797,
      "step": 2640
    },
    {
      "epoch": 0.33125,
      "grad_norm": 0.33403027057647705,
      "learning_rate": 0.00011063714095748899,
      "loss": 1.7979480743408203,
      "step": 2650
    },
    {
      "epoch": 0.3325,
      "grad_norm": 0.3792349696159363,
      "learning_rate": 0.00011039730983443455,
      "loss": 1.829258346557617,
      "step": 2660
    },
    {
      "epoch": 0.33375,
      "grad_norm": 0.3754643201828003,
      "learning_rate": 0.00011015684446670626,
      "loss": 1.783727264404297,
      "step": 2670
    },
    {
      "epoch": 0.335,
      "grad_norm": 0.3466981053352356,
      "learning_rate": 0.00010991574875518323,
      "loss": 1.7687664031982422,
      "step": 2680
    },
    {
      "epoch": 0.33625,
      "grad_norm": 0.3535688519477844,
      "learning_rate": 0.00010967402661097012,
      "loss": 1.8189085006713868,
      "step": 2690
    },
    {
      "epoch": 0.3375,
      "grad_norm": 0.36101067066192627,
      "learning_rate": 0.0001094316819553337,
      "loss": 1.752197265625,
      "step": 2700
    },
    {
      "epoch": 0.33875,
      "grad_norm": 0.36568474769592285,
      "learning_rate": 0.0001091887187196393,
      "loss": 1.7754268646240234,
      "step": 2710
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3312813639640808,
      "learning_rate": 0.00010894514084528695,
      "loss": 1.75748291015625,
      "step": 2720
    },
    {
      "epoch": 0.34125,
      "grad_norm": 0.3573434054851532,
      "learning_rate": 0.00010870095228364743,
      "loss": 1.7631900787353516,
      "step": 2730
    },
    {
      "epoch": 0.3425,
      "grad_norm": 0.35645684599876404,
      "learning_rate": 0.00010845615699599832,
      "loss": 1.747064971923828,
      "step": 2740
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.3608238101005554,
      "learning_rate": 0.00010821075895345951,
      "loss": 1.772369384765625,
      "step": 2750
    },
    {
      "epoch": 0.345,
      "grad_norm": 0.37147653102874756,
      "learning_rate": 0.00010796476213692903,
      "loss": 1.8682558059692382,
      "step": 2760
    },
    {
      "epoch": 0.34625,
      "grad_norm": 0.3562459349632263,
      "learning_rate": 0.0001077181705370183,
      "loss": 1.7756576538085938,
      "step": 2770
    },
    {
      "epoch": 0.3475,
      "grad_norm": 0.3861102759838104,
      "learning_rate": 0.00010747098815398739,
      "loss": 1.797110366821289,
      "step": 2780
    },
    {
      "epoch": 0.34875,
      "grad_norm": 0.3438943326473236,
      "learning_rate": 0.0001072232189976802,
      "loss": 1.7463438034057617,
      "step": 2790
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3862653374671936,
      "learning_rate": 0.00010697486708745942,
      "loss": 1.781214141845703,
      "step": 2800
    }
  ],
  "logging_steps": 10,
  "max_steps": 8000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.750651595063296e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}