bobox
/

DeBERTaV3-small-GeneralSentenceTransformer-v2-checkpoints-tmp

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89cf03dc9085ffef97e239bba9d281185e9db1fd4e0da8fb9ed67d08da8d63ed
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6e30cd1973ffd581d9841a4142304c15933bd2e35a8c8da4f5748dff2786807
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cad5f2f78e52ff86b9024a77895dae5ac7daf09ebac038d6b7e6d7a109b7fab1
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f56c48926de377ce9d4614f603c07171ebd1e50e5dd83e538cfc95f815b9f5c
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc3e6bd6964335e97fd00e4ed99553574e6a0c29df42723a319985da7eb09a2c
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a35737710db5d432ce9a1d2a028fb95e0f070338de7e2dd89045bd562c011764
+size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c0b1665ad9a994274278193da377d00cc0a72d4cbeda48768b256548dcea6f9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6909db50d7352964f2947bab64e77e4b2204326b328911ba1924aee34ca6ed39
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,639 +1,329 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
-  "eval_steps": 471,
-  "global_step": 9420,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1,
-      "grad_norm": 23.178159713745117,
-      "learning_rate": 3.004181408813123e-06,
-      "loss": 3.3296,
-      "step": 471
     },
     {
       "epoch": 0.1,
-      "eval_nli-pairs_loss": 1.8879033327102661,
-      "eval_nli-pairs_runtime": 14.5841,
-      "eval_nli-pairs_samples_per_second": 466.81,
-      "eval_nli-pairs_steps_per_second": 29.21,
-      "step": 471
     },
     {
       "epoch": 0.1,
-      "eval_scitail-pairs-pos_loss": 1.3438984155654907,
-      "eval_scitail-pairs-pos_runtime": 3.3055,
-      "eval_scitail-pairs-pos_samples_per_second": 394.499,
-      "eval_scitail-pairs-pos_steps_per_second": 24.807,
-      "step": 471
     },
     {
       "epoch": 0.1,
-      "eval_qnli-contrastive_loss": 2.2597947120666504,
-      "eval_qnli-contrastive_runtime": 15.4075,
-      "eval_qnli-contrastive_samples_per_second": 354.567,
-      "eval_qnli-contrastive_steps_per_second": 22.197,
-      "step": 471
     },
     {
       "epoch": 0.2,
-      "grad_norm": 20.00649070739746,
-      "learning_rate": 6.021228690897395e-06,
-      "loss": 1.8704,
-      "step": 942
     },
     {
       "epoch": 0.2,
-      "eval_nli-pairs_loss": 0.9545981884002686,
-      "eval_nli-pairs_runtime": 14.5243,
-      "eval_nli-pairs_samples_per_second": 468.731,
-      "eval_nli-pairs_steps_per_second": 29.33,
-      "step": 942
     },
     {
       "epoch": 0.2,
-      "eval_scitail-pairs-pos_loss": 0.5628724098205566,
-      "eval_scitail-pairs-pos_runtime": 3.3029,
-      "eval_scitail-pairs-pos_samples_per_second": 394.801,
-      "eval_scitail-pairs-pos_steps_per_second": 24.826,
-      "step": 942
     },
     {
       "epoch": 0.2,
-      "eval_qnli-contrastive_loss": 1.840173602104187,
-      "eval_qnli-contrastive_runtime": 15.4134,
-      "eval_qnli-contrastive_samples_per_second": 354.433,
-      "eval_qnli-contrastive_steps_per_second": 22.189,
-      "step": 942
     },
     {
       "epoch": 0.3,
-      "grad_norm": 14.465508460998535,
-      "learning_rate": 9.051141846252816e-06,
-      "loss": 1.2621,
-      "step": 1413
     },
     {
       "epoch": 0.3,
-      "eval_nli-pairs_loss": 0.715168297290802,
-      "eval_nli-pairs_runtime": 14.4626,
-      "eval_nli-pairs_samples_per_second": 470.731,
-      "eval_nli-pairs_steps_per_second": 29.455,
-      "step": 1413
     },
     {
       "epoch": 0.3,
-      "eval_scitail-pairs-pos_loss": 0.45529162883758545,
-      "eval_scitail-pairs-pos_runtime": 3.3513,
-      "eval_scitail-pairs-pos_samples_per_second": 389.098,
-      "eval_scitail-pairs-pos_steps_per_second": 24.468,
-      "step": 1413
     },
     {
       "epoch": 0.3,
-      "eval_qnli-contrastive_loss": 1.388743281364441,
-      "eval_qnli-contrastive_runtime": 15.4261,
-      "eval_qnli-contrastive_samples_per_second": 354.139,
-      "eval_qnli-contrastive_steps_per_second": 22.17,
-      "step": 1413
     },
     {
       "epoch": 0.4,
-      "grad_norm": 164.2409210205078,
-      "learning_rate": 1.2081055001608235e-05,
-      "loss": 1.2512,
-      "step": 1884
     },
     {
       "epoch": 0.4,
-      "eval_nli-pairs_loss": 0.5274420976638794,
-      "eval_nli-pairs_runtime": 14.4658,
-      "eval_nli-pairs_samples_per_second": 470.628,
-      "eval_nli-pairs_steps_per_second": 29.449,
-      "step": 1884
     },
     {
       "epoch": 0.4,
-      "eval_scitail-pairs-pos_loss": 0.3621281683444977,
-      "eval_scitail-pairs-pos_runtime": 3.3054,
-      "eval_scitail-pairs-pos_samples_per_second": 394.502,
-      "eval_scitail-pairs-pos_steps_per_second": 24.808,
-      "step": 1884
     },
     {
       "epoch": 0.4,
-      "eval_qnli-contrastive_loss": 0.8418154120445251,
-      "eval_qnli-contrastive_runtime": 15.4336,
-      "eval_qnli-contrastive_samples_per_second": 353.967,
-      "eval_qnli-contrastive_steps_per_second": 22.159,
-      "step": 1884
     },
     {
       "epoch": 0.5,
-      "grad_norm": 1.1174694299697876,
-      "learning_rate": 1.5110968156963654e-05,
-      "loss": 1.1724,
-      "step": 2355
     },
     {
       "epoch": 0.5,
-      "eval_nli-pairs_loss": 0.49269717931747437,
-      "eval_nli-pairs_runtime": 14.6969,
-      "eval_nli-pairs_samples_per_second": 463.228,
-      "eval_nli-pairs_steps_per_second": 28.986,
-      "step": 2355
     },
     {
       "epoch": 0.5,
-      "eval_scitail-pairs-pos_loss": 0.39243820309638977,
-      "eval_scitail-pairs-pos_runtime": 3.3462,
-      "eval_scitail-pairs-pos_samples_per_second": 389.699,
-      "eval_scitail-pairs-pos_steps_per_second": 24.506,
-      "step": 2355
     },
     {
       "epoch": 0.5,
-      "eval_qnli-contrastive_loss": 0.14236953854560852,
-      "eval_qnli-contrastive_runtime": 15.7375,
-      "eval_qnli-contrastive_samples_per_second": 347.133,
-      "eval_qnli-contrastive_steps_per_second": 21.732,
-      "step": 2355
     },
     {
       "epoch": 0.6,
-      "grad_norm": 8.20367431640625,
-      "learning_rate": 1.8140881312319075e-05,
-      "loss": 0.9036,
-      "step": 2826
     },
     {
       "epoch": 0.6,
-      "eval_nli-pairs_loss": 0.46205422282218933,
-      "eval_nli-pairs_runtime": 14.6645,
-      "eval_nli-pairs_samples_per_second": 464.249,
-      "eval_nli-pairs_steps_per_second": 29.05,
-      "step": 2826
     },
     {
       "epoch": 0.6,
-      "eval_scitail-pairs-pos_loss": 0.37769660353660583,
-      "eval_scitail-pairs-pos_runtime": 3.3324,
-      "eval_scitail-pairs-pos_samples_per_second": 391.314,
-      "eval_scitail-pairs-pos_steps_per_second": 24.607,
-      "step": 2826
     },
     {
       "epoch": 0.6,
-      "eval_qnli-contrastive_loss": 0.3408704996109009,
-      "eval_qnli-contrastive_runtime": 15.4886,
-      "eval_qnli-contrastive_samples_per_second": 352.711,
-      "eval_qnli-contrastive_steps_per_second": 22.081,
-      "step": 2826
     },
     {
       "epoch": 0.7,
-      "grad_norm": 13.231554985046387,
-      "learning_rate": 1.995898723197675e-05,
-      "loss": 1.0374,
-      "step": 3297
     },
     {
       "epoch": 0.7,
-      "eval_nli-pairs_loss": 0.41105732321739197,
-      "eval_nli-pairs_runtime": 14.6153,
-      "eval_nli-pairs_samples_per_second": 465.813,
-      "eval_nli-pairs_steps_per_second": 29.148,
-      "step": 3297
     },
     {
       "epoch": 0.7,
-      "eval_scitail-pairs-pos_loss": 0.3417491614818573,
-      "eval_scitail-pairs-pos_runtime": 3.3206,
-      "eval_scitail-pairs-pos_samples_per_second": 392.697,
-      "eval_scitail-pairs-pos_steps_per_second": 24.694,
-      "step": 3297
     },
     {
       "epoch": 0.7,
-      "eval_qnli-contrastive_loss": 0.21254216134548187,
-      "eval_qnli-contrastive_runtime": 15.5347,
-      "eval_qnli-contrastive_samples_per_second": 351.664,
-      "eval_qnli-contrastive_steps_per_second": 22.015,
-      "step": 3297
     },
     {
       "epoch": 0.8,
-      "grad_norm": 23.010765075683594,
-      "learning_rate": 1.9476312452068522e-05,
-      "loss": 0.9259,
-      "step": 3768
     },
     {
       "epoch": 0.8,
-      "eval_nli-pairs_loss": 0.3852880597114563,
-      "eval_nli-pairs_runtime": 14.5431,
-      "eval_nli-pairs_samples_per_second": 468.125,
-      "eval_nli-pairs_steps_per_second": 29.292,
-      "step": 3768
     },
     {
       "epoch": 0.8,
-      "eval_scitail-pairs-pos_loss": 0.2818955183029175,
-      "eval_scitail-pairs-pos_runtime": 3.3663,
-      "eval_scitail-pairs-pos_samples_per_second": 387.364,
-      "eval_scitail-pairs-pos_steps_per_second": 24.359,
-      "step": 3768
     },
     {
       "epoch": 0.8,
-      "eval_qnli-contrastive_loss": 0.16461187601089478,
-      "eval_qnli-contrastive_runtime": 15.6023,
-      "eval_qnli-contrastive_samples_per_second": 350.141,
-      "eval_qnli-contrastive_steps_per_second": 21.92,
-      "step": 3768
     },
     {
       "epoch": 0.9,
-      "grad_norm": 4.332469940185547,
-      "learning_rate": 1.8475083492522773e-05,
-      "loss": 0.8709,
-      "step": 4239
     },
     {
       "epoch": 0.9,
-      "eval_nli-pairs_loss": 0.37486234307289124,
-      "eval_nli-pairs_runtime": 14.7406,
-      "eval_nli-pairs_samples_per_second": 461.852,
-      "eval_nli-pairs_steps_per_second": 28.9,
-      "step": 4239
     },
     {
       "epoch": 0.9,
-      "eval_scitail-pairs-pos_loss": 0.29122474789619446,
-      "eval_scitail-pairs-pos_runtime": 3.5504,
-      "eval_scitail-pairs-pos_samples_per_second": 367.283,
-      "eval_scitail-pairs-pos_steps_per_second": 23.096,
-      "step": 4239
     },
     {
       "epoch": 0.9,
-      "eval_qnli-contrastive_loss": 0.11566311866044998,
-      "eval_qnli-contrastive_runtime": 15.6925,
-      "eval_qnli-contrastive_samples_per_second": 348.129,
-      "eval_qnli-contrastive_steps_per_second": 21.794,
-      "step": 4239
     },
     {
       "epoch": 1.0,
-      "grad_norm": 26.054088592529297,
-      "learning_rate": 1.701008869684049e-05,
-      "loss": 0.8686,
-      "step": 4710
     },
     {
       "epoch": 1.0,
-      "eval_nli-pairs_loss": 0.36355406045913696,
-      "eval_nli-pairs_runtime": 14.5214,
-      "eval_nli-pairs_samples_per_second": 468.824,
-      "eval_nli-pairs_steps_per_second": 29.336,
-      "step": 4710
     },
     {
       "epoch": 1.0,
-      "eval_scitail-pairs-pos_loss": 0.3108903765678406,
-      "eval_scitail-pairs-pos_runtime": 3.3842,
-      "eval_scitail-pairs-pos_samples_per_second": 385.319,
-      "eval_scitail-pairs-pos_steps_per_second": 24.23,
-      "step": 4710
     },
     {
       "epoch": 1.0,
-      "eval_qnli-contrastive_loss": 0.09614822268486023,
-      "eval_qnli-contrastive_runtime": 15.7192,
-      "eval_qnli-contrastive_samples_per_second": 347.537,
-      "eval_qnli-contrastive_steps_per_second": 21.757,
-      "step": 4710
-    },
-    {
-      "epoch": 1.1,
-      "grad_norm": 17.123151779174805,
-      "learning_rate": 1.5161494182199708e-05,
-      "loss": 0.726,
-      "step": 5181
-    },
-    {
-      "epoch": 1.1,
-      "eval_nli-pairs_loss": 0.37437891960144043,
-      "eval_nli-pairs_runtime": 14.6826,
-      "eval_nli-pairs_samples_per_second": 463.677,
-      "eval_nli-pairs_steps_per_second": 29.014,
-      "step": 5181
-    },
-    {
-      "epoch": 1.1,
-      "eval_scitail-pairs-pos_loss": 0.34239521622657776,
-      "eval_scitail-pairs-pos_runtime": 3.4343,
-      "eval_scitail-pairs-pos_samples_per_second": 379.703,
-      "eval_scitail-pairs-pos_steps_per_second": 23.877,
-      "step": 5181
-    },
-    {
-      "epoch": 1.1,
-      "eval_qnli-contrastive_loss": 0.04533466696739197,
-      "eval_qnli-contrastive_runtime": 15.5919,
-      "eval_qnli-contrastive_samples_per_second": 350.374,
-      "eval_qnli-contrastive_steps_per_second": 21.934,
-      "step": 5181
-    },
-    {
-      "epoch": 1.2,
-      "grad_norm": 4.296922206878662,
-      "learning_rate": 1.3030457061862642e-05,
-      "loss": 0.8151,
-      "step": 5652
-    },
-    {
-      "epoch": 1.2,
-      "eval_nli-pairs_loss": 0.3501867353916168,
-      "eval_nli-pairs_runtime": 14.648,
-      "eval_nli-pairs_samples_per_second": 464.772,
-      "eval_nli-pairs_steps_per_second": 29.082,
-      "step": 5652
-    },
-    {
-      "epoch": 1.2,
-      "eval_scitail-pairs-pos_loss": 0.26023754477500916,
-      "eval_scitail-pairs-pos_runtime": 3.3385,
-      "eval_scitail-pairs-pos_samples_per_second": 390.589,
-      "eval_scitail-pairs-pos_steps_per_second": 24.562,
-      "step": 5652
-    },
-    {
-      "epoch": 1.2,
-      "eval_qnli-contrastive_loss": 0.18350932002067566,
-      "eval_qnli-contrastive_runtime": 15.5173,
-      "eval_qnli-contrastive_samples_per_second": 352.059,
-      "eval_qnli-contrastive_steps_per_second": 22.04,
-      "step": 5652
-    },
-    {
-      "epoch": 1.3,
-      "grad_norm": 5.370415210723877,
-      "learning_rate": 1.0733590017323587e-05,
-      "loss": 0.7127,
-      "step": 6123
-    },
-    {
-      "epoch": 1.3,
-      "eval_nli-pairs_loss": 0.33619123697280884,
-      "eval_nli-pairs_runtime": 14.5016,
-      "eval_nli-pairs_samples_per_second": 469.464,
-      "eval_nli-pairs_steps_per_second": 29.376,
-      "step": 6123
-    },
-    {
-      "epoch": 1.3,
-      "eval_scitail-pairs-pos_loss": 0.24599790573120117,
-      "eval_scitail-pairs-pos_runtime": 3.3041,
-      "eval_scitail-pairs-pos_samples_per_second": 394.666,
-      "eval_scitail-pairs-pos_steps_per_second": 24.818,
-      "step": 6123
-    },
-    {
-      "epoch": 1.3,
-      "eval_qnli-contrastive_loss": 0.10889358073472977,
-      "eval_qnli-contrastive_runtime": 15.451,
-      "eval_qnli-contrastive_samples_per_second": 353.569,
-      "eval_qnli-contrastive_steps_per_second": 22.134,
-      "step": 6123
-    },
-    {
-      "epoch": 1.4,
-      "grad_norm": 105.34712219238281,
-      "learning_rate": 8.401493879376199e-06,
-      "loss": 0.8408,
-      "step": 6594
-    },
-    {
-      "epoch": 1.4,
-      "eval_nli-pairs_loss": 0.3184218406677246,
-      "eval_nli-pairs_runtime": 14.4863,
-      "eval_nli-pairs_samples_per_second": 469.961,
-      "eval_nli-pairs_steps_per_second": 29.407,
-      "step": 6594
-    },
-    {
-      "epoch": 1.4,
-      "eval_scitail-pairs-pos_loss": 0.27837762236595154,
-      "eval_scitail-pairs-pos_runtime": 3.3858,
-      "eval_scitail-pairs-pos_samples_per_second": 385.134,
-      "eval_scitail-pairs-pos_steps_per_second": 24.219,
-      "step": 6594
-    },
-    {
-      "epoch": 1.4,
-      "eval_qnli-contrastive_loss": 0.07013922929763794,
-      "eval_qnli-contrastive_runtime": 15.4468,
-      "eval_qnli-contrastive_samples_per_second": 353.666,
-      "eval_qnli-contrastive_steps_per_second": 22.141,
-      "step": 6594
-    },
-    {
-      "epoch": 1.5,
-      "grad_norm": 1.1197956800460815,
-      "learning_rate": 6.15190528470631e-06,
-      "loss": 0.7845,
-      "step": 7065
-    },
-    {
-      "epoch": 1.5,
-      "eval_nli-pairs_loss": 0.3191192150115967,
-      "eval_nli-pairs_runtime": 14.505,
-      "eval_nli-pairs_samples_per_second": 469.355,
-      "eval_nli-pairs_steps_per_second": 29.369,
-      "step": 7065
-    },
-    {
-      "epoch": 1.5,
-      "eval_scitail-pairs-pos_loss": 0.2821648120880127,
-      "eval_scitail-pairs-pos_runtime": 3.3778,
-      "eval_scitail-pairs-pos_samples_per_second": 386.049,
-      "eval_scitail-pairs-pos_steps_per_second": 24.276,
-      "step": 7065
-    },
-    {
-      "epoch": 1.5,
-      "eval_qnli-contrastive_loss": 0.03179321065545082,
-      "eval_qnli-contrastive_runtime": 15.41,
-      "eval_qnli-contrastive_samples_per_second": 354.509,
-      "eval_qnli-contrastive_steps_per_second": 22.193,
-      "step": 7065
-    },
-    {
-      "epoch": 1.6,
-      "grad_norm": 3.4374799728393555,
-      "learning_rate": 4.1128886407133994e-06,
-      "loss": 0.5766,
-      "step": 7536
-    },
-    {
-      "epoch": 1.6,
-      "eval_nli-pairs_loss": 0.30556315183639526,
-      "eval_nli-pairs_runtime": 14.4825,
-      "eval_nli-pairs_samples_per_second": 470.083,
-      "eval_nli-pairs_steps_per_second": 29.415,
-      "step": 7536
-    },
-    {
-      "epoch": 1.6,
-      "eval_scitail-pairs-pos_loss": 0.277355819940567,
-      "eval_scitail-pairs-pos_runtime": 3.3048,
-      "eval_scitail-pairs-pos_samples_per_second": 394.581,
-      "eval_scitail-pairs-pos_steps_per_second": 24.813,
-      "step": 7536
-    },
-    {
-      "epoch": 1.6,
-      "eval_qnli-contrastive_loss": 0.056649066507816315,
-      "eval_qnli-contrastive_runtime": 15.5222,
-      "eval_qnli-contrastive_samples_per_second": 351.949,
-      "eval_qnli-contrastive_steps_per_second": 22.033,
-      "step": 7536
-    },
-    {
-      "epoch": 1.7,
-      "grad_norm": 5.434581279754639,
-      "learning_rate": 2.3960211678026622e-06,
-      "loss": 0.7304,
-      "step": 8007
-    },
-    {
-      "epoch": 1.7,
-      "eval_nli-pairs_loss": 0.29907679557800293,
-      "eval_nli-pairs_runtime": 14.5118,
-      "eval_nli-pairs_samples_per_second": 469.136,
-      "eval_nli-pairs_steps_per_second": 29.355,
-      "step": 8007
-    },
-    {
-      "epoch": 1.7,
-      "eval_scitail-pairs-pos_loss": 0.2736453711986542,
-      "eval_scitail-pairs-pos_runtime": 3.2966,
-      "eval_scitail-pairs-pos_samples_per_second": 395.561,
-      "eval_scitail-pairs-pos_steps_per_second": 24.874,
-      "step": 8007
-    },
-    {
-      "epoch": 1.7,
-      "eval_qnli-contrastive_loss": 0.0541638545691967,
-      "eval_qnli-contrastive_runtime": 15.4865,
-      "eval_qnli-contrastive_samples_per_second": 352.758,
-      "eval_qnli-contrastive_steps_per_second": 22.084,
-      "step": 8007
-    },
-    {
-      "epoch": 1.8,
-      "grad_norm": 17.071992874145508,
-      "learning_rate": 1.0952517314705368e-06,
-      "loss": 0.6639,
-      "step": 8478
-    },
-    {
-      "epoch": 1.8,
-      "eval_nli-pairs_loss": 0.29488247632980347,
-      "eval_nli-pairs_runtime": 14.521,
-      "eval_nli-pairs_samples_per_second": 468.837,
-      "eval_nli-pairs_steps_per_second": 29.337,
-      "step": 8478
-    },
-    {
-      "epoch": 1.8,
-      "eval_scitail-pairs-pos_loss": 0.26940035820007324,
-      "eval_scitail-pairs-pos_runtime": 3.3511,
-      "eval_scitail-pairs-pos_samples_per_second": 389.126,
-      "eval_scitail-pairs-pos_steps_per_second": 24.47,
-      "step": 8478
-    },
-    {
-      "epoch": 1.8,
-      "eval_qnli-contrastive_loss": 0.05149933323264122,
-      "eval_qnli-contrastive_runtime": 15.4893,
-      "eval_qnli-contrastive_samples_per_second": 352.694,
-      "eval_qnli-contrastive_steps_per_second": 22.08,
-      "step": 8478
-    },
-    {
-      "epoch": 1.9,
-      "grad_norm": 4.333444118499756,
-      "learning_rate": 2.817598576525049e-07,
-      "loss": 0.6153,
-      "step": 8949
-    },
-    {
-      "epoch": 1.9,
-      "eval_nli-pairs_loss": 0.29380860924720764,
-      "eval_nli-pairs_runtime": 14.6947,
-      "eval_nli-pairs_samples_per_second": 463.296,
-      "eval_nli-pairs_steps_per_second": 28.99,
-      "step": 8949
-    },
-    {
-      "epoch": 1.9,
-      "eval_scitail-pairs-pos_loss": 0.27175840735435486,
-      "eval_scitail-pairs-pos_runtime": 3.3734,
-      "eval_scitail-pairs-pos_samples_per_second": 386.557,
-      "eval_scitail-pairs-pos_steps_per_second": 24.308,
-      "step": 8949
-    },
-    {
-      "epoch": 1.9,
-      "eval_qnli-contrastive_loss": 0.05886112153530121,
-      "eval_qnli-contrastive_runtime": 15.7063,
-      "eval_qnli-contrastive_samples_per_second": 347.823,
-      "eval_qnli-contrastive_steps_per_second": 21.775,
-      "step": 8949
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 17.020780563354492,
-      "learning_rate": 7.929627552805131e-11,
-      "loss": 0.6665,
-      "step": 9420
-    },
-    {
-      "epoch": 2.0,
-      "eval_nli-pairs_loss": 0.2937406301498413,
-      "eval_nli-pairs_runtime": 14.6591,
-      "eval_nli-pairs_samples_per_second": 464.421,
-      "eval_nli-pairs_steps_per_second": 29.06,
-      "step": 9420
-    },
-    {
-      "epoch": 2.0,
-      "eval_scitail-pairs-pos_loss": 0.27235355973243713,
-      "eval_scitail-pairs-pos_runtime": 3.3473,
-      "eval_scitail-pairs-pos_samples_per_second": 389.563,
-      "eval_scitail-pairs-pos_steps_per_second": 24.497,
-      "step": 9420
-    },
-    {
-      "epoch": 2.0,
-      "eval_qnli-contrastive_loss": 0.05692654103040695,
-      "eval_qnli-contrastive_runtime": 15.5164,
-      "eval_qnli-contrastive_samples_per_second": 352.078,
-      "eval_qnli-contrastive_steps_per_second": 22.041,
-      "step": 9420
     }
   ],
-  "logging_steps": 471,
-  "max_steps": 9420,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
-  "save_steps": 4710,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -641,13 +331,13 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 28,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 1757,
+  "global_step": 17570,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1,
+      "grad_norm": 23.659637451171875,
+      "learning_rate": 9.97723392145703e-07,
+      "loss": 3.8346,
+      "step": 1757
     },
     {
       "epoch": 0.1,
+      "eval_nli-pairs_loss": 2.8535287380218506,
+      "eval_nli-pairs_runtime": 23.1384,
+      "eval_nli-pairs_samples_per_second": 294.229,
+      "eval_nli-pairs_steps_per_second": 18.411,
+      "step": 1757
     },
     {
       "epoch": 0.1,
+      "eval_scitail-pairs-pos_loss": 2.323117256164551,
+      "eval_scitail-pairs-pos_runtime": 5.1803,
+      "eval_scitail-pairs-pos_samples_per_second": 251.722,
+      "eval_scitail-pairs-pos_steps_per_second": 15.829,
+      "step": 1757
     },
     {
       "epoch": 0.1,
+      "eval_qnli-contrastive_loss": 3.09728741645813,
+      "eval_qnli-contrastive_runtime": 15.5151,
+      "eval_qnli-contrastive_samples_per_second": 352.109,
+      "eval_qnli-contrastive_steps_per_second": 22.043,
+      "step": 1757
     },
     {
       "epoch": 0.2,
+      "grad_norm": 13.776155471801758,
+      "learning_rate": 1.9965850882185546e-06,
+      "loss": 1.8532,
+      "step": 3514
     },
     {
       "epoch": 0.2,
+      "eval_nli-pairs_loss": 1.3508331775665283,
+      "eval_nli-pairs_runtime": 22.8642,
+      "eval_nli-pairs_samples_per_second": 297.758,
+      "eval_nli-pairs_steps_per_second": 18.632,
+      "step": 3514
     },
     {
       "epoch": 0.2,
+      "eval_scitail-pairs-pos_loss": 0.9754649996757507,
+      "eval_scitail-pairs-pos_runtime": 5.1924,
+      "eval_scitail-pairs-pos_samples_per_second": 251.136,
+      "eval_scitail-pairs-pos_steps_per_second": 15.792,
+      "step": 3514
     },
     {
       "epoch": 0.2,
+      "eval_qnli-contrastive_loss": 2.0602548122406006,
+      "eval_qnli-contrastive_runtime": 15.6036,
+      "eval_qnli-contrastive_samples_per_second": 350.111,
+      "eval_qnli-contrastive_steps_per_second": 21.918,
+      "step": 3514
     },
     {
       "epoch": 0.3,
+      "grad_norm": 0.6704504489898682,
+      "learning_rate": 2.99601593625498e-06,
+      "loss": 1.2185,
+      "step": 5271
     },
     {
       "epoch": 0.3,
+      "eval_nli-pairs_loss": 0.9380640983581543,
+      "eval_nli-pairs_runtime": 23.1102,
+      "eval_nli-pairs_samples_per_second": 294.589,
+      "eval_nli-pairs_steps_per_second": 18.433,
+      "step": 5271
     },
     {
       "epoch": 0.3,
+      "eval_scitail-pairs-pos_loss": 0.7407301664352417,
+      "eval_scitail-pairs-pos_runtime": 5.2512,
+      "eval_scitail-pairs-pos_samples_per_second": 248.322,
+      "eval_scitail-pairs-pos_steps_per_second": 15.615,
+      "step": 5271
     },
     {
       "epoch": 0.3,
+      "eval_qnli-contrastive_loss": 1.2534083127975464,
+      "eval_qnli-contrastive_runtime": 15.6475,
+      "eval_qnli-contrastive_samples_per_second": 349.129,
+      "eval_qnli-contrastive_steps_per_second": 21.857,
+      "step": 5271
     },
     {
       "epoch": 0.4,
+      "grad_norm": 26.072860717773438,
+      "learning_rate": 3.99601593625498e-06,
+      "loss": 0.9584,
+      "step": 7028
     },
     {
       "epoch": 0.4,
+      "eval_nli-pairs_loss": 0.749484658241272,
+      "eval_nli-pairs_runtime": 23.0514,
+      "eval_nli-pairs_samples_per_second": 295.34,
+      "eval_nli-pairs_steps_per_second": 18.48,
+      "step": 7028
     },
     {
       "epoch": 0.4,
+      "eval_scitail-pairs-pos_loss": 0.661561131477356,
+      "eval_scitail-pairs-pos_runtime": 5.2207,
+      "eval_scitail-pairs-pos_samples_per_second": 249.774,
+      "eval_scitail-pairs-pos_steps_per_second": 15.707,
+      "step": 7028
     },
     {
       "epoch": 0.4,
+      "eval_qnli-contrastive_loss": 0.5139556527137756,
+      "eval_qnli-contrastive_runtime": 15.681,
+      "eval_qnli-contrastive_samples_per_second": 348.384,
+      "eval_qnli-contrastive_steps_per_second": 21.81,
+      "step": 7028
     },
     {
       "epoch": 0.5,
+      "grad_norm": 24.09697914123535,
+      "learning_rate": 4.995446784291406e-06,
+      "loss": 0.8157,
+      "step": 8785
     },
     {
       "epoch": 0.5,
+      "eval_nli-pairs_loss": 0.6549726724624634,
+      "eval_nli-pairs_runtime": 23.2274,
+      "eval_nli-pairs_samples_per_second": 293.102,
+      "eval_nli-pairs_steps_per_second": 18.34,
+      "step": 8785
     },
     {
       "epoch": 0.5,
+      "eval_scitail-pairs-pos_loss": 0.6056841611862183,
+      "eval_scitail-pairs-pos_runtime": 5.2473,
+      "eval_scitail-pairs-pos_samples_per_second": 248.508,
+      "eval_scitail-pairs-pos_steps_per_second": 15.627,
+      "step": 8785
     },
     {
       "epoch": 0.5,
+      "eval_qnli-contrastive_loss": 0.3295331299304962,
+      "eval_qnli-contrastive_runtime": 15.7204,
+      "eval_qnli-contrastive_samples_per_second": 347.511,
+      "eval_qnli-contrastive_steps_per_second": 21.755,
+      "step": 8785
     },
     {
       "epoch": 0.6,
+      "grad_norm": 9.664803504943848,
+      "learning_rate": 5.994877632327832e-06,
+      "loss": 0.6698,
+      "step": 10542
     },
     {
       "epoch": 0.6,
+      "eval_nli-pairs_loss": 0.5809468626976013,
+      "eval_nli-pairs_runtime": 22.9525,
+      "eval_nli-pairs_samples_per_second": 296.612,
+      "eval_nli-pairs_steps_per_second": 18.56,
+      "step": 10542
     },
     {
       "epoch": 0.6,
+      "eval_scitail-pairs-pos_loss": 0.5820835828781128,
+      "eval_scitail-pairs-pos_runtime": 5.1829,
+      "eval_scitail-pairs-pos_samples_per_second": 251.599,
+      "eval_scitail-pairs-pos_steps_per_second": 15.821,
+      "step": 10542
     },
     {
       "epoch": 0.6,
+      "eval_qnli-contrastive_loss": 0.24226614832878113,
+      "eval_qnli-contrastive_runtime": 15.6321,
+      "eval_qnli-contrastive_samples_per_second": 349.473,
+      "eval_qnli-contrastive_steps_per_second": 21.878,
+      "step": 10542
     },
     {
       "epoch": 0.7,
+      "grad_norm": 66.77753448486328,
+      "learning_rate": 6.994877632327832e-06,
+      "loss": 0.6497,
+      "step": 12299
     },
     {
       "epoch": 0.7,
+      "eval_nli-pairs_loss": 0.5178281664848328,
+      "eval_nli-pairs_runtime": 23.0673,
+      "eval_nli-pairs_samples_per_second": 295.136,
+      "eval_nli-pairs_steps_per_second": 18.468,
+      "step": 12299
     },
     {
       "epoch": 0.7,
+      "eval_scitail-pairs-pos_loss": 0.504002571105957,
+      "eval_scitail-pairs-pos_runtime": 5.1845,
+      "eval_scitail-pairs-pos_samples_per_second": 251.52,
+      "eval_scitail-pairs-pos_steps_per_second": 15.816,
+      "step": 12299
     },
     {
       "epoch": 0.7,
+      "eval_qnli-contrastive_loss": 0.24089547991752625,
+      "eval_qnli-contrastive_runtime": 15.5228,
+      "eval_qnli-contrastive_samples_per_second": 351.933,
+      "eval_qnli-contrastive_steps_per_second": 22.032,
+      "step": 12299
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.6044542193412781,
+      "learning_rate": 7.994308480364257e-06,
+      "loss": 0.5737,
+      "step": 14056
     },
     {
       "epoch": 0.8,
+      "eval_nli-pairs_loss": 0.5019380450248718,
+      "eval_nli-pairs_runtime": 23.0659,
+      "eval_nli-pairs_samples_per_second": 295.154,
+      "eval_nli-pairs_steps_per_second": 18.469,
+      "step": 14056
     },
     {
       "epoch": 0.8,
+      "eval_scitail-pairs-pos_loss": 0.49418017268180847,
+      "eval_scitail-pairs-pos_runtime": 5.2457,
+      "eval_scitail-pairs-pos_samples_per_second": 248.585,
+      "eval_scitail-pairs-pos_steps_per_second": 15.632,
+      "step": 14056
     },
     {
       "epoch": 0.8,
+      "eval_qnli-contrastive_loss": 0.14995019137859344,
+      "eval_qnli-contrastive_runtime": 15.7177,
+      "eval_qnli-contrastive_samples_per_second": 347.57,
+      "eval_qnli-contrastive_steps_per_second": 21.759,
+      "step": 14056
     },
     {
       "epoch": 0.9,
+      "grad_norm": 0.4454790949821472,
+      "learning_rate": 8.993739328400684e-06,
+      "loss": 0.5896,
+      "step": 15813
     },
     {
       "epoch": 0.9,
+      "eval_nli-pairs_loss": 0.4803747236728668,
+      "eval_nli-pairs_runtime": 23.0746,
+      "eval_nli-pairs_samples_per_second": 295.043,
+      "eval_nli-pairs_steps_per_second": 18.462,
+      "step": 15813
     },
     {
       "epoch": 0.9,
+      "eval_scitail-pairs-pos_loss": 0.47568026185035706,
+      "eval_scitail-pairs-pos_runtime": 5.2076,
+      "eval_scitail-pairs-pos_samples_per_second": 250.402,
+      "eval_scitail-pairs-pos_steps_per_second": 15.746,
+      "step": 15813
     },
     {
       "epoch": 0.9,
+      "eval_qnli-contrastive_loss": 0.14648529887199402,
+      "eval_qnli-contrastive_runtime": 15.5997,
+      "eval_qnli-contrastive_samples_per_second": 350.199,
+      "eval_qnli-contrastive_steps_per_second": 21.924,
+      "step": 15813
     },
     {
       "epoch": 1.0,
+      "grad_norm": 196.14842224121094,
+      "learning_rate": 9.993739328400683e-06,
+      "loss": 0.5174,
+      "step": 17570
     },
     {
       "epoch": 1.0,
+      "eval_nli-pairs_loss": 0.4586646258831024,
+      "eval_nli-pairs_runtime": 22.8967,
+      "eval_nli-pairs_samples_per_second": 297.336,
+      "eval_nli-pairs_steps_per_second": 18.605,
+      "step": 17570
     },
     {
       "epoch": 1.0,
+      "eval_scitail-pairs-pos_loss": 0.5253121256828308,
+      "eval_scitail-pairs-pos_runtime": 5.1603,
+      "eval_scitail-pairs-pos_samples_per_second": 252.699,
+      "eval_scitail-pairs-pos_steps_per_second": 15.891,
+      "step": 17570
     },
     {
       "epoch": 1.0,
+      "eval_qnli-contrastive_loss": 0.0533733032643795,
+      "eval_qnli-contrastive_runtime": 15.5083,
+      "eval_qnli-contrastive_samples_per_second": 352.263,
+      "eval_qnli-contrastive_steps_per_second": 22.053,
+      "step": 17570
     }
   ],
+  "logging_steps": 1757,
+  "max_steps": 35140,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
+  "save_steps": 17570,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 30,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:560933d9c6eb8f6d338a68068ece75f7a5e1161e1e11dd62ae04fb4abb096493
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:c38dee2f127b66af8ba487f944d12fc981b321ee21bbaee37696724257596800
 size 5624