bobox
/

DeBERTaV3-small-GeneralSentenceTransformer-v2-checkpoints-tmp

@@ -908,6 +908,16 @@ You can finetune this model on your own dataset.
 | 0.8   | 14056 | 0.5737        | 0.4942                 | 0.5019         | 0.1500                | -                        |
 | 0.9   | 15813 | 0.5896        | 0.4757                 | 0.4804         | 0.1465                | -                        |
 | 1.0   | 17570 | 0.5174        | 0.5253                 | 0.4587         | 0.0534                | -                        |
 ### Framework Versions

 | 0.8   | 14056 | 0.5737        | 0.4942                 | 0.5019         | 0.1500                | -                        |
 | 0.9   | 15813 | 0.5896        | 0.4757                 | 0.4804         | 0.1465                | -                        |
 | 1.0   | 17570 | 0.5174        | 0.5253                 | 0.4587         | 0.0534                | -                        |
+| 1.1   | 19327 | 0.5059        | 0.5493                 | 0.4587         | 0.0278                | -                        |
+| 1.2   | 21084 | 0.4654        | 0.4850                 | 0.4415         | 0.0517                | -                        |
+| 1.3   | 22841 | 0.4224        | 0.4292                 | 0.3957         | 0.0938                | -                        |
+| 1.4   | 24598 | 0.4125        | 0.4624                 | 0.3794         | 0.0839                | -                        |
+| 1.5   | 26355 | 0.4072        | 0.4481                 | 0.3878         | 0.0681                | -                        |
+| 1.6   | 28112 | 0.3572        | 0.4953                 | 0.3716         | 0.0674                | -                        |
+| 1.7   | 29869 | 0.371         | 0.4767                 | 0.3622         | 0.0600                | -                        |
+| 1.8   | 31626 | 0.3332        | 0.4659                 | 0.3600         | 0.0561                | -                        |
+| 1.9   | 33383 | 0.3695        | 0.4604                 | 0.3567         | 0.0614                | -                        |
+| 2.0   | 35140 | 0.3315        | 0.4712                 | 0.3597         | 0.0540                | -                        |
 ### Framework Versions

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6e30cd1973ffd581d9841a4142304c15933bd2e35a8c8da4f5748dff2786807
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:caaeeb3bee414e6382503e0e4566778971da5035d9883fa6c4013148b09c280c
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f56c48926de377ce9d4614f603c07171ebd1e50e5dd83e538cfc95f815b9f5c
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d7823fbc9158972fe4a2cec91802737230154657abd47b1f0f2065b9a223127
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a35737710db5d432ce9a1d2a028fb95e0f070338de7e2dd89045bd562c011764
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:d04c63c792c38c2033263ef312d4b227d8d109c687d4efdc325699d09450706d
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6909db50d7352964f2947bab64e77e4b2204326b328911ba1924aee34ca6ed39
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:292a922960da915a02f1436dd2a4aea0ac1e9584691974a2c6e06cc13c6d0a3b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 1757,
-  "global_step": 17570,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -317,6 +317,316 @@
       "eval_qnli-contrastive_samples_per_second": 352.263,
       "eval_qnli-contrastive_steps_per_second": 22.053,
       "step": 17570
     }
   ],
   "logging_steps": 1757,
@@ -331,7 +641,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 1757,
+  "global_step": 35140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_qnli-contrastive_samples_per_second": 352.263,
       "eval_qnli-contrastive_steps_per_second": 22.053,
       "step": 17570
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 18.839372634887695,
+      "learning_rate": 9.75831232890717e-06,
+      "loss": 0.5059,
+      "step": 19327
+    },
+    {
+      "epoch": 1.1,
+      "eval_nli-pairs_loss": 0.45871272683143616,
+      "eval_nli-pairs_runtime": 22.8984,
+      "eval_nli-pairs_samples_per_second": 297.313,
+      "eval_nli-pairs_steps_per_second": 18.604,
+      "step": 19327
+    },
+    {
+      "epoch": 1.1,
+      "eval_scitail-pairs-pos_loss": 0.5492986440658569,
+      "eval_scitail-pairs-pos_runtime": 5.1782,
+      "eval_scitail-pairs-pos_samples_per_second": 251.824,
+      "eval_scitail-pairs-pos_steps_per_second": 15.836,
+      "step": 19327
+    },
+    {
+      "epoch": 1.1,
+      "eval_qnli-contrastive_loss": 0.027841920033097267,
+      "eval_qnli-contrastive_runtime": 15.522,
+      "eval_qnli-contrastive_samples_per_second": 351.952,
+      "eval_qnli-contrastive_steps_per_second": 22.033,
+      "step": 19327
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 6.800241947174072,
+      "learning_rate": 9.051905444616243e-06,
+      "loss": 0.4654,
+      "step": 21084
+    },
+    {
+      "epoch": 1.2,
+      "eval_nli-pairs_loss": 0.44151321053504944,
+      "eval_nli-pairs_runtime": 23.1311,
+      "eval_nli-pairs_samples_per_second": 294.323,
+      "eval_nli-pairs_steps_per_second": 18.417,
+      "step": 21084
+    },
+    {
+      "epoch": 1.2,
+      "eval_scitail-pairs-pos_loss": 0.4850437045097351,
+      "eval_scitail-pairs-pos_runtime": 5.2939,
+      "eval_scitail-pairs-pos_samples_per_second": 246.321,
+      "eval_scitail-pairs-pos_steps_per_second": 15.49,
+      "step": 21084
+    },
+    {
+      "epoch": 1.2,
+      "eval_qnli-contrastive_loss": 0.05170624330639839,
+      "eval_qnli-contrastive_runtime": 15.7737,
+      "eval_qnli-contrastive_samples_per_second": 346.336,
+      "eval_qnli-contrastive_steps_per_second": 21.682,
+      "step": 21084
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 0.41899746656417847,
+      "learning_rate": 7.948320938272786e-06,
+      "loss": 0.4224,
+      "step": 22841
+    },
+    {
+      "epoch": 1.3,
+      "eval_nli-pairs_loss": 0.39569494128227234,
+      "eval_nli-pairs_runtime": 23.2638,
+      "eval_nli-pairs_samples_per_second": 292.643,
+      "eval_nli-pairs_steps_per_second": 18.312,
+      "step": 22841
+    },
+    {
+      "epoch": 1.3,
+      "eval_scitail-pairs-pos_loss": 0.42922988533973694,
+      "eval_scitail-pairs-pos_runtime": 5.2769,
+      "eval_scitail-pairs-pos_samples_per_second": 247.114,
+      "eval_scitail-pairs-pos_steps_per_second": 15.539,
+      "step": 22841
+    },
+    {
+      "epoch": 1.3,
+      "eval_qnli-contrastive_loss": 0.0938122496008873,
+      "eval_qnli-contrastive_runtime": 15.6681,
+      "eval_qnli-contrastive_samples_per_second": 348.67,
+      "eval_qnli-contrastive_steps_per_second": 21.828,
+      "step": 22841
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 3.0029168128967285,
+      "learning_rate": 6.556983832253587e-06,
+      "loss": 0.4125,
+      "step": 24598
+    },
+    {
+      "epoch": 1.4,
+      "eval_nli-pairs_loss": 0.3794442415237427,
+      "eval_nli-pairs_runtime": 23.2107,
+      "eval_nli-pairs_samples_per_second": 293.313,
+      "eval_nli-pairs_steps_per_second": 18.354,
+      "step": 24598
+    },
+    {
+      "epoch": 1.4,
+      "eval_scitail-pairs-pos_loss": 0.4623956084251404,
+      "eval_scitail-pairs-pos_runtime": 5.2884,
+      "eval_scitail-pairs-pos_samples_per_second": 246.577,
+      "eval_scitail-pairs-pos_steps_per_second": 15.506,
+      "step": 24598
+    },
+    {
+      "epoch": 1.4,
+      "eval_qnli-contrastive_loss": 0.0838843286037445,
+      "eval_qnli-contrastive_runtime": 15.7017,
+      "eval_qnli-contrastive_samples_per_second": 347.924,
+      "eval_qnli-contrastive_steps_per_second": 21.781,
+      "step": 24598
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 10.91913890838623,
+      "learning_rate": 5.012516292320938e-06,
+      "loss": 0.4072,
+      "step": 26355
+    },
+    {
+      "epoch": 1.5,
+      "eval_nli-pairs_loss": 0.3877629041671753,
+      "eval_nli-pairs_runtime": 23.1072,
+      "eval_nli-pairs_samples_per_second": 294.627,
+      "eval_nli-pairs_steps_per_second": 18.436,
+      "step": 26355
+    },
+    {
+      "epoch": 1.5,
+      "eval_scitail-pairs-pos_loss": 0.4480924606323242,
+      "eval_scitail-pairs-pos_runtime": 5.2741,
+      "eval_scitail-pairs-pos_samples_per_second": 247.244,
+      "eval_scitail-pairs-pos_steps_per_second": 15.548,
+      "step": 26355
+    },
+    {
+      "epoch": 1.5,
+      "eval_qnli-contrastive_loss": 0.06811495870351791,
+      "eval_qnli-contrastive_runtime": 15.7641,
+      "eval_qnli-contrastive_samples_per_second": 346.546,
+      "eval_qnli-contrastive_steps_per_second": 21.695,
+      "step": 26355
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 3.676146984100342,
+      "learning_rate": 3.4668235704897813e-06,
+      "loss": 0.3572,
+      "step": 28112
+    },
+    {
+      "epoch": 1.6,
+      "eval_nli-pairs_loss": 0.3715905547142029,
+      "eval_nli-pairs_runtime": 23.1744,
+      "eval_nli-pairs_samples_per_second": 293.773,
+      "eval_nli-pairs_steps_per_second": 18.382,
+      "step": 28112
+    },
+    {
+      "epoch": 1.6,
+      "eval_scitail-pairs-pos_loss": 0.49534013867378235,
+      "eval_scitail-pairs-pos_runtime": 5.2856,
+      "eval_scitail-pairs-pos_samples_per_second": 246.708,
+      "eval_scitail-pairs-pos_steps_per_second": 15.514,
+      "step": 28112
+    },
+    {
+      "epoch": 1.6,
+      "eval_qnli-contrastive_loss": 0.06735851615667343,
+      "eval_qnli-contrastive_runtime": 15.7308,
+      "eval_qnli-contrastive_samples_per_second": 347.281,
+      "eval_qnli-contrastive_steps_per_second": 21.741,
+      "step": 28112
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 229.6580047607422,
+      "learning_rate": 2.072658211127134e-06,
+      "loss": 0.371,
+      "step": 29869
+    },
+    {
+      "epoch": 1.7,
+      "eval_nli-pairs_loss": 0.36217835545539856,
+      "eval_nli-pairs_runtime": 23.1495,
+      "eval_nli-pairs_samples_per_second": 294.089,
+      "eval_nli-pairs_steps_per_second": 18.402,
+      "step": 29869
+    },
+    {
+      "epoch": 1.7,
+      "eval_scitail-pairs-pos_loss": 0.47673526406288147,
+      "eval_scitail-pairs-pos_runtime": 5.2158,
+      "eval_scitail-pairs-pos_samples_per_second": 250.008,
+      "eval_scitail-pairs-pos_steps_per_second": 15.721,
+      "step": 29869
+    },
+    {
+      "epoch": 1.7,
+      "eval_qnli-contrastive_loss": 0.06000087782740593,
+      "eval_qnli-contrastive_runtime": 15.6328,
+      "eval_qnli-contrastive_samples_per_second": 349.458,
+      "eval_qnli-contrastive_steps_per_second": 21.877,
+      "step": 29869
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 0.6022229194641113,
+      "learning_rate": 9.638670801112644e-07,
+      "loss": 0.3332,
+      "step": 31626
+    },
+    {
+      "epoch": 1.8,
+      "eval_nli-pairs_loss": 0.3600439131259918,
+      "eval_nli-pairs_runtime": 23.0874,
+      "eval_nli-pairs_samples_per_second": 294.879,
+      "eval_nli-pairs_steps_per_second": 18.452,
+      "step": 31626
+    },
+    {
+      "epoch": 1.8,
+      "eval_scitail-pairs-pos_loss": 0.465911865234375,
+      "eval_scitail-pairs-pos_runtime": 5.3369,
+      "eval_scitail-pairs-pos_samples_per_second": 244.338,
+      "eval_scitail-pairs-pos_steps_per_second": 15.365,
+      "step": 31626
+    },
+    {
+      "epoch": 1.8,
+      "eval_qnli-contrastive_loss": 0.05613844096660614,
+      "eval_qnli-contrastive_runtime": 15.7089,
+      "eval_qnli-contrastive_samples_per_second": 347.764,
+      "eval_qnli-contrastive_steps_per_second": 21.771,
+      "step": 31626
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 0.23106251657009125,
+      "learning_rate": 2.4943593464921476e-07,
+      "loss": 0.3695,
+      "step": 33383
+    },
+    {
+      "epoch": 1.9,
+      "eval_nli-pairs_loss": 0.35667526721954346,
+      "eval_nli-pairs_runtime": 23.1588,
+      "eval_nli-pairs_samples_per_second": 293.971,
+      "eval_nli-pairs_steps_per_second": 18.395,
+      "step": 33383
+    },
+    {
+      "epoch": 1.9,
+      "eval_scitail-pairs-pos_loss": 0.4603894352912903,
+      "eval_scitail-pairs-pos_runtime": 5.248,
+      "eval_scitail-pairs-pos_samples_per_second": 248.476,
+      "eval_scitail-pairs-pos_steps_per_second": 15.625,
+      "step": 33383
+    },
+    {
+      "epoch": 1.9,
+      "eval_qnli-contrastive_loss": 0.06141861155629158,
+      "eval_qnli-contrastive_runtime": 15.6709,
+      "eval_qnli-contrastive_samples_per_second": 348.608,
+      "eval_qnli-contrastive_steps_per_second": 21.824,
+      "step": 33383
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": Infinity,
+      "learning_rate": 2.5896487759191624e-11,
+      "loss": 0.3315,
+      "step": 35140
+    },
+    {
+      "epoch": 2.0,
+      "eval_nli-pairs_loss": 0.3597075045108795,
+      "eval_nli-pairs_runtime": 23.1058,
+      "eval_nli-pairs_samples_per_second": 294.645,
+      "eval_nli-pairs_steps_per_second": 18.437,
+      "step": 35140
+    },
+    {
+      "epoch": 2.0,
+      "eval_scitail-pairs-pos_loss": 0.47120198607444763,
+      "eval_scitail-pairs-pos_runtime": 5.2532,
+      "eval_scitail-pairs-pos_samples_per_second": 248.23,
+      "eval_scitail-pairs-pos_steps_per_second": 15.61,
+      "step": 35140
+    },
+    {
+      "epoch": 2.0,
+      "eval_qnli-contrastive_loss": 0.05398999899625778,
+      "eval_qnli-contrastive_runtime": 15.7099,
+      "eval_qnli-contrastive_samples_per_second": 347.743,
+      "eval_qnli-contrastive_steps_per_second": 21.77,
+      "step": 35140
     }
   ],
   "logging_steps": 1757,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }