Training in progress, step 33800, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/README.md +4 -147
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +30 -2
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -1187,156 +1187,13 @@ You can finetune this model on your own dataset.
 </details>
 ### Training Logs
-<details><summary>Click to expand</summary>
 | Epoch  | Step  | Training Loss |
 |:------:|:-----:|:-------------:|
-| 0.4674 | 26450 | 0.3511        |
-| 0.4683 | 26500 | 0.3204        |
-| 0.4692 | 26550 | 0.2698        |
-| 0.4700 | 26600 | 0.3019        |
-| 0.4709 | 26650 | 0.276         |
-| 0.4718 | 26700 | 0.2572        |
-| 0.4727 | 26750 | 0.2821        |
-| 0.4736 | 26800 | 0.2753        |
-| 0.4745 | 26850 | 0.2789        |
-| 0.4753 | 26900 | 0.5175        |
-| 0.4762 | 26950 | 0.3398        |
-| 0.4771 | 27000 | 0.3683        |
-| 0.4780 | 27050 | 0.341         |
-| 0.4789 | 27100 | 0.2753        |
-| 0.4798 | 27150 | 0.35          |
-| 0.4806 | 27200 | 0.3143        |
-| 0.4815 | 27250 | 0.3968        |
-| 0.4824 | 27300 | 0.3246        |
-| 0.4833 | 27350 | 0.3131        |
-| 0.4842 | 27400 | 0.3078        |
-| 0.4851 | 27450 | 0.419         |
-| 0.4859 | 27500 | 0.3959        |
-| 0.4868 | 27550 | 0.3754        |
-| 0.4877 | 27600 | 0.3163        |
-| 0.4886 | 27650 | 0.35          |
-| 0.4895 | 27700 | 0.3397        |
-| 0.4904 | 27750 | 0.3853        |
-| 0.4912 | 27800 | 0.2568        |
-| 0.4921 | 27850 | 0.3108        |
-| 0.4930 | 27900 | 0.4098        |
-| 0.4939 | 27950 | 0.3364        |
-| 0.4948 | 28000 | 0.3354        |
-| 0.4957 | 28050 | 0.2879        |
-| 0.4965 | 28100 | 0.3604        |
-| 0.4974 | 28150 | 0.2612        |
-| 0.4983 | 28200 | 0.3593        |
-| 0.4992 | 28250 | 0.2961        |
-| 0.5001 | 28300 | 0.3338        |
-| 0.5010 | 28350 | 0.3109        |
-| 0.5018 | 28400 | 0.3234        |
-| 0.5027 | 28450 | 0.3257        |
-| 0.5036 | 28500 | 0.4675        |
-| 0.5045 | 28550 | 0.4318        |
-| 0.5054 | 28600 | 0.3594        |
-| 0.5063 | 28650 | 0.3214        |
-| 0.5071 | 28700 | 0.2856        |
-| 0.5080 | 28750 | 0.3094        |
-| 0.5089 | 28800 | 0.3933        |
-| 0.5098 | 28850 | 0.3432        |
-| 0.5107 | 28900 | 0.3766        |
-| 0.5116 | 28950 | 0.3308        |
-| 0.5124 | 29000 | 0.3453        |
-| 0.5133 | 29050 | 0.2904        |
-| 0.5142 | 29100 | 0.2647        |
-| 0.5151 | 29150 | 0.4395        |
-| 0.5160 | 29200 | 0.295         |
-| 0.5169 | 29250 | 0.3927        |
-| 0.5178 | 29300 | 0.3492        |
-| 0.5186 | 29350 | 0.3304        |
-| 0.5195 | 29400 | 0.3557        |
-| 0.5204 | 29450 | 0.3389        |
-| 0.5213 | 29500 | 0.3322        |
-| 0.5222 | 29550 | 0.3053        |
-| 0.5231 | 29600 | 0.2486        |
-| 0.5239 | 29650 | 0.282         |
-| 0.5248 | 29700 | 0.3791        |
-| 0.5257 | 29750 | 0.3346        |
-| 0.5266 | 29800 | 0.2743        |
-| 0.5275 | 29850 | 0.2927        |
-| 0.5284 | 29900 | 0.3775        |
-| 0.5292 | 29950 | 0.3114        |
-| 0.5301 | 30000 | 0.2383        |
-| 0.5310 | 30050 | 0.3798        |
-| 0.5319 | 30100 | 0.3204        |
-| 0.5328 | 30150 | 0.2496        |
-| 0.5337 | 30200 | 0.4147        |
-| 0.5345 | 30250 | 0.3021        |
-| 0.5354 | 30300 | 0.2758        |
-| 0.5363 | 30350 | 0.3166        |
-| 0.5372 | 30400 | 0.35          |
-| 0.5381 | 30450 | 0.3391        |
-| 0.5390 | 30500 | 0.3576        |
-| 0.5398 | 30550 | 0.295         |
-| 0.5407 | 30600 | 0.3449        |
-| 0.5416 | 30650 | 0.3274        |
-| 0.5425 | 30700 | 0.3094        |
-| 0.5434 | 30750 | 0.3077        |
-| 0.5443 | 30800 | 0.3505        |
-| 0.5451 | 30850 | 0.3485        |
-| 0.5460 | 30900 | 0.331         |
-| 0.5469 | 30950 | 0.2846        |
-| 0.5478 | 31000 | 0.3647        |
-| 0.5487 | 31050 | 0.3475        |
-| 0.5496 | 31100 | 0.2833        |
-| 0.5504 | 31150 | 0.3           |
-| 0.5513 | 31200 | 0.3568        |
-| 0.5522 | 31250 | 0.3268        |
-| 0.5531 | 31300 | 0.4005        |
-| 0.5540 | 31350 | 0.2993        |
-| 0.5549 | 31400 | 0.3463        |
-| 0.5557 | 31450 | 0.3654        |
-| 0.5566 | 31500 | 0.3329        |
-| 0.5575 | 31550 | 0.2794        |
-| 0.5584 | 31600 | 0.4189        |
-| 0.5593 | 31650 | 0.3643        |
-| 0.5602 | 31700 | 0.3578        |
-| 0.5610 | 31750 | 0.3193        |
-| 0.5619 | 31800 | 0.327         |
-| 0.5628 | 31850 | 0.3429        |
-| 0.5637 | 31900 | 0.2994        |
-| 0.5646 | 31950 | 0.3219        |
-| 0.5655 | 32000 | 0.2902        |
-| 0.5663 | 32050 | 0.3896        |
-| 0.5672 | 32100 | 0.2491        |
-| 0.5681 | 32150 | 0.2663        |
-| 0.5690 | 32200 | 0.3433        |
-| 0.5699 | 32250 | 0.3375        |
-| 0.5708 | 32300 | 0.2891        |
-| 0.5716 | 32350 | 0.296         |
-| 0.5725 | 32400 | 0.2478        |
-| 0.5734 | 32450 | 0.3514        |
-| 0.5743 | 32500 | 0.2741        |
-| 0.5752 | 32550 | 0.3546        |
-| 0.5761 | 32600 | 0.3927        |
-| 0.5769 | 32650 | 0.2725        |
-| 0.5778 | 32700 | 0.3167        |
-| 0.5787 | 32750 | 0.3249        |
-| 0.5796 | 32800 | 0.2443        |
-| 0.5805 | 32850 | 0.4113        |
-| 0.5814 | 32900 | 0.3106        |
-| 0.5822 | 32950 | 0.2841        |
-| 0.5831 | 33000 | 0.2786        |
-| 0.5840 | 33050 | 0.3576        |
-| 0.5849 | 33100 | 0.2475        |
-| 0.5858 | 33150 | 0.348         |
-| 0.5867 | 33200 | 0.2779        |
-| 0.5875 | 33250 | 0.3166        |
-| 0.5884 | 33300 | 0.3448        |
-| 0.5893 | 33350 | 0.2409        |
-| 0.5902 | 33400 | 0.3313        |
-| 0.5911 | 33450 | 0.2981        |
-| 0.5920 | 33500 | 0.269         |
-| 0.5929 | 33550 | 0.4098        |
-| 0.5937 | 33600 | 0.2924        |
-</details>
 ### Framework Versions
 - Python: 3.11.13

 </details>
 ### Training Logs
 | Epoch  | Step  | Training Loss |
 |:------:|:-----:|:-------------:|
+| 0.5946 | 33650 | 0.2952        |
+| 0.5955 | 33700 | 0.2754        |
+| 0.5964 | 33750 | 0.3434        |
+| 0.5973 | 33800 | 0.2541        |
 ### Framework Versions
 - Python: 3.11.13

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f534df9eabe25064d029fb2d1fd136283ef967f7afc887a51be26077e972e34
 size 90864192

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f44c393193a7debcaa9fe116b2e33229c62b31c7228329c28ad0491e8701e1a
 size 90864192

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b9243475a6ea2e44bb15f370f31b09dd572fa23757f65fe3e9261c3c93a8462
 size 180609210

 version https://git-lfs.github.com/spec/v1
+oid sha256:620d6a0f0e8b3c0b610d1a9d8d426a0e427c22a7ec7ed38356be652403968d4e
 size 180609210

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd6945cb5a30962738a328e18b0f7ded3e18c1657315150f6cef20738ac2b26e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ba676fcdff1c56d78801dd51dede93231c1d56645e7877743bcba848aec097a
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca24b530a082040eb648f26b5b54b5a0f292c3ed7dea28d1bd9dbe2dcf563558
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:b205c3d2c6273622b727175547a26240710159f4256bcd6246156ce73b10ee3f
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55b84df2ef27071e1bcf2b8efc3d6b7785ff7a24f59d685fade7a53af7a2593d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ff383a89d52f883cafae387eb5146463fb8074271a1417f846316599e03e648
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5937339859695004,
   "eval_steps": 500,
-  "global_step": 33600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4712,6 +4712,34 @@
       "learning_rate": 2.258251359682708e-05,
       "loss": 0.2924,
       "step": 33600
     }
   ],
   "logging_steps": 50,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5972681168383666,
   "eval_steps": 500,
+  "global_step": 33800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.258251359682708e-05,
       "loss": 0.2924,
       "step": 33600
+    },
+    {
+      "epoch": 0.594617518686717,
+      "grad_norm": 2.0076584815979004,
+      "learning_rate": 2.2533427578488545e-05,
+      "loss": 0.2952,
+      "step": 33650
+    },
+    {
+      "epoch": 0.5955010514039335,
+      "grad_norm": 1.203574299812317,
+      "learning_rate": 2.2484341560150006e-05,
+      "loss": 0.2754,
+      "step": 33700
+    },
+    {
+      "epoch": 0.59638458412115,
+      "grad_norm": 2.815420150756836,
+      "learning_rate": 2.243525554181147e-05,
+      "loss": 0.3434,
+      "step": 33750
+    },
+    {
+      "epoch": 0.5972681168383666,
+      "grad_norm": 1.487236499786377,
+      "learning_rate": 2.2386169523472935e-05,
+      "loss": 0.2541,
+      "step": 33800
     }
   ],
   "logging_steps": 50,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fff70b6f1e4863ea80efbdd3030d9dd2b5fc82ab59547db2165691e8a1c93fc
 size 5560

 version https://git-lfs.github.com/spec/v1
+oid sha256:25a21a534e4993b863994e64d84a120efcce8aac5f212cbacbdb8f1e5edfbb2e
 size 5560