Upload 14 files

Browse files

Files changed (14) hide show

config.json +39 -0
generation_config.json +6 -0
merges.txt +0 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +6 -0
tokenizer.json +0 -0
tokenizer_config.json +20 -0
trainer_state.json +1120 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.44.0",
+  "use_cache": false,
+  "vocab_size": 50257
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.44.0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a30b88d30d67345a258fd9761e520f536e16182004547f94457019bd9de0ca4
+size 248894656

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e61d42fcedb165e8be6b425e58e8cc4e8c39510160a0145189a82fd0495f8edd
+size 497883130

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c2b07929833e1badbdedc6c47756c8d5a215033e2704c3b0d804e9c9251585a
+size 14512

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b00a86c6c2df825422059224154af89d7cb348d29c92e796299ed6e84c4bed20
+size 14512

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7b4ed91ee6407a1736a1a815a9fa65a855725949b1dcc41948ce631dda004cd
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1120 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.39151499991843436,
+  "eval_steps": 1000,
+  "global_step": 72000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 5.437708332200477e-06,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.4814814814814816e-08,
+      "loss": 5.5898,
+      "step": 1
+    },
+    {
+      "epoch": 0.0054377083322004775,
+      "grad_norm": 3.171875,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 5.4295,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0054377083322004775,
+      "eval_loss": 5.008066177368164,
+      "eval_runtime": 15451.3463,
+      "eval_samples_per_second": 285.654,
+      "eval_steps_per_second": 2.976,
+      "step": 1000
+    },
+    {
+      "epoch": 0.010875416664400955,
+      "grad_norm": 1.171875,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 4.7755,
+      "step": 2000
+    },
+    {
+      "epoch": 0.010875416664400955,
+      "eval_loss": 4.375054836273193,
+      "eval_runtime": 15330.551,
+      "eval_samples_per_second": 287.905,
+      "eval_steps_per_second": 2.999,
+      "step": 2000
+    },
+    {
+      "epoch": 0.01631312499660143,
+      "grad_norm": 1.109375,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 4.4478,
+      "step": 3000
+    },
+    {
+      "epoch": 0.01631312499660143,
+      "eval_loss": 4.167980194091797,
+      "eval_runtime": 15320.5031,
+      "eval_samples_per_second": 288.094,
+      "eval_steps_per_second": 3.001,
+      "step": 3000
+    },
+    {
+      "epoch": 0.02175083332880191,
+      "grad_norm": 1.1015625,
+      "learning_rate": 5.925925925925926e-05,
+      "loss": 4.2589,
+      "step": 4000
+    },
+    {
+      "epoch": 0.02175083332880191,
+      "eval_loss": 3.97269344329834,
+      "eval_runtime": 15323.7852,
+      "eval_samples_per_second": 288.032,
+      "eval_steps_per_second": 3.0,
+      "step": 4000
+    },
+    {
+      "epoch": 0.02718854166100239,
+      "grad_norm": 0.9609375,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 4.0776,
+      "step": 5000
+    },
+    {
+      "epoch": 0.02718854166100239,
+      "eval_loss": 3.7941160202026367,
+      "eval_runtime": 15358.3554,
+      "eval_samples_per_second": 287.384,
+      "eval_steps_per_second": 2.994,
+      "step": 5000
+    },
+    {
+      "epoch": 0.03262624999320286,
+      "grad_norm": 0.9140625,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 3.9259,
+      "step": 6000
+    },
+    {
+      "epoch": 0.03262624999320286,
+      "eval_loss": 3.658724308013916,
+      "eval_runtime": 15348.9884,
+      "eval_samples_per_second": 287.559,
+      "eval_steps_per_second": 2.995,
+      "step": 6000
+    },
+    {
+      "epoch": 0.038063958325403345,
+      "grad_norm": 0.9296875,
+      "learning_rate": 0.0001037037037037037,
+      "loss": 3.8025,
+      "step": 7000
+    },
+    {
+      "epoch": 0.038063958325403345,
+      "eval_loss": 3.5507161617279053,
+      "eval_runtime": 15346.7443,
+      "eval_samples_per_second": 287.601,
+      "eval_steps_per_second": 2.996,
+      "step": 7000
+    },
+    {
+      "epoch": 0.04350166665760382,
+      "grad_norm": 0.93359375,
+      "learning_rate": 0.00011851851851851852,
+      "loss": 3.7003,
+      "step": 8000
+    },
+    {
+      "epoch": 0.04350166665760382,
+      "eval_loss": 3.462174892425537,
+      "eval_runtime": 15363.0936,
+      "eval_samples_per_second": 287.295,
+      "eval_steps_per_second": 2.993,
+      "step": 8000
+    },
+    {
+      "epoch": 0.048939374989804295,
+      "grad_norm": 0.97265625,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 3.6129,
+      "step": 9000
+    },
+    {
+      "epoch": 0.048939374989804295,
+      "eval_loss": 3.3831520080566406,
+      "eval_runtime": 15315.7808,
+      "eval_samples_per_second": 288.183,
+      "eval_steps_per_second": 3.002,
+      "step": 9000
+    },
+    {
+      "epoch": 0.05437708332200478,
+      "grad_norm": 0.921875,
+      "learning_rate": 0.00014814814814814815,
+      "loss": 3.5335,
+      "step": 10000
+    },
+    {
+      "epoch": 0.05437708332200478,
+      "eval_loss": 3.315824508666992,
+      "eval_runtime": 15320.6933,
+      "eval_samples_per_second": 288.09,
+      "eval_steps_per_second": 3.001,
+      "step": 10000
+    },
+    {
+      "epoch": 0.05981479165420525,
+      "grad_norm": 0.8828125,
+      "learning_rate": 0.00016296296296296295,
+      "loss": 3.4639,
+      "step": 11000
+    },
+    {
+      "epoch": 0.05981479165420525,
+      "eval_loss": 3.2545006275177,
+      "eval_runtime": 15357.7315,
+      "eval_samples_per_second": 287.396,
+      "eval_steps_per_second": 2.994,
+      "step": 11000
+    },
+    {
+      "epoch": 0.06525249998640573,
+      "grad_norm": 0.9296875,
+      "learning_rate": 0.00017777777777777779,
+      "loss": 3.403,
+      "step": 12000
+    },
+    {
+      "epoch": 0.06525249998640573,
+      "eval_loss": 3.198941230773926,
+      "eval_runtime": 15351.0761,
+      "eval_samples_per_second": 287.52,
+      "eval_steps_per_second": 2.995,
+      "step": 12000
+    },
+    {
+      "epoch": 0.0706902083186062,
+      "grad_norm": 0.953125,
+      "learning_rate": 0.0001925925925925926,
+      "loss": 3.3476,
+      "step": 13000
+    },
+    {
+      "epoch": 0.0706902083186062,
+      "eval_loss": 3.1511921882629395,
+      "eval_runtime": 15356.3177,
+      "eval_samples_per_second": 287.422,
+      "eval_steps_per_second": 2.994,
+      "step": 13000
+    },
+    {
+      "epoch": 0.07612791665080669,
+      "grad_norm": 0.97265625,
+      "learning_rate": 0.00019999164298554375,
+      "loss": 3.2984,
+      "step": 14000
+    },
+    {
+      "epoch": 0.07612791665080669,
+      "eval_loss": 3.1090052127838135,
+      "eval_runtime": 15355.9903,
+      "eval_samples_per_second": 287.428,
+      "eval_steps_per_second": 2.994,
+      "step": 14000
+    },
+    {
+      "epoch": 0.08156562498300717,
+      "grad_norm": 0.90625,
+      "learning_rate": 0.00019992479525042303,
+      "loss": 3.261,
+      "step": 15000
+    },
+    {
+      "epoch": 0.08156562498300717,
+      "eval_loss": 3.0757596492767334,
+      "eval_runtime": 15336.3046,
+      "eval_samples_per_second": 287.797,
+      "eval_steps_per_second": 2.998,
+      "step": 15000
+    },
+    {
+      "epoch": 0.08700333331520764,
+      "grad_norm": 0.90234375,
+      "learning_rate": 0.00019979114447011323,
+      "loss": 3.2317,
+      "step": 16000
+    },
+    {
+      "epoch": 0.08700333331520764,
+      "eval_loss": 3.053584337234497,
+      "eval_runtime": 15330.754,
+      "eval_samples_per_second": 287.901,
+      "eval_steps_per_second": 2.999,
+      "step": 16000
+    },
+    {
+      "epoch": 0.09244104164740811,
+      "grad_norm": 1.015625,
+      "learning_rate": 0.00019959077999460095,
+      "loss": 3.2088,
+      "step": 17000
+    },
+    {
+      "epoch": 0.09244104164740811,
+      "eval_loss": 3.0358426570892334,
+      "eval_runtime": 15337.2484,
+      "eval_samples_per_second": 287.779,
+      "eval_steps_per_second": 2.998,
+      "step": 17000
+    },
+    {
+      "epoch": 0.09787874997960859,
+      "grad_norm": 1.0390625,
+      "learning_rate": 0.00019932383577419432,
+      "loss": 3.1919,
+      "step": 18000
+    },
+    {
+      "epoch": 0.09787874997960859,
+      "eval_loss": 3.020881175994873,
+      "eval_runtime": 15358.1769,
+      "eval_samples_per_second": 287.387,
+      "eval_steps_per_second": 2.994,
+      "step": 18000
+    },
+    {
+      "epoch": 0.10331645831180906,
+      "grad_norm": 0.96875,
+      "learning_rate": 0.00019899049026997272,
+      "loss": 3.1807,
+      "step": 19000
+    },
+    {
+      "epoch": 0.10331645831180906,
+      "eval_loss": 3.0086727142333984,
+      "eval_runtime": 15317.1842,
+      "eval_samples_per_second": 288.156,
+      "eval_steps_per_second": 3.002,
+      "step": 19000
+    },
+    {
+      "epoch": 0.10875416664400955,
+      "grad_norm": 0.9765625,
+      "learning_rate": 0.00019859096633447965,
+      "loss": 3.1692,
+      "step": 20000
+    },
+    {
+      "epoch": 0.10875416664400955,
+      "eval_loss": 2.9984583854675293,
+      "eval_runtime": 15316.5504,
+      "eval_samples_per_second": 288.168,
+      "eval_steps_per_second": 3.002,
+      "step": 20000
+    },
+    {
+      "epoch": 0.11419187497621003,
+      "grad_norm": 0.98828125,
+      "learning_rate": 0.00019812553106273847,
+      "loss": 3.1605,
+      "step": 21000
+    },
+    {
+      "epoch": 0.11419187497621003,
+      "eval_loss": 2.988966226577759,
+      "eval_runtime": 15327.5134,
+      "eval_samples_per_second": 287.962,
+      "eval_steps_per_second": 3.0,
+      "step": 21000
+    },
+    {
+      "epoch": 0.1196295833084105,
+      "grad_norm": 0.9921875,
+      "learning_rate": 0.00019759449561369038,
+      "loss": 3.1518,
+      "step": 22000
+    },
+    {
+      "epoch": 0.1196295833084105,
+      "eval_loss": 2.9820005893707275,
+      "eval_runtime": 15329.581,
+      "eval_samples_per_second": 287.923,
+      "eval_steps_per_second": 2.999,
+      "step": 22000
+    },
+    {
+      "epoch": 0.12506729164061098,
+      "grad_norm": 0.984375,
+      "learning_rate": 0.00019699821500217434,
+      "loss": 3.1434,
+      "step": 23000
+    },
+    {
+      "epoch": 0.12506729164061098,
+      "eval_loss": 2.975614070892334,
+      "eval_runtime": 15361.0129,
+      "eval_samples_per_second": 287.334,
+      "eval_steps_per_second": 2.993,
+      "step": 23000
+    },
+    {
+      "epoch": 0.13050499997281145,
+      "grad_norm": 0.921875,
+      "learning_rate": 0.00019633708786158806,
+      "loss": 3.1373,
+      "step": 24000
+    },
+    {
+      "epoch": 0.13050499997281145,
+      "eval_loss": 2.969208240509033,
+      "eval_runtime": 15340.5185,
+      "eval_samples_per_second": 287.718,
+      "eval_steps_per_second": 2.997,
+      "step": 24000
+    },
+    {
+      "epoch": 0.13594270830501193,
+      "grad_norm": 0.9453125,
+      "learning_rate": 0.00019561155617738797,
+      "loss": 3.1332,
+      "step": 25000
+    },
+    {
+      "epoch": 0.13594270830501193,
+      "eval_loss": 2.9637811183929443,
+      "eval_runtime": 15340.5055,
+      "eval_samples_per_second": 287.718,
+      "eval_steps_per_second": 2.997,
+      "step": 25000
+    },
+    {
+      "epoch": 0.1413804166372124,
+      "grad_norm": 0.94921875,
+      "learning_rate": 0.00019482210499160765,
+      "loss": 3.1267,
+      "step": 26000
+    },
+    {
+      "epoch": 0.1413804166372124,
+      "eval_loss": 2.96110463142395,
+      "eval_runtime": 15350.4187,
+      "eval_samples_per_second": 287.532,
+      "eval_steps_per_second": 2.995,
+      "step": 26000
+    },
+    {
+      "epoch": 0.14681812496941288,
+      "grad_norm": 0.91796875,
+      "learning_rate": 0.00019396926207859084,
+      "loss": 3.1237,
+      "step": 27000
+    },
+    {
+      "epoch": 0.14681812496941288,
+      "eval_loss": 2.9555680751800537,
+      "eval_runtime": 15320.143,
+      "eval_samples_per_second": 288.101,
+      "eval_steps_per_second": 3.001,
+      "step": 27000
+    },
+    {
+      "epoch": 0.15225583330161338,
+      "grad_norm": 0.91015625,
+      "learning_rate": 0.00019305359759215685,
+      "loss": 3.1209,
+      "step": 28000
+    },
+    {
+      "epoch": 0.15225583330161338,
+      "eval_loss": 2.953141689300537,
+      "eval_runtime": 15342.6298,
+      "eval_samples_per_second": 287.678,
+      "eval_steps_per_second": 2.997,
+      "step": 28000
+    },
+    {
+      "epoch": 0.15769354163381386,
+      "grad_norm": 0.87890625,
+      "learning_rate": 0.00019207572368443385,
+      "loss": 3.1158,
+      "step": 29000
+    },
+    {
+      "epoch": 0.15769354163381386,
+      "eval_loss": 2.9493179321289062,
+      "eval_runtime": 15348.9479,
+      "eval_samples_per_second": 287.56,
+      "eval_steps_per_second": 2.995,
+      "step": 29000
+    },
+    {
+      "epoch": 0.16313124996601433,
+      "grad_norm": 1.0390625,
+      "learning_rate": 0.0001910362940966147,
+      "loss": 3.1128,
+      "step": 30000
+    },
+    {
+      "epoch": 0.16313124996601433,
+      "eval_loss": 2.946991443634033,
+      "eval_runtime": 15312.5285,
+      "eval_samples_per_second": 288.244,
+      "eval_steps_per_second": 3.003,
+      "step": 30000
+    },
+    {
+      "epoch": 0.1685689582982148,
+      "grad_norm": 0.96875,
+      "learning_rate": 0.00018993600372190932,
+      "loss": 3.1098,
+      "step": 31000
+    },
+    {
+      "epoch": 0.1685689582982148,
+      "eval_loss": 2.9436445236206055,
+      "eval_runtime": 15349.4672,
+      "eval_samples_per_second": 287.55,
+      "eval_steps_per_second": 2.995,
+      "step": 31000
+    },
+    {
+      "epoch": 0.17400666663041528,
+      "grad_norm": 0.99609375,
+      "learning_rate": 0.00018877558814098561,
+      "loss": 3.1083,
+      "step": 32000
+    },
+    {
+      "epoch": 0.17400666663041528,
+      "eval_loss": 2.9420006275177,
+      "eval_runtime": 15345.3976,
+      "eval_samples_per_second": 287.626,
+      "eval_steps_per_second": 2.996,
+      "step": 32000
+    },
+    {
+      "epoch": 0.17944437496261575,
+      "grad_norm": 0.97265625,
+      "learning_rate": 0.0001875558231302091,
+      "loss": 3.1054,
+      "step": 33000
+    },
+    {
+      "epoch": 0.17944437496261575,
+      "eval_loss": 2.939058780670166,
+      "eval_runtime": 15316.1274,
+      "eval_samples_per_second": 288.176,
+      "eval_steps_per_second": 3.002,
+      "step": 33000
+    },
+    {
+      "epoch": 0.18488208329481623,
+      "grad_norm": 0.921875,
+      "learning_rate": 0.00018627752414301086,
+      "loss": 3.1059,
+      "step": 34000
+    },
+    {
+      "epoch": 0.18488208329481623,
+      "eval_loss": 2.9374189376831055,
+      "eval_runtime": 15343.22,
+      "eval_samples_per_second": 287.667,
+      "eval_steps_per_second": 2.997,
+      "step": 34000
+    },
+    {
+      "epoch": 0.1903197916270167,
+      "grad_norm": 0.94140625,
+      "learning_rate": 0.00018494154576472976,
+      "loss": 3.1028,
+      "step": 35000
+    },
+    {
+      "epoch": 0.1903197916270167,
+      "eval_loss": 2.9355897903442383,
+      "eval_runtime": 15340.0011,
+      "eval_samples_per_second": 287.728,
+      "eval_steps_per_second": 2.997,
+      "step": 35000
+    },
+    {
+      "epoch": 0.19575749995921718,
+      "grad_norm": 0.8984375,
+      "learning_rate": 0.00018354878114129367,
+      "loss": 3.0992,
+      "step": 36000
+    },
+    {
+      "epoch": 0.19575749995921718,
+      "eval_loss": 2.9352223873138428,
+      "eval_runtime": 15353.667,
+      "eval_samples_per_second": 287.472,
+      "eval_steps_per_second": 2.995,
+      "step": 36000
+    },
+    {
+      "epoch": 0.20119520829141765,
+      "grad_norm": 0.9375,
+      "learning_rate": 0.00018210016138212187,
+      "loss": 3.0988,
+      "step": 37000
+    },
+    {
+      "epoch": 0.20119520829141765,
+      "eval_loss": 2.9330756664276123,
+      "eval_runtime": 15356.9704,
+      "eval_samples_per_second": 287.41,
+      "eval_steps_per_second": 2.994,
+      "step": 37000
+    },
+    {
+      "epoch": 0.20663291662361813,
+      "grad_norm": 0.95703125,
+      "learning_rate": 0.00018059665493764743,
+      "loss": 3.0977,
+      "step": 38000
+    },
+    {
+      "epoch": 0.20663291662361813,
+      "eval_loss": 2.9324018955230713,
+      "eval_runtime": 15340.1741,
+      "eval_samples_per_second": 287.724,
+      "eval_steps_per_second": 2.997,
+      "step": 38000
+    },
+    {
+      "epoch": 0.21207062495581863,
+      "grad_norm": 0.9140625,
+      "learning_rate": 0.00017903926695187595,
+      "loss": 3.0981,
+      "step": 39000
+    },
+    {
+      "epoch": 0.21207062495581863,
+      "eval_loss": 2.929825782775879,
+      "eval_runtime": 15335.7197,
+      "eval_samples_per_second": 287.808,
+      "eval_steps_per_second": 2.998,
+      "step": 39000
+    },
+    {
+      "epoch": 0.2175083332880191,
+      "grad_norm": 0.921875,
+      "learning_rate": 0.00017742903859041325,
+      "loss": 3.0946,
+      "step": 40000
+    },
+    {
+      "epoch": 0.2175083332880191,
+      "eval_loss": 2.928624153137207,
+      "eval_runtime": 15333.0433,
+      "eval_samples_per_second": 287.858,
+      "eval_steps_per_second": 2.999,
+      "step": 40000
+    },
+    {
+      "epoch": 0.22294604162021958,
+      "grad_norm": 0.91796875,
+      "learning_rate": 0.0001757670463444118,
+      "loss": 3.0949,
+      "step": 41000
+    },
+    {
+      "epoch": 0.22294604162021958,
+      "eval_loss": 2.92832612991333,
+      "eval_runtime": 15336.6021,
+      "eval_samples_per_second": 287.791,
+      "eval_steps_per_second": 2.998,
+      "step": 41000
+    },
+    {
+      "epoch": 0.22838374995242006,
+      "grad_norm": 0.88671875,
+      "learning_rate": 0.00017405440131090048,
+      "loss": 3.0948,
+      "step": 42000
+    },
+    {
+      "epoch": 0.22838374995242006,
+      "eval_loss": 2.92707896232605,
+      "eval_runtime": 15338.3291,
+      "eval_samples_per_second": 287.759,
+      "eval_steps_per_second": 2.998,
+      "step": 42000
+    },
+    {
+      "epoch": 0.23382145828462053,
+      "grad_norm": 0.91796875,
+      "learning_rate": 0.00017229224844997928,
+      "loss": 3.0915,
+      "step": 43000
+    },
+    {
+      "epoch": 0.23382145828462053,
+      "eval_loss": 2.926419973373413,
+      "eval_runtime": 15325.6418,
+      "eval_samples_per_second": 287.997,
+      "eval_steps_per_second": 3.0,
+      "step": 43000
+    },
+    {
+      "epoch": 0.239259166616821,
+      "grad_norm": 0.92578125,
+      "learning_rate": 0.00017048176581937563,
+      "loss": 3.0938,
+      "step": 44000
+    },
+    {
+      "epoch": 0.239259166616821,
+      "eval_loss": 2.9256813526153564,
+      "eval_runtime": 15326.1114,
+      "eval_samples_per_second": 287.988,
+      "eval_steps_per_second": 3.0,
+      "step": 44000
+    },
+    {
+      "epoch": 0.24469687494902148,
+      "grad_norm": 1.0546875,
+      "learning_rate": 0.0001686241637868734,
+      "loss": 3.0922,
+      "step": 45000
+    },
+    {
+      "epoch": 0.24469687494902148,
+      "eval_loss": 2.9255247116088867,
+      "eval_runtime": 15321.0034,
+      "eval_samples_per_second": 288.084,
+      "eval_steps_per_second": 3.001,
+      "step": 45000
+    },
+    {
+      "epoch": 0.25013458328122196,
+      "grad_norm": 1.03125,
+      "learning_rate": 0.00016672068422114196,
+      "loss": 3.0918,
+      "step": 46000
+    },
+    {
+      "epoch": 0.25013458328122196,
+      "eval_loss": 2.9247536659240723,
+      "eval_runtime": 15325.8812,
+      "eval_samples_per_second": 287.993,
+      "eval_steps_per_second": 3.0,
+      "step": 46000
+    },
+    {
+      "epoch": 0.25557229161342243,
+      "grad_norm": 0.890625,
+      "learning_rate": 0.00016477259966150588,
+      "loss": 3.0908,
+      "step": 47000
+    },
+    {
+      "epoch": 0.25557229161342243,
+      "eval_loss": 2.9234766960144043,
+      "eval_runtime": 15335.6241,
+      "eval_samples_per_second": 287.81,
+      "eval_steps_per_second": 2.998,
+      "step": 47000
+    },
+    {
+      "epoch": 0.2610099999456229,
+      "grad_norm": 0.8828125,
+      "learning_rate": 0.00016278121246720987,
+      "loss": 3.088,
+      "step": 48000
+    },
+    {
+      "epoch": 0.2610099999456229,
+      "eval_loss": 2.9226396083831787,
+      "eval_runtime": 15328.3665,
+      "eval_samples_per_second": 287.946,
+      "eval_steps_per_second": 2.999,
+      "step": 48000
+    },
+    {
+      "epoch": 0.2664477082778234,
+      "grad_norm": 0.9296875,
+      "learning_rate": 0.00016074785394674837,
+      "loss": 3.0901,
+      "step": 49000
+    },
+    {
+      "epoch": 0.2664477082778234,
+      "eval_loss": 2.922677516937256,
+      "eval_runtime": 15342.8424,
+      "eval_samples_per_second": 287.674,
+      "eval_steps_per_second": 2.997,
+      "step": 49000
+    },
+    {
+      "epoch": 0.27188541661002386,
+      "grad_norm": 0.9296875,
+      "learning_rate": 0.0001586738834678418,
+      "loss": 3.0891,
+      "step": 50000
+    },
+    {
+      "epoch": 0.27188541661002386,
+      "eval_loss": 2.9226033687591553,
+      "eval_runtime": 15345.5247,
+      "eval_samples_per_second": 287.624,
+      "eval_steps_per_second": 2.996,
+      "step": 50000
+    },
+    {
+      "epoch": 0.27732312494222433,
+      "grad_norm": 0.83984375,
+      "learning_rate": 0.00015656068754865387,
+      "loss": 3.0909,
+      "step": 51000
+    },
+    {
+      "epoch": 0.27732312494222433,
+      "eval_loss": 2.92250919342041,
+      "eval_runtime": 15321.8908,
+      "eval_samples_per_second": 288.068,
+      "eval_steps_per_second": 3.001,
+      "step": 51000
+    },
+    {
+      "epoch": 0.2827608332744248,
+      "grad_norm": 0.90234375,
+      "learning_rate": 0.00015440967893085828,
+      "loss": 3.0892,
+      "step": 52000
+    },
+    {
+      "epoch": 0.2827608332744248,
+      "eval_loss": 2.9214928150177,
+      "eval_runtime": 15311.2597,
+      "eval_samples_per_second": 288.268,
+      "eval_steps_per_second": 3.003,
+      "step": 52000
+    },
+    {
+      "epoch": 0.2881985416066253,
+      "grad_norm": 0.9296875,
+      "learning_rate": 0.00015222229563517385,
+      "loss": 3.0877,
+      "step": 53000
+    },
+    {
+      "epoch": 0.2881985416066253,
+      "eval_loss": 2.921288013458252,
+      "eval_runtime": 15357.1564,
+      "eval_samples_per_second": 287.406,
+      "eval_steps_per_second": 2.994,
+      "step": 53000
+    },
+    {
+      "epoch": 0.29363624993882576,
+      "grad_norm": 0.97265625,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 3.089,
+      "step": 54000
+    },
+    {
+      "epoch": 0.29363624993882576,
+      "eval_loss": 2.9219233989715576,
+      "eval_runtime": 15336.8542,
+      "eval_samples_per_second": 287.787,
+      "eval_steps_per_second": 2.998,
+      "step": 54000
+    },
+    {
+      "epoch": 0.2990739582710263,
+      "grad_norm": 0.91796875,
+      "learning_rate": 0.0001477442777037949,
+      "loss": 3.0887,
+      "step": 55000
+    },
+    {
+      "epoch": 0.2990739582710263,
+      "eval_loss": 2.9214131832122803,
+      "eval_runtime": 15359.1535,
+      "eval_samples_per_second": 287.369,
+      "eval_steps_per_second": 2.993,
+      "step": 55000
+    },
+    {
+      "epoch": 0.30451166660322676,
+      "grad_norm": 1.0390625,
+      "learning_rate": 0.00014545663677185006,
+      "loss": 3.0885,
+      "step": 56000
+    },
+    {
+      "epoch": 0.30451166660322676,
+      "eval_loss": 2.9214773178100586,
+      "eval_runtime": 15332.8462,
+      "eval_samples_per_second": 287.862,
+      "eval_steps_per_second": 2.999,
+      "step": 56000
+    },
+    {
+      "epoch": 0.30994937493542724,
+      "grad_norm": 0.91015625,
+      "learning_rate": 0.00014313860656812536,
+      "loss": 3.0854,
+      "step": 57000
+    },
+    {
+      "epoch": 0.30994937493542724,
+      "eval_loss": 2.9208450317382812,
+      "eval_runtime": 15325.5015,
+      "eval_samples_per_second": 288.0,
+      "eval_steps_per_second": 3.0,
+      "step": 57000
+    },
+    {
+      "epoch": 0.3153870832676277,
+      "grad_norm": 0.90234375,
+      "learning_rate": 0.00014079173677281837,
+      "loss": 3.0891,
+      "step": 58000
+    },
+    {
+      "epoch": 0.3153870832676277,
+      "eval_loss": 2.920633554458618,
+      "eval_runtime": 15313.5996,
+      "eval_samples_per_second": 288.224,
+      "eval_steps_per_second": 3.002,
+      "step": 58000
+    },
+    {
+      "epoch": 0.3208247915998282,
+      "grad_norm": 0.98828125,
+      "learning_rate": 0.00013841759634635178,
+      "loss": 3.0877,
+      "step": 59000
+    },
+    {
+      "epoch": 0.3208247915998282,
+      "eval_loss": 2.9208426475524902,
+      "eval_runtime": 15368.5617,
+      "eval_samples_per_second": 287.193,
+      "eval_steps_per_second": 2.992,
+      "step": 59000
+    },
+    {
+      "epoch": 0.32626249993202866,
+      "grad_norm": 0.8828125,
+      "learning_rate": 0.00013601777248047105,
+      "loss": 3.0873,
+      "step": 60000
+    },
+    {
+      "epoch": 0.32626249993202866,
+      "eval_loss": 2.9203381538391113,
+      "eval_runtime": 15338.1482,
+      "eval_samples_per_second": 287.762,
+      "eval_steps_per_second": 2.998,
+      "step": 60000
+    },
+    {
+      "epoch": 0.33170020826422913,
+      "grad_norm": 0.9296875,
+      "learning_rate": 0.00013359386953715421,
+      "loss": 3.0878,
+      "step": 61000
+    },
+    {
+      "epoch": 0.33170020826422913,
+      "eval_loss": 2.920504331588745,
+      "eval_runtime": 15343.2291,
+      "eval_samples_per_second": 287.667,
+      "eval_steps_per_second": 2.997,
+      "step": 61000
+    },
+    {
+      "epoch": 0.3371379165964296,
+      "grad_norm": 0.9609375,
+      "learning_rate": 0.00013114750797604247,
+      "loss": 3.0884,
+      "step": 62000
+    },
+    {
+      "epoch": 0.3371379165964296,
+      "eval_loss": 2.9202628135681152,
+      "eval_runtime": 15349.5904,
+      "eval_samples_per_second": 287.548,
+      "eval_steps_per_second": 2.995,
+      "step": 62000
+    },
+    {
+      "epoch": 0.3425756249286301,
+      "grad_norm": 0.875,
+      "learning_rate": 0.00012868032327110904,
+      "loss": 3.0867,
+      "step": 63000
+    },
+    {
+      "epoch": 0.3425756249286301,
+      "eval_loss": 2.9204776287078857,
+      "eval_runtime": 15315.7413,
+      "eval_samples_per_second": 288.183,
+      "eval_steps_per_second": 3.002,
+      "step": 63000
+    },
+    {
+      "epoch": 0.34801333326083056,
+      "grad_norm": 0.9296875,
+      "learning_rate": 0.0001261939648172906,
+      "loss": 3.0893,
+      "step": 64000
+    },
+    {
+      "epoch": 0.34801333326083056,
+      "eval_loss": 2.919973850250244,
+      "eval_runtime": 15318.1511,
+      "eval_samples_per_second": 288.138,
+      "eval_steps_per_second": 3.001,
+      "step": 64000
+    },
+    {
+      "epoch": 0.35345104159303103,
+      "grad_norm": 0.90625,
+      "learning_rate": 0.00012369009482781192,
+      "loss": 3.0868,
+      "step": 65000
+    },
+    {
+      "epoch": 0.35345104159303103,
+      "eval_loss": 2.920473337173462,
+      "eval_runtime": 15331.0246,
+      "eval_samples_per_second": 287.896,
+      "eval_steps_per_second": 2.999,
+      "step": 65000
+    },
+    {
+      "epoch": 0.3588887499252315,
+      "grad_norm": 0.91796875,
+      "learning_rate": 0.0001211703872229411,
+      "loss": 3.0887,
+      "step": 66000
+    },
+    {
+      "epoch": 0.3588887499252315,
+      "eval_loss": 2.92053484916687,
+      "eval_runtime": 15297.3077,
+      "eval_samples_per_second": 288.531,
+      "eval_steps_per_second": 3.006,
+      "step": 66000
+    },
+    {
+      "epoch": 0.364326458257432,
+      "grad_norm": 0.8828125,
+      "learning_rate": 0.00011863652651091823,
+      "loss": 3.0875,
+      "step": 67000
+    },
+    {
+      "epoch": 0.364326458257432,
+      "eval_loss": 2.9201109409332275,
+      "eval_runtime": 15334.0192,
+      "eval_samples_per_second": 287.84,
+      "eval_steps_per_second": 2.998,
+      "step": 67000
+    },
+    {
+      "epoch": 0.36976416658963246,
+      "grad_norm": 0.921875,
+      "learning_rate": 0.00011609020666180575,
+      "loss": 3.088,
+      "step": 68000
+    },
+    {
+      "epoch": 0.36976416658963246,
+      "eval_loss": 2.920130491256714,
+      "eval_runtime": 15336.3407,
+      "eval_samples_per_second": 287.796,
+      "eval_steps_per_second": 2.998,
+      "step": 68000
+    },
+    {
+      "epoch": 0.37520187492183293,
+      "grad_norm": 0.890625,
+      "learning_rate": 0.00011353312997501313,
+      "loss": 3.0862,
+      "step": 69000
+    },
+    {
+      "epoch": 0.37520187492183293,
+      "eval_loss": 2.920630931854248,
+      "eval_runtime": 15299.7759,
+      "eval_samples_per_second": 288.484,
+      "eval_steps_per_second": 3.005,
+      "step": 69000
+    },
+    {
+      "epoch": 0.3806395832540334,
+      "grad_norm": 0.859375,
+      "learning_rate": 0.00011096700594125318,
+      "loss": 3.0888,
+      "step": 70000
+    },
+    {
+      "epoch": 0.3806395832540334,
+      "eval_loss": 2.9207375049591064,
+      "eval_runtime": 15306.9542,
+      "eval_samples_per_second": 288.349,
+      "eval_steps_per_second": 3.004,
+      "step": 70000
+    },
+    {
+      "epoch": 0.3860772915862339,
+      "grad_norm": 0.890625,
+      "learning_rate": 0.00010839355009969068,
+      "loss": 3.0884,
+      "step": 71000
+    },
+    {
+      "epoch": 0.3860772915862339,
+      "eval_loss": 2.920591354370117,
+      "eval_runtime": 15333.2932,
+      "eval_samples_per_second": 287.854,
+      "eval_steps_per_second": 2.999,
+      "step": 71000
+    },
+    {
+      "epoch": 0.39151499991843436,
+      "grad_norm": 0.953125,
+      "learning_rate": 0.00010581448289104758,
+      "loss": 3.0883,
+      "step": 72000
+    },
+    {
+      "epoch": 0.39151499991843436,
+      "eval_loss": 2.919851064682007,
+      "eval_runtime": 15321.7956,
+      "eval_samples_per_second": 288.07,
+      "eval_steps_per_second": 3.001,
+      "step": 72000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 135000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.6121010295978066e+18,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a57f30bd48e919ee307d9b907d02c43a9ee1dcab42915559122b7ecb449cf103
+size 5624

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff