Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

added_tokens.json +4 -0
config.json +91 -0
generation_config.json +9 -0
model.safetensors +3 -0
optimizer.pt +3 -0
preprocessor_config.json +19 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +13 -0
spm_char.model +3 -0
tokenizer_config.json +64 -0
trainer_state.json +914 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<ctc_blank>": 80,
+  "<mask>": 79
+}

config.json ADDED Viewed

	@@ -0,0 +1,91 @@

+{
+  "activation_dropout": 0.1,
+  "apply_spec_augment": true,
+  "architectures": [
+    "SpeechT5ForTextToSpeech"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.1,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 2,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.1,
+  "encoder_layers": 12,
+  "encoder_max_relative_position": 160,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "guided_attention_loss_num_heads": 2,
+  "guided_attention_loss_scale": 10.0,
+  "guided_attention_loss_sigma": 0.4,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "is_encoder_decoder": true,
+  "layer_norm_eps": 1e-05,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "max_length": null,
+  "max_speech_positions": 1876,
+  "max_text_positions": 600,
+  "model_type": "speecht5",
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_mel_bins": 80,
+  "pad_token_id": 1,
+  "positional_dropout": 0.1,
+  "reduction_factor": 2,
+  "scale_embedding": false,
+  "speaker_embedding_dim": 512,
+  "speech_decoder_postnet_dropout": 0.5,
+  "speech_decoder_postnet_kernel": 5,
+  "speech_decoder_postnet_layers": 5,
+  "speech_decoder_postnet_units": 256,
+  "speech_decoder_prenet_dropout": 0.5,
+  "speech_decoder_prenet_layers": 2,
+  "speech_decoder_prenet_units": 256,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.2",
+  "use_cache": false,
+  "use_guided_attention_loss": true,
+  "vocab_size": 81
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "decoder_start_token_id": 2,
+  "eos_token_id": 2,
+  "max_length": 1876,
+  "pad_token_id": 1,
+  "transformers_version": "4.53.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:310eb69143459d186c7f695497e573cf37c61f57082511bf9f63f513fdfa5aab
+size 577789320

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41738eed34a1e48060ea60b952169c462d1ee8e66e4134d8943c21310081ca5e
+size 1155772233

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "do_normalize": false,
+  "feature_extractor_type": "SpeechT5FeatureExtractor",
+  "feature_size": 1,
+  "fmax": 7600,
+  "fmin": 80,
+  "frame_signal_scale": 1.0,
+  "hop_length": 16,
+  "mel_floor": 1e-10,
+  "num_mel_bins": 80,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "SpeechT5Processor",
+  "reduction_factor": 2,
+  "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "win_function": "hann_window",
+  "win_length": 64
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23731a1431e441fa2babf1b269e657d01b317504056ab030399bb7758c6f52fa
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6a1e3232c9dd0558d3b582345b4a537ca2d63d9ae2df7d7189cbdc92c4e384f
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

spm_char.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fcc48f3e225f627b1641db410ceb0c8649bd2b0c982e150b03f8be3728ab560
+size 238473

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "79": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "80": {
+      "content": "<ctc_blank>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 600,
+  "normalize": false,
+  "pad_token": "<pad>",
+  "processor_class": "SpeechT5Processor",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "SpeechT5Tokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,914 @@

+{
+  "best_global_step": 1350,
+  "best_metric": 0.36149922013282776,
+  "best_model_checkpoint": "trainer_output/checkpoint-400",
+  "epoch": 22.22284122562674,
+  "eval_steps": 50,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2785515320334262,
+      "grad_norm": 3.268444776535034,
+      "learning_rate": 2.4e-05,
+      "loss": 0.4348,
+      "step": 25
+    },
+    {
+      "epoch": 0.5571030640668524,
+      "grad_norm": 4.304715633392334,
+      "learning_rate": 4.9e-05,
+      "loss": 0.4346,
+      "step": 50
+    },
+    {
+      "epoch": 0.5571030640668524,
+      "eval_loss": 0.3896651268005371,
+      "eval_runtime": 13.8517,
+      "eval_samples_per_second": 23.102,
+      "eval_steps_per_second": 23.102,
+      "step": 50
+    },
+    {
+      "epoch": 0.8356545961002786,
+      "grad_norm": 8.992396354675293,
+      "learning_rate": 7.4e-05,
+      "loss": 0.4365,
+      "step": 75
+    },
+    {
+      "epoch": 1.1114206128133706,
+      "grad_norm": 4.0646514892578125,
+      "learning_rate": 9.900000000000001e-05,
+      "loss": 0.4438,
+      "step": 100
+    },
+    {
+      "epoch": 1.1114206128133706,
+      "eval_loss": 0.41089218854904175,
+      "eval_runtime": 14.0072,
+      "eval_samples_per_second": 22.845,
+      "eval_steps_per_second": 22.845,
+      "step": 100
+    },
+    {
+      "epoch": 1.3899721448467965,
+      "grad_norm": 3.1883151531219482,
+      "learning_rate": 9.873684210526316e-05,
+      "loss": 0.4411,
+      "step": 125
+    },
+    {
+      "epoch": 1.668523676880223,
+      "grad_norm": 10.366960525512695,
+      "learning_rate": 9.742105263157896e-05,
+      "loss": 0.455,
+      "step": 150
+    },
+    {
+      "epoch": 1.668523676880223,
+      "eval_loss": 0.39505237340927124,
+      "eval_runtime": 13.684,
+      "eval_samples_per_second": 23.385,
+      "eval_steps_per_second": 23.385,
+      "step": 150
+    },
+    {
+      "epoch": 1.947075208913649,
+      "grad_norm": 5.3184027671813965,
+      "learning_rate": 9.610526315789474e-05,
+      "loss": 0.4315,
+      "step": 175
+    },
+    {
+      "epoch": 2.222841225626741,
+      "grad_norm": 7.163997173309326,
+      "learning_rate": 9.478947368421053e-05,
+      "loss": 0.4243,
+      "step": 200
+    },
+    {
+      "epoch": 2.222841225626741,
+      "eval_loss": 0.42486143112182617,
+      "eval_runtime": 13.6879,
+      "eval_samples_per_second": 23.378,
+      "eval_steps_per_second": 23.378,
+      "step": 200
+    },
+    {
+      "epoch": 2.501392757660167,
+      "grad_norm": 4.934960842132568,
+      "learning_rate": 9.347368421052632e-05,
+      "loss": 0.4417,
+      "step": 225
+    },
+    {
+      "epoch": 2.779944289693593,
+      "grad_norm": 1.8761239051818848,
+      "learning_rate": 9.21578947368421e-05,
+      "loss": 0.4322,
+      "step": 250
+    },
+    {
+      "epoch": 2.779944289693593,
+      "eval_loss": 0.381044864654541,
+      "eval_runtime": 13.7455,
+      "eval_samples_per_second": 23.28,
+      "eval_steps_per_second": 23.28,
+      "step": 250
+    },
+    {
+      "epoch": 3.0557103064066853,
+      "grad_norm": 5.752270221710205,
+      "learning_rate": 9.08421052631579e-05,
+      "loss": 0.4214,
+      "step": 275
+    },
+    {
+      "epoch": 3.3342618384401113,
+      "grad_norm": 4.633335590362549,
+      "learning_rate": 8.95263157894737e-05,
+      "loss": 0.4256,
+      "step": 300
+    },
+    {
+      "epoch": 3.3342618384401113,
+      "eval_loss": 0.3811536431312561,
+      "eval_runtime": 13.4686,
+      "eval_samples_per_second": 23.759,
+      "eval_steps_per_second": 23.759,
+      "step": 300
+    },
+    {
+      "epoch": 3.6128133704735377,
+      "grad_norm": 6.349725723266602,
+      "learning_rate": 8.821052631578948e-05,
+      "loss": 0.4207,
+      "step": 325
+    },
+    {
+      "epoch": 3.8913649025069637,
+      "grad_norm": 6.114583492279053,
+      "learning_rate": 8.689473684210526e-05,
+      "loss": 0.4232,
+      "step": 350
+    },
+    {
+      "epoch": 3.8913649025069637,
+      "eval_loss": 0.41359782218933105,
+      "eval_runtime": 13.645,
+      "eval_samples_per_second": 23.452,
+      "eval_steps_per_second": 23.452,
+      "step": 350
+    },
+    {
+      "epoch": 4.167130919220056,
+      "grad_norm": 3.0233688354492188,
+      "learning_rate": 8.557894736842106e-05,
+      "loss": 0.4173,
+      "step": 375
+    },
+    {
+      "epoch": 4.445682451253482,
+      "grad_norm": 3.7900898456573486,
+      "learning_rate": 8.426315789473684e-05,
+      "loss": 0.4188,
+      "step": 400
+    },
+    {
+      "epoch": 4.445682451253482,
+      "eval_loss": 0.37991732358932495,
+      "eval_runtime": 13.601,
+      "eval_samples_per_second": 23.528,
+      "eval_steps_per_second": 23.528,
+      "step": 400
+    },
+    {
+      "epoch": 4.724233983286908,
+      "grad_norm": 4.321193218231201,
+      "learning_rate": 8.294736842105263e-05,
+      "loss": 0.4194,
+      "step": 425
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 4.552373886108398,
+      "learning_rate": 8.163157894736843e-05,
+      "loss": 0.4045,
+      "step": 450
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.37860995531082153,
+      "eval_runtime": 13.5918,
+      "eval_samples_per_second": 23.544,
+      "eval_steps_per_second": 23.544,
+      "step": 450
+    },
+    {
+      "epoch": 5.278551532033426,
+      "grad_norm": 1.4818230867385864,
+      "learning_rate": 8.031578947368421e-05,
+      "loss": 0.4053,
+      "step": 475
+    },
+    {
+      "epoch": 5.557103064066853,
+      "grad_norm": 6.262104511260986,
+      "learning_rate": 7.900000000000001e-05,
+      "loss": 0.4057,
+      "step": 500
+    },
+    {
+      "epoch": 5.557103064066853,
+      "eval_loss": 0.3852214217185974,
+      "eval_runtime": 13.5514,
+      "eval_samples_per_second": 23.614,
+      "eval_steps_per_second": 23.614,
+      "step": 500
+    },
+    {
+      "epoch": 5.835654596100278,
+      "grad_norm": 5.743201732635498,
+      "learning_rate": 7.768421052631579e-05,
+      "loss": 0.409,
+      "step": 525
+    },
+    {
+      "epoch": 6.111420612813371,
+      "grad_norm": 4.577704906463623,
+      "learning_rate": 7.636842105263157e-05,
+      "loss": 0.404,
+      "step": 550
+    },
+    {
+      "epoch": 6.111420612813371,
+      "eval_loss": 0.3758087754249573,
+      "eval_runtime": 13.5075,
+      "eval_samples_per_second": 23.691,
+      "eval_steps_per_second": 23.691,
+      "step": 550
+    },
+    {
+      "epoch": 6.389972144846797,
+      "grad_norm": 2.2797679901123047,
+      "learning_rate": 7.505263157894737e-05,
+      "loss": 0.4036,
+      "step": 575
+    },
+    {
+      "epoch": 6.6685236768802225,
+      "grad_norm": 2.6362528800964355,
+      "learning_rate": 7.373684210526317e-05,
+      "loss": 0.4013,
+      "step": 600
+    },
+    {
+      "epoch": 6.6685236768802225,
+      "eval_loss": 0.3783581852912903,
+      "eval_runtime": 13.7273,
+      "eval_samples_per_second": 23.311,
+      "eval_steps_per_second": 23.311,
+      "step": 600
+    },
+    {
+      "epoch": 6.947075208913649,
+      "grad_norm": 2.8619472980499268,
+      "learning_rate": 7.242105263157896e-05,
+      "loss": 0.401,
+      "step": 625
+    },
+    {
+      "epoch": 7.222841225626741,
+      "grad_norm": 2.071786403656006,
+      "learning_rate": 7.110526315789474e-05,
+      "loss": 0.3919,
+      "step": 650
+    },
+    {
+      "epoch": 7.222841225626741,
+      "eval_loss": 0.3806610703468323,
+      "eval_runtime": 13.6224,
+      "eval_samples_per_second": 23.491,
+      "eval_steps_per_second": 23.491,
+      "step": 650
+    },
+    {
+      "epoch": 7.501392757660167,
+      "grad_norm": 5.365797519683838,
+      "learning_rate": 6.978947368421053e-05,
+      "loss": 0.4018,
+      "step": 675
+    },
+    {
+      "epoch": 7.779944289693593,
+      "grad_norm": 5.850217819213867,
+      "learning_rate": 6.847368421052632e-05,
+      "loss": 0.4055,
+      "step": 700
+    },
+    {
+      "epoch": 7.779944289693593,
+      "eval_loss": 0.3773684501647949,
+      "eval_runtime": 13.6955,
+      "eval_samples_per_second": 23.365,
+      "eval_steps_per_second": 23.365,
+      "step": 700
+    },
+    {
+      "epoch": 8.055710306406684,
+      "grad_norm": 2.516648530960083,
+      "learning_rate": 6.71578947368421e-05,
+      "loss": 0.3867,
+      "step": 725
+    },
+    {
+      "epoch": 8.334261838440112,
+      "grad_norm": 3.2627480030059814,
+      "learning_rate": 6.584210526315789e-05,
+      "loss": 0.3919,
+      "step": 750
+    },
+    {
+      "epoch": 8.334261838440112,
+      "eval_loss": 0.381404310464859,
+      "eval_runtime": 13.6865,
+      "eval_samples_per_second": 23.381,
+      "eval_steps_per_second": 23.381,
+      "step": 750
+    },
+    {
+      "epoch": 8.612813370473537,
+      "grad_norm": 1.986242651939392,
+      "learning_rate": 6.452631578947368e-05,
+      "loss": 0.3972,
+      "step": 775
+    },
+    {
+      "epoch": 8.891364902506965,
+      "grad_norm": 2.2203171253204346,
+      "learning_rate": 6.321052631578948e-05,
+      "loss": 0.3939,
+      "step": 800
+    },
+    {
+      "epoch": 8.891364902506965,
+      "eval_loss": 0.38715943694114685,
+      "eval_runtime": 13.4294,
+      "eval_samples_per_second": 23.828,
+      "eval_steps_per_second": 23.828,
+      "step": 800
+    },
+    {
+      "epoch": 9.167130919220055,
+      "grad_norm": 2.0610949993133545,
+      "learning_rate": 6.189473684210526e-05,
+      "loss": 0.3908,
+      "step": 825
+    },
+    {
+      "epoch": 9.445682451253482,
+      "grad_norm": 1.9484410285949707,
+      "learning_rate": 6.057894736842106e-05,
+      "loss": 0.3863,
+      "step": 850
+    },
+    {
+      "epoch": 9.445682451253482,
+      "eval_loss": 0.36479219794273376,
+      "eval_runtime": 13.6905,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 23.374,
+      "step": 850
+    },
+    {
+      "epoch": 9.724233983286908,
+      "grad_norm": 3.732637882232666,
+      "learning_rate": 5.926315789473684e-05,
+      "loss": 0.3912,
+      "step": 875
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 2.3195526599884033,
+      "learning_rate": 5.794736842105264e-05,
+      "loss": 0.3868,
+      "step": 900
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.36887454986572266,
+      "eval_runtime": 13.6683,
+      "eval_samples_per_second": 23.412,
+      "eval_steps_per_second": 23.412,
+      "step": 900
+    },
+    {
+      "epoch": 10.278551532033426,
+      "grad_norm": 1.2468181848526,
+      "learning_rate": 5.6631578947368426e-05,
+      "loss": 0.3929,
+      "step": 925
+    },
+    {
+      "epoch": 10.557103064066853,
+      "grad_norm": 2.238741159439087,
+      "learning_rate": 5.531578947368421e-05,
+      "loss": 0.3863,
+      "step": 950
+    },
+    {
+      "epoch": 10.557103064066853,
+      "eval_loss": 0.3635193407535553,
+      "eval_runtime": 13.8549,
+      "eval_samples_per_second": 23.097,
+      "eval_steps_per_second": 23.097,
+      "step": 950
+    },
+    {
+      "epoch": 10.835654596100278,
+      "grad_norm": 1.6164511442184448,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.3888,
+      "step": 975
+    },
+    {
+      "epoch": 11.11142061281337,
+      "grad_norm": 3.874614715576172,
+      "learning_rate": 5.2684210526315794e-05,
+      "loss": 0.3789,
+      "step": 1000
+    },
+    {
+      "epoch": 11.11142061281337,
+      "eval_loss": 0.3707486689090729,
+      "eval_runtime": 13.6538,
+      "eval_samples_per_second": 23.437,
+      "eval_steps_per_second": 23.437,
+      "step": 1000
+    },
+    {
+      "epoch": 11.389972144846796,
+      "grad_norm": 2.4590909481048584,
+      "learning_rate": 5.1368421052631576e-05,
+      "loss": 0.3864,
+      "step": 1025
+    },
+    {
+      "epoch": 11.668523676880223,
+      "grad_norm": 2.916522741317749,
+      "learning_rate": 5.005263157894737e-05,
+      "loss": 0.3829,
+      "step": 1050
+    },
+    {
+      "epoch": 11.668523676880223,
+      "eval_loss": 0.36959362030029297,
+      "eval_runtime": 13.6444,
+      "eval_samples_per_second": 23.453,
+      "eval_steps_per_second": 23.453,
+      "step": 1050
+    },
+    {
+      "epoch": 11.947075208913649,
+      "grad_norm": 2.2767789363861084,
+      "learning_rate": 4.873684210526316e-05,
+      "loss": 0.3811,
+      "step": 1075
+    },
+    {
+      "epoch": 12.222841225626741,
+      "grad_norm": 2.320681095123291,
+      "learning_rate": 4.742105263157895e-05,
+      "loss": 0.3771,
+      "step": 1100
+    },
+    {
+      "epoch": 12.222841225626741,
+      "eval_loss": 0.37226706743240356,
+      "eval_runtime": 13.6934,
+      "eval_samples_per_second": 23.369,
+      "eval_steps_per_second": 23.369,
+      "step": 1100
+    },
+    {
+      "epoch": 12.501392757660167,
+      "grad_norm": 2.783123254776001,
+      "learning_rate": 4.610526315789474e-05,
+      "loss": 0.3785,
+      "step": 1125
+    },
+    {
+      "epoch": 12.779944289693594,
+      "grad_norm": 2.488577365875244,
+      "learning_rate": 4.478947368421053e-05,
+      "loss": 0.3811,
+      "step": 1150
+    },
+    {
+      "epoch": 12.779944289693594,
+      "eval_loss": 0.36161237955093384,
+      "eval_runtime": 13.7581,
+      "eval_samples_per_second": 23.259,
+      "eval_steps_per_second": 23.259,
+      "step": 1150
+    },
+    {
+      "epoch": 13.055710306406684,
+      "grad_norm": 2.4364013671875,
+      "learning_rate": 4.347368421052632e-05,
+      "loss": 0.3775,
+      "step": 1175
+    },
+    {
+      "epoch": 13.334261838440112,
+      "grad_norm": 4.950360298156738,
+      "learning_rate": 4.215789473684211e-05,
+      "loss": 0.3766,
+      "step": 1200
+    },
+    {
+      "epoch": 13.334261838440112,
+      "eval_loss": 0.3663933575153351,
+      "eval_runtime": 13.7363,
+      "eval_samples_per_second": 23.296,
+      "eval_steps_per_second": 23.296,
+      "step": 1200
+    },
+    {
+      "epoch": 13.612813370473537,
+      "grad_norm": 3.373661994934082,
+      "learning_rate": 4.08421052631579e-05,
+      "loss": 0.3736,
+      "step": 1225
+    },
+    {
+      "epoch": 13.891364902506965,
+      "grad_norm": 6.832035541534424,
+      "learning_rate": 3.9526315789473686e-05,
+      "loss": 0.3808,
+      "step": 1250
+    },
+    {
+      "epoch": 13.891364902506965,
+      "eval_loss": 0.36550408601760864,
+      "eval_runtime": 13.5552,
+      "eval_samples_per_second": 23.607,
+      "eval_steps_per_second": 23.607,
+      "step": 1250
+    },
+    {
+      "epoch": 14.167130919220055,
+      "grad_norm": 3.087953567504883,
+      "learning_rate": 3.8210526315789476e-05,
+      "loss": 0.3706,
+      "step": 1275
+    },
+    {
+      "epoch": 14.445682451253482,
+      "grad_norm": 2.505366802215576,
+      "learning_rate": 3.6894736842105265e-05,
+      "loss": 0.3748,
+      "step": 1300
+    },
+    {
+      "epoch": 14.445682451253482,
+      "eval_loss": 0.37319216132164,
+      "eval_runtime": 13.6213,
+      "eval_samples_per_second": 23.493,
+      "eval_steps_per_second": 23.493,
+      "step": 1300
+    },
+    {
+      "epoch": 14.724233983286908,
+      "grad_norm": 3.5145950317382812,
+      "learning_rate": 3.5578947368421054e-05,
+      "loss": 0.3768,
+      "step": 1325
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 1.5625571012496948,
+      "learning_rate": 3.426315789473684e-05,
+      "loss": 0.3694,
+      "step": 1350
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.36149922013282776,
+      "eval_runtime": 13.6694,
+      "eval_samples_per_second": 23.41,
+      "eval_steps_per_second": 23.41,
+      "step": 1350
+    },
+    {
+      "epoch": 15.278551532033426,
+      "grad_norm": 2.3763480186462402,
+      "learning_rate": 3.294736842105263e-05,
+      "loss": 0.3698,
+      "step": 1375
+    },
+    {
+      "epoch": 15.557103064066853,
+      "grad_norm": 2.2418417930603027,
+      "learning_rate": 3.163157894736842e-05,
+      "loss": 0.3743,
+      "step": 1400
+    },
+    {
+      "epoch": 15.557103064066853,
+      "eval_loss": 0.3747350573539734,
+      "eval_runtime": 13.5269,
+      "eval_samples_per_second": 23.656,
+      "eval_steps_per_second": 23.656,
+      "step": 1400
+    },
+    {
+      "epoch": 15.835654596100278,
+      "grad_norm": 1.8634096384048462,
+      "learning_rate": 3.0315789473684214e-05,
+      "loss": 0.3714,
+      "step": 1425
+    },
+    {
+      "epoch": 16.11142061281337,
+      "grad_norm": 2.3779730796813965,
+      "learning_rate": 2.9e-05,
+      "loss": 0.3698,
+      "step": 1450
+    },
+    {
+      "epoch": 16.11142061281337,
+      "eval_loss": 0.37593525648117065,
+      "eval_runtime": 13.6244,
+      "eval_samples_per_second": 23.487,
+      "eval_steps_per_second": 23.487,
+      "step": 1450
+    },
+    {
+      "epoch": 16.389972144846798,
+      "grad_norm": 1.6371415853500366,
+      "learning_rate": 2.768421052631579e-05,
+      "loss": 0.3708,
+      "step": 1475
+    },
+    {
+      "epoch": 16.668523676880223,
+      "grad_norm": 2.469703435897827,
+      "learning_rate": 2.6368421052631582e-05,
+      "loss": 0.3708,
+      "step": 1500
+    },
+    {
+      "epoch": 16.668523676880223,
+      "eval_loss": 0.36566680669784546,
+      "eval_runtime": 13.6076,
+      "eval_samples_per_second": 23.516,
+      "eval_steps_per_second": 23.516,
+      "step": 1500
+    },
+    {
+      "epoch": 16.94707520891365,
+      "grad_norm": 2.27885365486145,
+      "learning_rate": 2.505263157894737e-05,
+      "loss": 0.3688,
+      "step": 1525
+    },
+    {
+      "epoch": 17.22284122562674,
+      "grad_norm": 1.7022783756256104,
+      "learning_rate": 2.373684210526316e-05,
+      "loss": 0.3626,
+      "step": 1550
+    },
+    {
+      "epoch": 17.22284122562674,
+      "eval_loss": 0.366330623626709,
+      "eval_runtime": 13.6427,
+      "eval_samples_per_second": 23.456,
+      "eval_steps_per_second": 23.456,
+      "step": 1550
+    },
+    {
+      "epoch": 17.501392757660167,
+      "grad_norm": 2.10900616645813,
+      "learning_rate": 2.242105263157895e-05,
+      "loss": 0.3678,
+      "step": 1575
+    },
+    {
+      "epoch": 17.779944289693592,
+      "grad_norm": 1.427308201789856,
+      "learning_rate": 2.110526315789474e-05,
+      "loss": 0.3671,
+      "step": 1600
+    },
+    {
+      "epoch": 17.779944289693592,
+      "eval_loss": 0.3622135519981384,
+      "eval_runtime": 13.6336,
+      "eval_samples_per_second": 23.471,
+      "eval_steps_per_second": 23.471,
+      "step": 1600
+    },
+    {
+      "epoch": 18.055710306406684,
+      "grad_norm": 2.66011905670166,
+      "learning_rate": 1.9789473684210528e-05,
+      "loss": 0.3629,
+      "step": 1625
+    },
+    {
+      "epoch": 18.33426183844011,
+      "grad_norm": 1.7077386379241943,
+      "learning_rate": 1.8473684210526317e-05,
+      "loss": 0.365,
+      "step": 1650
+    },
+    {
+      "epoch": 18.33426183844011,
+      "eval_loss": 0.3650280833244324,
+      "eval_runtime": 13.8977,
+      "eval_samples_per_second": 23.025,
+      "eval_steps_per_second": 23.025,
+      "step": 1650
+    },
+    {
+      "epoch": 18.61281337047354,
+      "grad_norm": 2.3039278984069824,
+      "learning_rate": 1.7157894736842107e-05,
+      "loss": 0.3657,
+      "step": 1675
+    },
+    {
+      "epoch": 18.891364902506965,
+      "grad_norm": 2.4378602504730225,
+      "learning_rate": 1.5842105263157896e-05,
+      "loss": 0.3614,
+      "step": 1700
+    },
+    {
+      "epoch": 18.891364902506965,
+      "eval_loss": 0.366611123085022,
+      "eval_runtime": 13.6276,
+      "eval_samples_per_second": 23.482,
+      "eval_steps_per_second": 23.482,
+      "step": 1700
+    },
+    {
+      "epoch": 19.167130919220057,
+      "grad_norm": 2.5396945476531982,
+      "learning_rate": 1.4526315789473685e-05,
+      "loss": 0.3588,
+      "step": 1725
+    },
+    {
+      "epoch": 19.445682451253482,
+      "grad_norm": 1.7115105390548706,
+      "learning_rate": 1.3210526315789473e-05,
+      "loss": 0.3647,
+      "step": 1750
+    },
+    {
+      "epoch": 19.445682451253482,
+      "eval_loss": 0.36524954438209534,
+      "eval_runtime": 13.6929,
+      "eval_samples_per_second": 23.37,
+      "eval_steps_per_second": 23.37,
+      "step": 1750
+    },
+    {
+      "epoch": 19.724233983286908,
+      "grad_norm": 3.1968226432800293,
+      "learning_rate": 1.1894736842105264e-05,
+      "loss": 0.3646,
+      "step": 1775
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 3.1331191062927246,
+      "learning_rate": 1.0578947368421053e-05,
+      "loss": 0.3585,
+      "step": 1800
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.3763583302497864,
+      "eval_runtime": 13.7144,
+      "eval_samples_per_second": 23.333,
+      "eval_steps_per_second": 23.333,
+      "step": 1800
+    },
+    {
+      "epoch": 20.278551532033426,
+      "grad_norm": 1.4660519361495972,
+      "learning_rate": 9.263157894736844e-06,
+      "loss": 0.3633,
+      "step": 1825
+    },
+    {
+      "epoch": 20.55710306406685,
+      "grad_norm": 1.6120601892471313,
+      "learning_rate": 7.947368421052633e-06,
+      "loss": 0.3606,
+      "step": 1850
+    },
+    {
+      "epoch": 20.55710306406685,
+      "eval_loss": 0.37242794036865234,
+      "eval_runtime": 13.6577,
+      "eval_samples_per_second": 23.43,
+      "eval_steps_per_second": 23.43,
+      "step": 1850
+    },
+    {
+      "epoch": 20.83565459610028,
+      "grad_norm": 1.7700914144515991,
+      "learning_rate": 6.631578947368422e-06,
+      "loss": 0.3592,
+      "step": 1875
+    },
+    {
+      "epoch": 21.11142061281337,
+      "grad_norm": 1.610386610031128,
+      "learning_rate": 5.315789473684211e-06,
+      "loss": 0.358,
+      "step": 1900
+    },
+    {
+      "epoch": 21.11142061281337,
+      "eval_loss": 0.36805444955825806,
+      "eval_runtime": 13.4893,
+      "eval_samples_per_second": 23.723,
+      "eval_steps_per_second": 23.723,
+      "step": 1900
+    },
+    {
+      "epoch": 21.389972144846798,
+      "grad_norm": 1.5456234216690063,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.357,
+      "step": 1925
+    },
+    {
+      "epoch": 21.668523676880223,
+      "grad_norm": 1.233559489250183,
+      "learning_rate": 2.68421052631579e-06,
+      "loss": 0.3566,
+      "step": 1950
+    },
+    {
+      "epoch": 21.668523676880223,
+      "eval_loss": 0.37138742208480835,
+      "eval_runtime": 13.4793,
+      "eval_samples_per_second": 23.74,
+      "eval_steps_per_second": 23.74,
+      "step": 1950
+    },
+    {
+      "epoch": 21.94707520891365,
+      "grad_norm": 1.3927557468414307,
+      "learning_rate": 1.3684210526315791e-06,
+      "loss": 0.3578,
+      "step": 1975
+    },
+    {
+      "epoch": 22.22284122562674,
+      "grad_norm": 1.2782479524612427,
+      "learning_rate": 5.263157894736842e-08,
+      "loss": 0.3539,
+      "step": 2000
+    },
+    {
+      "epoch": 22.22284122562674,
+      "eval_loss": 0.3719028830528259,
+      "eval_runtime": 13.4208,
+      "eval_samples_per_second": 23.844,
+      "eval_steps_per_second": 23.844,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 23,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5863317642483840.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be9e776f34f67b0ce79831e4e54c3792782a1ed1a0ce25e8325d66402335a8dc
+size 5496