Some small refactoring for consistant settings

Browse files

Files changed (2) hide show

HuggingFace_Mistral_Transformer_Single_Instrument.ipynb +34 -14
README.md +3 -0

HuggingFace_Mistral_Transformer_Single_Instrument.ipynb CHANGED Viewed

@@ -175,6 +175,16 @@
     "Then data augmentation is performed on each subset independently, and the MIDIs are split into smaller chunks that make approximately the desired token sequence length for training."
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -204,7 +214,7 @@
     "        files_paths=files_paths,\n",
     "        tokenizer=tokenizer,\n",
     "        save_dir=subset_chunks_dir,\n",
-    "        max_seq_len=1024,\n",
     "        num_overlap_bars=2,\n",
     "    )\n",
     "\n",
@@ -230,7 +240,7 @@
     "midi_paths_valid = list(root_save.joinpath(Path(\"Maestro_valid\")).glob(\"**/*.mid\")) + list(root_save.joinpath(Path(\"Maestro_valid\")).glob(\"**/*.midi\")) \n",
     "midi_paths_test = list(root_save.joinpath(Path(\"Maestro_test\")).glob(\"**/*.mid\")) + list(root_save.joinpath(Path(\"Maestro_test\")).glob(\"**/*.midi\"))\n",
     "\n",
-    "kwargs_dataset = {\"max_seq_len\": 1024, \"tokenizer\": tokenizer, \"bos_token_id\": tokenizer[\"BOS_None\"], \"eos_token_id\": tokenizer[\"EOS_None\"]}\n",
     "\n",
     "dataset_train = DatasetMIDI(midi_paths_train, **kwargs_dataset)\n",
     "dataset_valid = DatasetMIDI(midi_paths_valid, **kwargs_dataset)\n",
@@ -255,7 +265,7 @@
    },
    "outputs": [],
    "source": [
-    "testing_files = \n",
     "preview_files_path = []\n",
     "for testing_file in testing_files:\n",
     "    preview_files_path.append(Path(testing_file))\n",
@@ -265,7 +275,7 @@
     "        files_paths=preview_files_path,\n",
     "        tokenizer=tokenizer,\n",
     "        save_dir=preview_dir,\n",
-    "        max_seq_len=1024,\n",
     "        num_overlap_bars=2,\n",
     "    )\n"
    ]
@@ -286,7 +296,7 @@
     "        file_name_lookup.append(p3.name)\n",
     "    return file_name_lookup.index(p3.name)\n",
     "    \n",
-    "kwargs_dataset = {\"max_seq_len\": 1024, \"tokenizer\": tokenizer, \"bos_token_id\": tokenizer[\"BOS_None\"], \"eos_token_id\": tokenizer[\"EOS_None\"], \"func_to_get_labels\" : func_to_get_labels}\n",
     "dataset_preview = DatasetMIDI(midi_split_preview, **kwargs_dataset)"
    ]
   },
@@ -362,14 +372,14 @@
    "source": [
     "# Creates model\n",
     "model_config = MistralConfig(\n",
-    "    vocab_size=len(tokenizer),\n",
-    "    hidden_size=512,\n",
-    "    intermediate_size=2048,\n",
-    "    num_hidden_layers=8,\n",
-    "    num_attention_heads=8,\n",
-    "    num_key_value_heads=4,\n",
-    "    sliding_window=256,\n",
-    "    max_position_embeddings=8192,\n",
     "    pad_token_id=tokenizer['PAD_None'],\n",
     "    bos_token_id=tokenizer['BOS_None'],\n",
     "    eos_token_id=tokenizer['EOS_None'],\n",
@@ -449,7 +459,7 @@
     "    learning_rate=1e-4,\n",
     "    weight_decay=0.01,\n",
     "    max_grad_norm=3.0,\n",
-    "    max_steps=20000,\n",
     "    lr_scheduler_type=\"cosine_with_restarts\",\n",
     "    warmup_ratio=0.3,\n",
     "    log_level=\"debug\",\n",
@@ -485,10 +495,20 @@
     "    compute_metrics=compute_metrics,\n",
     "    callbacks=None,\n",
     "    preprocess_logits_for_metrics=preprocess_logits,\n",
     ")\n",
     "\n"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,

     "Then data augmentation is performed on each subset independently, and the MIDIs are split into smaller chunks that make approximately the desired token sequence length for training."
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "sequence_length = 1024  # The maximum sequence length for data samples.\n",
+    "kwargs_dataset = {\"max_seq_len\": sequence_length, \"tokenizer\": tokenizer, \"bos_token_id\": tokenizer[\"BOS_None\"], \"eos_token_id\": tokenizer[\"EOS_None\"]}"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
     "        files_paths=files_paths,\n",
     "        tokenizer=tokenizer,\n",
     "        save_dir=subset_chunks_dir,\n",
+    "        max_seq_len=sequence_length,\n",
     "        num_overlap_bars=2,\n",
     "    )\n",
     "\n",
     "midi_paths_valid = list(root_save.joinpath(Path(\"Maestro_valid\")).glob(\"**/*.mid\")) + list(root_save.joinpath(Path(\"Maestro_valid\")).glob(\"**/*.midi\")) \n",
     "midi_paths_test = list(root_save.joinpath(Path(\"Maestro_test\")).glob(\"**/*.mid\")) + list(root_save.joinpath(Path(\"Maestro_test\")).glob(\"**/*.midi\"))\n",
     "\n",
+    "\n",
     "\n",
     "dataset_train = DatasetMIDI(midi_paths_train, **kwargs_dataset)\n",
     "dataset_valid = DatasetMIDI(midi_paths_valid, **kwargs_dataset)\n",
    },
    "outputs": [],
    "source": [
+    "#testing_files = \n",
     "preview_files_path = []\n",
     "for testing_file in testing_files:\n",
     "    preview_files_path.append(Path(testing_file))\n",
     "        files_paths=preview_files_path,\n",
     "        tokenizer=tokenizer,\n",
     "        save_dir=preview_dir,\n",
+    "        max_seq_len=sequence_length,\n",
     "        num_overlap_bars=2,\n",
     "    )\n"
    ]
     "        file_name_lookup.append(p3.name)\n",
     "    return file_name_lookup.index(p3.name)\n",
     "    \n",
+    "kwargs_dataset = {\"max_seq_len\": sequence_length, \"tokenizer\": tokenizer, \"bos_token_id\": tokenizer[\"BOS_None\"], \"eos_token_id\": tokenizer[\"EOS_None\"], \"func_to_get_labels\" : func_to_get_labels}\n",
     "dataset_preview = DatasetMIDI(midi_split_preview, **kwargs_dataset)"
    ]
   },
    "source": [
     "# Creates model\n",
     "model_config = MistralConfig(\n",
+    "    vocab_size=len(tokenizer), #from miditok output default 32K\n",
+    "    hidden_size=512, # default 4096\n",
+    "    intermediate_size=2048, # default  14336\n",
+    "    num_hidden_layers=8, # default  32\n",
+    "    num_attention_heads=8, # default  32\n",
+    "    num_key_value_heads=4, # default 8\n",
+    "    sliding_window=256, # default  4096\n",
+    "    max_position_embeddings=sequence_length + 256, # 8192 this was before  # default 4096*32\n",
     "    pad_token_id=tokenizer['PAD_None'],\n",
     "    bos_token_id=tokenizer['BOS_None'],\n",
     "    eos_token_id=tokenizer['EOS_None'],\n",
     "    learning_rate=1e-4,\n",
     "    weight_decay=0.01,\n",
     "    max_grad_norm=3.0,\n",
+    "    max_steps=40000,\n",
     "    lr_scheduler_type=\"cosine_with_restarts\",\n",
     "    warmup_ratio=0.3,\n",
     "    log_level=\"debug\",\n",
     "    compute_metrics=compute_metrics,\n",
     "    callbacks=None,\n",
     "    preprocess_logits_for_metrics=preprocess_logits,\n",
+    "    \n",
     ")\n",
     "\n"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(model)"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,

README.md CHANGED Viewed

@@ -22,6 +22,9 @@ I have trained a MidiTok tokeniser (REMI) and its made by spliting multi-track m
 We then trained in on a small dataset.
 Its using the Mistral model that has been cut down quite a bit.
 ### Training hyperparameters
 The following hyperparameters were used during training:

 We then trained in on a small dataset.
 Its using the Mistral model that has been cut down quite a bit.
+### What else needs to be done
+Update model training to use small positional embeddings for the model 1024 + a padding amount like 8
 ### Training hyperparameters
 The following hyperparameters were used during training: