update

Files changed (2) hide show

distil-whisper ADDED Viewed

	@@ -0,0 +1 @@


1	+ Subproject commit a36e6353d80218e98b78eddb75455babc84f080d

run_large_training.sh CHANGED Viewed

@@ -3,11 +3,11 @@ TOKENIZERS_PARALLELISM=false python3 run_distillation_nodes.py \
   --model_name_or_path "./nb-distil-large-init" \
   --teacher_model_name_or_path "NbAiLab/nb-whisper-large" \
   --train_dataset_name "NbAiLab/annotated_distil_raw_ncc_speech_v7_large" \
-  --train_dataset_config_name "no" \
   --train_split_name "train" \
   --eval_dataset_name "NbAiLab/annotated_distil_raw_ncc_speech_v7_large" \
-  --eval_dataset_config_name "no" \
-  --eval_split_name "validation_norwegian_fleurs" \
   --eval_steps 500 \
   --save_steps 1000 \
   --warmup_steps 1000 \
@@ -17,8 +17,8 @@ TOKENIZERS_PARALLELISM=false python3 run_distillation_nodes.py \
   --save_total_limit 1 \
   --max_steps 100000 \
   --wer_threshold 10 \
-  --per_device_train_batch_size 32\
-  --per_device_eval_batch_size 32 \
   --dataloader_num_workers 32 \
   --dtype "bfloat16" \
   --output_dir "./" \

   --model_name_or_path "./nb-distil-large-init" \
   --teacher_model_name_or_path "NbAiLab/nb-whisper-large" \
   --train_dataset_name "NbAiLab/annotated_distil_raw_ncc_speech_v7_large" \
+  --train_dataset_config_name "" \
   --train_split_name "train" \
   --eval_dataset_name "NbAiLab/annotated_distil_raw_ncc_speech_v7_large" \
+  --eval_dataset_config_name "" \
+  --eval_split_name "validation_norwegian" \
   --eval_steps 500 \
   --save_steps 1000 \
   --warmup_steps 1000 \
   --save_total_limit 1 \
   --max_steps 100000 \
   --wer_threshold 10 \
+  --per_device_train_batch_size 16\
+  --per_device_eval_batch_size 16 \
   --dataloader_num_workers 32 \
   --dtype "bfloat16" \
   --output_dir "./" \