구음장애 환자를 위한 음성인식 모델

프로젝트 정보

재단법인 미래와 소프트웨어와 함께하는 제 3회아이디어 공모전

프로젝트 명

"구음장애 음성 데이터를 활용한 고령 환자의 의사소통 개선방안"

모델 설명

  • openai/whisper-large-v3에 대한 파인튜닝 모델
  • 본 모델은 "구음장애 음성 데이터를 활용한 고령 환자의 의사소통 개선방안" 프로젝트의 구음장애환자들에 대한 한국어 음성인식 모델임. OpenAI의 Whisper 모델을 파인튜닝 하여 구음장애의 음성적 특성을 반영한 모델을 구축하였음.
  • 오른쪽 "Inference API"를 통해 음성인식 모델을 테스트 해볼 수 있습니다.

학습 모델

  • Paper: Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR.
  • URL: https://proceedings.mlr.press/v202/radford23a.html

학습 데이터

학습 파라미터

  • learning_rate: 5e-07
  • train_batch_size: 8
  • eval_batch_size: 8
  • seed: 42
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_steps: 10
  • mixed_precision_training: Native AMP

학습 결과

Training Loss Epoch Step Validation Loss Wer
4.2932 0.09 10 4.6306 16.0442
4.2744 0.18 20 4.1942 16.2348
3.7418 0.27 30 3.7625 15.5107
3.2037 0.36 40 3.5635 14.6723
3.4714 0.45 50 3.4383 14.3674
2.8962 0.55 60 3.3494 14.1768
2.7958 0.64 70 3.2752 18.2927
2.8691 0.73 80 3.2208 19.5884
2.8693 0.82 90 3.1857 20.6174
2.9474 0.91 100 3.1644 20.6555
3.1712 1.0 110 3.1551 20.6174

Framework versions

  • Transformers 4.38.0.dev0
  • Pytorch 2.1.0+cu121
  • Datasets 2.16.1
  • Tokenizers 0.15.1
Downloads last month
20
Safetensors
Model size
242M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for RecCode/whisper_final

Finetuned
(620)
this model