RecCode
/

whisper_final

Automatic Speech Recognition

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

구음장애 환자를 위한 음성인식 모델

프로젝트 정보

재단법인 미래와 소프트웨어와 함께하는 제 3회아이디어 공모전

프로젝트 명

"구음장애 음성 데이터를 활용한 고령 환자의 의사소통 개선방안"

모델 설명

openai/whisper-large-v3에 대한 파인튜닝 모델
본 모델은 "구음장애 음성 데이터를 활용한 고령 환자의 의사소통 개선방안" 프로젝트의 구음장애환자들에 대한 한국어 음성인식 모델임. OpenAI의 Whisper 모델을 파인튜닝 하여 구음장애의 음성적 특성을 반영한 모델을 구축하였음.
오른쪽 "Inference API"를 통해 음성인식 모델을 테스트 해볼 수 있습니다.

학습 모델

Paper: Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (pp. 28492-28518). PMLR.
URL: https://proceedings.mlr.press/v202/radford23a.html

학습 데이터

AIHub "구음장애 음성 데이터" (KOR)
URL: https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=608

학습 파라미터

learning_rate: 5e-07
train_batch_size: 8
eval_batch_size: 8
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 10
mixed_precision_training: Native AMP

학습 결과

Training Loss	Epoch	Step	Validation Loss	Wer
4.2932	0.09	10	4.6306	16.0442
4.2744	0.18	20	4.1942	16.2348
3.7418	0.27	30	3.7625	15.5107
3.2037	0.36	40	3.5635	14.6723
3.4714	0.45	50	3.4383	14.3674
2.8962	0.55	60	3.3494	14.1768
2.7958	0.64	70	3.2752	18.2927
2.8691	0.73	80	3.2208	19.5884
2.8693	0.82	90	3.1857	20.6174
2.9474	0.91	100	3.1644	20.6555
3.1712	1.0	110	3.1551	20.6174

Framework versions

Transformers 4.38.0.dev0
Pytorch 2.1.0+cu121
Datasets 2.16.1
Tokenizers 0.15.1

Downloads last month: 1

Safetensors

Model size

0.2B params

Tensor type

F32

·

Model tree for RecCode/whisper_final

Base model

openai/whisper-large-v3

Finetuned

(647)

this model

Evaluation results

Metadata error: specify a dataset to view leaderboard