Проблема с буквосочетаниями
Есть ли способ добавлять буквосочетания? Например, "СИЗО", f5 не умеет четко проговаривать. И еще, если клон голоса не очень, ни манера речи не похожа, ни интонации, есть смысл в файнтюне, например, 25 часов записей?
Существует такая проблема с аббревиатурами, это происходит из-за Out-of-Distribution (OOD), в обучающих данных было мало данных с аббревиатурами. Только если дополнительно дообучаит на таких примерах. Посмотрю, возможно в будущем дообучу на таких примерах.
В этом есть смысл, дообучение улучшит качество синтеза.
Еще есть проблема с цифрами, например, 17 не прочитывает. И везде, где в тексте будут встречаться цифры, будет не очень хорошо.
Для работы с числами нужна предобработка текста для синтеза. Числа, цифры были представлены в датасете, но этого недостаточно, часто будут галлюцинации.
Можно использовать LLM или открытые библиотеки для преобразования цифр/чисел в текст.
Подробнее можешь глянуть тут:
https://github.com/alphacep/awesome-russian-speech?tab=readme-ov-file
Примеры библиотек:
https://github.com/Den4ikAI/runorm
https://github.com/snakers4/russian_stt_text_normalization
https://github.com/shigabeev/russian_tts_normalization
- Существует такая проблема с аббревиатурами, это происходит из-за Out-of-Distribution (OOD), в обучающих данных было мало данных с аббревиатурами. Только если дополнительно дообучаит на таких примерах. Посмотрю, возможно в будущем дообучу на таких примерах.
Возможно можно добавлять в словарь сокращения и модель будет искать в словаре и менять словосочетание на нужное слово. Либо можно пред-обработкой такие случаи тоже вылавливать.
Привет, ты пробовал генерировать так "C.И.З.О" или "C. И. З. О"?
На этой странице указаны best practice для оригинальной модели https://github.com/SWivid/F5-TTS/tree/main/src/f5_tts/infer
"""
Use reference audio <12s and leave proper silence space (e.g. 1s) at the end. Otherwise there is a risk of truncating in the middle of word, leading to suboptimal generation.
Uppercased letters (best with form like K.F.C.) will be uttered letter by letter, and lowercased letters used for common words.
Add some spaces (blank: " ") or punctuations (e.g. "," ".") to explicitly introduce some pauses.
If English punctuation marks the end of a sentence, make sure there is a space " " after it. Otherwise not regarded as when chunk.
Preprocess numbers to Chinese letters if you want to have them read in Chinese, otherwise in English.
If the generation output is blank (pure silence), check for FFmpeg installation.
Try turn off use_ema if using an early-stage finetuned checkpoint (which goes just few updates).
"