Türkçe ses sorunu
Arkadaşlar herkese merhaba. Öncelikle bu model için emeği geçen herkese teşekkür ederim. F5-TTS reposundaki(https://github.com/SWivid/F5-TTS) her adıma uyarak kurulumu yaptım. Aşağıdaki görseldeki gibi gradio arayüzünden giriş yapabiliyorum:
İngilizce dilinde gayet iyi çalışıyor zaten. Fakat yine aşağıdaki fotoğrafta görüldüğü üzere Türkçe model ve vocabı ekliyorum ve çıktı olarak gelen sesin Türkçe ile alakası olmuyor.
Daha iyi fikir vermesi açısından konsol çıktımı da ekliyorum, kod modeli görüyor gibi:
Ekstra bir ayar değişikliği vesaire de yapmadım. Sadece Advanced Settingsten NFE değerini 64 yaptım. Sorun ne olabilir?
Bir yerde muhakkak bir yanlış yapıyorum, daha önce kurulumu başarıyla yapıp test etmiş birisi yardım edebilirse gerçekten çok memnun olurum.
Ekran kartım Nvidia. Pytorch da kurulu bir sıkıntı yok. FFmpeg de yüklü. Ayrıca cmdde bir hata almıyorum, sadece çıktı olan ses kötü çalışıyor.
Akşama doğru deneyeceğim, yine olmazsa yardımcı olur musun?
Tamamdır, yarın en kısa sürede deneyip burayı güncelleyeceğim. Bu sorunu yaşayan arkadaşlara da iyi bir cevap olmuş olur.
Aynı sorunu bende yaşıyorum. İngilizce de hiçbir sorun yok ancak iş Türkçe ye gelince sonuç çok alakasız bir şey oluyor. Oluşturduğum sesin tonu iyi ancak söylenenlerin Türkçe ile alakası yok. Kurulumda hata yok. Bu modeli lokale alıp çalıştırdım o da çözüm olmadı. Çözüm önerisi var mı?
Aynı sorunu bende yaşıyorum. İngilizce de hiçbir sorun yok ancak iş Türkçe ye gelince sonuç çok alakasız bir şey oluyor. Oluşturduğum sesin tonu iyi ancak söylenenlerin Türkçe ile alakası yok. Kurulumda hata yok. Bu modeli lokale alıp çalıştırdım o da çözüm olmadı. Çözüm önerisi var mı?
çözebildin mi dostum aynı
sorun var
Seste hata var.
claud ai ile kendi gradio arayüzümü kodlattım, model ve vocab dosyalarını da local harddiskten çağırarak çalıştırabildim. Biraz uğraştırdı aancak hallettim. LAkin şu var, sesi klonlama iyi ancak Türkçe telaffuzlar kötü. Uzun metinlerde baya sıkıntı oluyor telaffuz durumu. Bir ya da iki cümlelik kısa ses üretiminde telaffuzu sorunlu olan kelimeyi başka bir kelime ile değiştirerek telaffuz sorununu çözebilirsin.
MODEL_CFG = dict(
dim=1024,
depth=22,
heads=16,
ff_mult=2,
text_dim=512,
conv_layers=4
)
bu değerleri kullanıyorum. Bunlar değişince saçmalıyor TTS.