Canlı, ifadeli ve duygusal açıdan zengin bir yazıdan konuşmaya modeli olan Fish Audio; kurucularının iddia ettiği üzere en gerçekçi şekilde ritim ve nüansı yakalayan, canlı gibi duran sesler üretiyor. Fish Audio ses klonlama ise 10 saniyeye kadar inebilen bir ses girdisiyle doğala yakın bir klon oluşturabiliyor. Bunu yaparken de aksanı, tonu ve konuşma alışkanlıklarını korumaya özen gösteriyor. Aracın So-VITS-SVC ve Bert-VITS2’nin arkasındaki açık kaynak ekibi tarafından üretildiği belirtiliyor.

Aracı kullanmak için fish.audio adresine gitmeniz ve bir hesap oluşturmanız yeterli. Aracın yazıdan konuşmaya özelliğine siteye halihazırda yüklenmiş sesleri kullanarak veya yeni bir ses klonlayarak erişebiliyorsunuz. Yüklenmiş ses dosyaları arasında İngilizce, Çince, Almanca, Japonca, Fransızca, İspanyolca, Korece ve Arapça bulunuyor. Dilerseniz kendi ses dosyanızı yükleyerek ya da sesinizi kaydederek ses klonlamaya başlayabilirsiniz.
Araca Türkçe ses girdisi sunduğunuzda hafif bir aksan ve inceltmeleri okuyamama gibi bir sorunla karşılaşabilirsiniz. Ancak şiirsel ve melankolik bir ses girdisi sunduğum aracın ses klonu oluştururken sonradan verdiği metnin de aynı tonda olmasının güzel bir sürpriz olduğunu vurgulayayım. Yani girdinizin anlamını ve sesinizin tonunu iyi yakalayabildiğini metinden görebilirsiniz ancak ses klonlarken çok da pürüzsüz bir çıktı sunulmuyor. Ancak bu pürüz İngilizce girdi sunduğumda ortadan kayboldu. Örnek metni kullanarak kaydettiğim ses; 10 saniye kadar kısa bir sürede benimkine çok yakın bir ton, ses ve aksan oluşturdu. Daha yüksek bir yakınlık için ise 90 saniyeye varan bir dosya veya ses kaydı oluşturabilirsiniz. Aracın ses modelleri arasında S1, V1.6 Control Beta ve V1.5 bulunuyor.

Metinden konuşmaya özelliğini kullanmak için belirli bir ses seçtikten sonra duygusal, tonsal ve özel eklemelerde bulunabiliyorsunuz. Metnin içine ekleyebileceğiniz bu özellikler konuşmadaki tonu ve duygu değişikliklerini vermek üzere tasarlanmış durumda. Ancak kendi denemelerimde aradığım kadar dramatik değişimlere rastlamadım. Bir ihtimal bu, konuşmanın belirli bir ton ve stabilite üzerine inşa edilmesinden; bir ihtimal ise ücretsiz versiyondan kaynaklanıyor olabilir. Ancak diğer kullanıcıların oldukça etkili sesler oluşturduğunu da belirtmekte fayda var.

Aracın ücretsiz sürümünde 8 bin krediye erişiminiz mevcut. Plus planında tek çekim yıllık 132 dolar olmak kaydıyla aylık 11 dolara veya aylık 15 dolara ayda 200 dakikalık S1 oluşturma, 400 dakikalık v1.5 ya da v1.6 oluşturma, her bir oluşturma başına 15 bin karakter, gelişmiş ses klonlama, ticari kullanım hakkı, aylık 250 bin kredi ve API erişimi kazanıyorsunuz.

Pro planında ise tek çekim yıllık 900 dolar olmak üzere aylık 75 dolara ya da aylık 100 dolara ayda 27 saatlik S1 oluşturmaya, 54 saatlik v1.5 ya da v1.6 oluşturmaya, oluşturma başına 30 bin karaktere, gelişmiş ses klonlamaya, ticari kullanım hakkına, aylık 2 milyon krediye ve API erişimine ulaşmanız mümkün.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap