Meta CEO'su Mark Zuckerberg, geçtiğimiz hafta Instagram kanalından yeni üretimsel yapay zeka modeli Voicebox'ı duyurdu. Metinden sese (text-to-speech) yapay zeka modellerinden farklı olarak Voicebox, bu konularda eğitilmediği halde düzenleme, gürültü giderme ve stil transferi dahil olmak üzere pek çok görevi yerine getirebiliyor.
Voicebox'ın öne çıkan özellikleri
Voicebox'a 2 ses ve metin örneği verdiğinize, ilk ses örneğini referans alarak ikinci ses örneğini ilk ses örneğine göre değiştirebilir. Aynı şekilde bu özellik, farklı dillerde de daha doğal bir konuşma ortaya koymak için kullanılabilir.
Kullanıcılar, Voicebox'ı ses düzenleme işlevleri için de tercih edebilir. Eğer ses kaydı esnasında arka planda bir köpek havlaması ya da bir eşyanın düşüşü gibi anlık bir gürültü yer alıyorsa, bunları silmeniz mümkün. Bunun için Voicebox'a ses dosyasını ve deşifre metnini (transkript) aktarmanız gerekiyor. Her iki girdiyi de değerlendiren Voicebox, deşifre metnini göz önünde bulundurarak arka plan sesini temizliyor.
Bu tekniği kullanarak konuşma kayıtlarını da düzenleyebileceğinizi belirtelim. Eğer yanlış telaffuz ettiğiniz bir kelime mevcut ise Voicebox, deşifre metnine dayalı olarak bu kısmı düzeltebiliyor. Eksik kısımlar yeni metin ile doldurulurken, üretilen sesin mevcut ses ve ton ile uyuşması sağlanıyor.
Bunlara ek olarak model, tek bir metin sekansından pek çok konuşma örneği üretebiliyor. Bu özellik sayesinde diğer konuşma işleme modellerini eğitmede kullanmak için sentetik veri üretimi gerçekleştirilebilir.
Modelin eğitilme süreci ve yöntemi
Meta'nın araştırma ekibinin aktardıklarına göre Voicebox, bağlam içi öğrenme yoluyla metin güdümlü konuşma oluşturma görevini yerine getirebilecek tek bir model üretme amacıyla ortaya çıkarıldı.
İngilizce, Fransızca, İspanyolca, Almanca, Lehçe ve Portekizce olmak üzere 6 dilde çalışabilen Voicebox, özel bir yöntem kullanarak eğitildi. Flow Matching tekniğini kullanan Meta yapay zeka ekibi, böylece diffusion tabanlı öğrenme yöntemlerine kıyasla daha genelleştirebilir ve daha verimli bir yöntemle karşımıza çıkıyor.
Flow Matching tekniği, modelin, çeşitli konuşma verilerinden, verilerin etiketlenmesine gerek kalmadan öğrenmesini sağlıyor. Bu sayede Meta yapay zeka ekibi, verileri fiili olarak etiketlemeye ihtiyaç duymadan, modeli, 50 bin saatlik konuşma ve sesli kitaplardan alınan deşifre metinleri üzerinde eğitmeyi başardı.
Kıyaslamak gerekirse; geniş dil modelleri (LLM) genel olarak kelimelerin ve metin sekanslarının istatistiksel düzenini öğrenmeye çalışırken, Voicebox, ses örneklerini deşifre metinleriyle eşleştiren kalıpları öğrenmek için eğitildi.
Temel olarak, eğitim esnasında modele bir ses örneği ve bu ses örneğine karşılık gelen metin veriliyor. Sonrasında sesin bazı kısımları maskeleniyor. Akabinde model, maskelenmiş kısmı oluşturmak için çevre sesini ve metni, bağlam olarak kullanıyor. Modelin bu işlemi defalarca tekrarlaması, metinden doğal bir konuşma üretmeyi öğrenmesini sağlıyor.
Bu arada model, sesli kitap verileriyle eğitildiği için gündelik ve sözel olmayan seslerin yer aldığı konuşmalarda çok iyi aktarım sağlanmıyor. Ses tarzı, tonu, duygusu ve akustiği gibi detaylarda tam kontrol sağlanması da pek mümkün olmuyor. Meta yapay zeka ekibi, önümüzdeki dönemde bu alanlarda iyileştirme yapılacağını dile getiriyor.
Şu an için söz konusu model, etik kaygılar nedeniyle herkese açık bir şekilde yayınlanmadı. Ortaya çıkan sonuçlar ise Voicebox'ın ilerleyen dönemde uygulamalara yeni bir özellik olarak eklenebileceğini gösteriyor.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap