Amazon yeni yapay zeka ses modeli Nova Sonic'i tanıttı. Nova Sonic, sesi yerel olarak işleyebiliyor ve kulağa doğal gelen konuşmalar üretebiliyor. Amazon Nova Sonic için birleşik bir model mimarisi kullandığını ifade ediyor. Amazon'un belirttiğine göre; Sonic'in performans hızı, konuşma tanıma ve konuşma kalitesini ölçen kıyaslamalarda OpenAI ve Google'ın öncü ses modelleriyle rekabet edebilecek düzeyde.
Nova Sonic, Amazon'un kurumsal yapay zeka uygulamaları geliştirmeye yönelik geliştirici platformu Bedrock üzerinden, yeni bir çift yönlü akış API'si aracılığıyla kullanılabilir. Amazon'un açıklamasına göre; Nova Sonic piyasadaki en uygun maliyetli yapay zeka ses modeli olarak konumlanıyor. Bu bağlamda modelin OpenAI'ın GPT-4o'sundan yaklaşık yüzde 80 daha ucuz olduğu belirtiliyor.
Amazon Kıdemli Başkan Yardımcısı ve AGI Baş Bilim İnsanı Rohit Prasad'ın ifadesine göre Nova Sonic'in bileşenleri halihazırda Amazon'un yükseltilmiş dijital ses asistanı Alexa+'ı destekliyor. Hatta Nova Sonic, Amazon'un Alexa'yı oluşturan teknik iskele olan büyük orkestrasyon sistemleri konusundaki uzmanlığına dayanıyor. Alexa+'ın yemek siparişi verme ve uçuş rezervasyonu yapma gibi eylemleri otomatik olarak gerçekleştirebildiğini hatırlatalım. Üstelik Alexa+, gerektiğinde, bu görevleri yerine getirmek için üçüncü taraf uygulamalarla etkileşime girebiliyor.
Prasad'ın paylaştığı bilgilere göre; rakip yapay zeka ses modelleriyle karşılaştırıldığında, Nova Sonic, kullanıcı isteklerini farklı API'lere yönlendirmede üstün. Bu yetenek sayesinde Nova Sonic, internetten gerçek zamanlı bilgi alması, özel bir veri kaynağını ayrıştırması veya harici bir uygulamada işlem yapması gerektiğinde bunu biliyor ve görevi yerine getirmek için uygun aracı kullanabiliyor.
Amazon'un paylaştığı bilgilere göre; Nova Sonic, iki yönlü bir diyalog sırasında konuşmacının duraklamalarını ve araya girmelerini dikkate alarak “uygun zamanda” konuşmak için bekliyor. Hatırlarsanız OpenAI da ChatGPT'nin Gelişmiş Ses Modu ile daha akıcı konuşmalar gerçekleştirilebilmesi için güncellemeler gerçekleştirmişti. Ayrıca Nova Sonic'in kullanıcının konuşması için, geliştiricilerin çeşitli uygulamalar için kullanabileceği bir metin transkripti de oluşturduğunu belirtelim.
Amazon'un açıklamasına göre Nova Sonic, diller ve lehçeler arasında konuşma tanımayı ölçen bir kriter olan Çok Dilli LibriSpeech'te, İngilizce, Fransızca, İtalyanca, Almanca ve İspanyolca'da ortalama olarak yalnızca yüzde 4,2'lik bir kelime hata oranı (WER) elde etti. Yani modelden elde edilen her 100 kelimeden yaklaşık dördü, bu dillerdeki insan transkripsiyonundan farklı.
Nova Sonic, Artırılmış Çok Taraflı Etkileşimde OpenAI'ın GPT-4o-transcribe modeline kıyasla kelime hata oranı açısından yüzde 46,7 daha doğru. Nova Sonic'in ayrıca 1,09 saniyelik ortalama algılanan gecikme süresine sahip olduğunu belirtelim. Amazon modelin bu gecikme süresiyle sektör lideri bir hıza sahip olduğuna dikkat çekiyor. Artificial Analysis kıyaslamasına göre OpenAI'ın Realtime API'sine güç veren GPT-4o modeli1,18 saniyede yanıt veriyor.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap