Google DeepMind'dan 70'ten fazla dilde aksan ve ton kontrolü sunan yeni ses modeli: Gemini 3.1 Flash TTS

Google DeepMind'ın yeni TTS modeli Gemini 3.1 Flash, ses tonu, aksan ve hız kontrolüyle 70'ten fazla dilde doğal konuşma deneyimi sunuyor.
Google DeepMind'dan 70'ten fazla dilde aksan ve ton kontrolü sunan yeni ses modeli: Gemini 3.1 Flash TTS

Google'ın yapay zeka birimi DeepMind yeni metinden sese dönüştürme modeli Gemini 3.1 Flash TTS'i kullanıma sundu. Şirketin belirttiğine göre; önceki robotik modellerin aksine, bu model, kullanıcıların metin tabanlı komutlar aracılığıyla sohbet robotunun yanıtlarının ses stilini, sunumunu ve hızını yönlendirmelerine imkan tanıyor. 

Ayrıca Gemini 3.1 Flash TTS, modelin çıkardığı sesi kontrol etmek için, ses tonunu ve vurgusunu uyarlayabilen gelişmiş seçenekler sunuyor. Seçenekler arasında hevesli, olumlu sürpriz ve bilgilendirici yer alıyor. Buna ek olarak, model kullanıcıların çeşitli ana dillerin farklı bölgesel aksanlarını seçmesini de sağlıyor. 

Bu özelliklerin yanı sıra kullanıcılar, sağlayan Gemini 3.1 Flash TTS’nin yönetmen düzeyindeki kontrollerini kullanarak modelin konuşma stilini ve hızını ayarlayabiliyor. Ayrıca, kullanıcıların seçebileceği format şablonları da mevcut. Bu formatlar arasında podcast sohbeti, sesli kitap anlatıcısı, dil öğretmeni, sesli asistan, sağlık rehberi, haber spikeri ve destek temsilcisi stilleri yer alıyor. Google'ın belirttiğine göre; kullanıcılar, ortamı tanımlayarak ve belirli diyalog talimatları vererek diledikleri sahneyi hazırlayabilecek. Aynı şekilde kullanıcıların bu ayarları uygulama programlama arayüzü kodu olarak dışa aktarabileceğini de belirtelim. 

Gemini 3.1 Flash TTS, daha doğal sesli konuşma deneyimleri sunmayı amaçlıyor. Şirketin ifadesine göre; model, Japonca, Hintçe ve Almanca dahil olmak üzere 70'ten fazla dilde daha doğal sesli konuşma deneyimleri üretebiliyor. Bu arada modelin tüm çıktılarında SynthID filigranlarına sahip olduğunu belirtelim. Böylece Gemini 3.1 Flash TTS tarafından üretilen içerikler kolayca tespit edilebiliyor. 

Model, Artificial Intelligence TTS liderlik tablosunda 1211 puanla genel sıralamada ikinciliğe yerleşerek diğer birçok popüler metinden sese dönüştürme modelini geride bıraktı. Geliştiriciler bu modele şu anda Gemini API ve Google AI Studio üzerinden erişebiliyor. İşletmeler, Vertex AI platformu üzerinden kullanıcılar iseGoogle Vids üzerinden Gemini 3.1 Flash TTS'i deneyebilir.

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.