OpenAI'ın API'ı yeni ses zekası özelliklerine kavuştu. Böylece geliştiriciler, kullanıcılarla konuşabilen, konuşmaları metne dönüştürebilen ve çevirebilen uygulamalar oluşturabilecek.
Şirketin yeni ses modeli GPT-Realtime-2, kullanıcılarla sohbet edebilen gerçekçi bir ses simülasyonu oluşturmak üzere geliştirildi. GPT-Realtime-1.5'ten farklı olarak bu model, GPT‑5‑sınıfı akıl yürütme ile oluşturuldu. OpenAI'ın belirttiğine göre; GPT‑5‑sınıfı akıl yürütme, kullanıcıların daha karmaşık isteklerini karşılamak için geliştirildi. OpenAI, GPT-Realtime-2’nin sesli akıl yürütme benchmark’larında GPT-Realtime-1.5’e göre ciddi performans artışı sağladığını belirtiyor. Şirketin aktardığına göre model, Big Bench Audio testlerinde yüzde 15,2 daha yüksek skor elde etti.

GPT-Realtime-2’nin bağlam penceresi 32K’dan 128K’ya çıkarıldı. Bu sayede model, daha uzun ve karmaşık sesli oturumlarda bağlamı koruyabiliyor. Model artık aynı anda birden fazla araç çağrısı yapabiliyor. Örneğin “takvimi kontrol ediyorum” veya “şimdi bunu araştırıyorum” gibi ara geri bildirimlerle kullanıcıya süreç hakkında bilgi verebiliyor.
Buna ek olarak şirket, GPT‑Realtime‑Translate'i de piyasaya sürüyor. GPT‑Realtime‑Translate, kullanıcıyla konuşma sırasında aynı hızda ilerleyen gerçek zamanlı çeviri hizmetleri sunmak üzere tasarlandı. Bu özellik, 70'ten fazla dili anlayabilirken, konuşmacıya 13 dilde destek sunuyor. GPT-Realtime-Translate yalnızca çeviri yapmakla kalmıyor; eş zamanlı transkripsiyon da üretiyor. Böylece kullanıcı hem çeviriyi duyabiliyor hem de metin çıktısını görebiliyor.
Bu modellerin yanı sıra OpenAI, yeni bir transkripsiyon özelliği olan GPT-Realtime-Whisper'ı da piyasaya sürdü. GPT-Realtime-Whisper, etkileşimler esnasında canlı konuşma-metin dönüştürme yetenekleri sunuyor. Tüm yeni ses modelleri OpenAI’ın Realtime API’sine dahil edildi. GPT-Realtime-Whisper tarafında OpenAI, modelin özellikle toplantı notları, canlı altyazı, yayınlar ve müşteri destek süreçleri için düşük gecikmeli transkripsiyon sunduğunu ifade ediyor.
Translate ve Whisper dakika bazında faturalandırılırken, GPT-Realtime-2 ise token tüketimi üzerinden faturalandırılıyor. GPT-Realtime-2’nin ses girdi tokenları için 1 milyon token başına 32 dolar, ses çıktısı için ise 64 dolar ücretlendirmeye sahip olduğu belirtiliyor.
OpenAI yaptığı açıklamada şu ifadelere yer verdi:
Birlikte piyasaya sürdüğümüz modeller, gerçek zamanlı sesi basit bir soru-cevap formatından, konuşma ilerledikçe dinleme, akıl yürütme, çeviri, transkripsiyon ve eylem gerçekleştirme gibi işlevleri yerine getirebilen sesli arayüzlere taşıyor.
OpenAI, yeni özelliklerinin eğitim, medya, etkinlikler ve içerik üretici platformları gibi çok çeşitli alanlarda da yardımcı olacağını belirtiyor. Şirket, yeni özelliklerinin spam ve dolandırıcılık gibi çevrimiçi suistimal biçimleri yaratmak için kötüye kullanılmasını önlemeyi de planlıyor. Bu amaçla koruma önlemleri oluşturduğunu açıklayan OpenAI, zararlı içerik kurallarını ihlal ettiği tespit edilen konuşmaların durdurulabilmesi için sisteme belirli tetikleyiciler yerleştirildiğini ifade etti.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap