Gerçek zamanlı ses deneyimleri sunan yapay zeka platformu: Cartesia

Düşük gecikmeli ses işleme platformu Cartesia, 40 ms’de ses üretimi ve 66 ms’de transkript tamamlama süresiyle öne çıkıyor.
Gerçek zamanlı ses deneyimleri sunan yapay zeka platformu: Cartesia

Cartesia, geliştiricilerin gerçek zamanlı ses ajanları ve ses odaklı uygulamalar geliştirmesini hızlandıran bir platform olarak konumlanıyor. Girişim, düşük gecikmeli metinden sese dönüştürme (text-to-speech, TTS) ve konuşmadan metne dönüştürme (speech-to-text, STT) modelleri ile birlikte, bu modellerin üzerine kurulu Line adlı kod odaklı bir ajan geliştirme katmanı sunuyor. Cartesia, telefon görüşmelerinden müşteri hizmetlerine, satış otomasyonundan yerelleştirmeye kadar pek çok senaryoda insan benzeri, anlık konuşma deneyimleri sağlamayı hedefliyor. Platform, Türkçe dahil 15 dilde doğal konuşma ve aksan yerelleştirmesi desteği veriyor.

Cartesia’nın TTS tarafındaki amiral gemisi Sonic, metinden sese geçerken ilk süre değerini 40 ms’ye kadar düşürerek akış tabanlı üretken ses üretiminde hız rekoru hedefliyor. Bu hız, karşılaştırmalı ölçümlerde de öne çıkarılıyor ve gerçek zamanlı diyaloglarda kullanıcı deneyimini akıcı hale getiriyor. Doğal tını, doğru telaffuz ve içerik bağlamını gözeten ses üretimi öne çıkan özellikler arasında yer alıyor. Cartesia, numara, adres, kimlik gibi detayların doğru okunmasına özel önem verdiğini vurguluyor.

STT tarafında Ink-Whisper, gerçek dünyadaki gürültü, aksan ve ses sıkıştırması gibi zorlayıcı şartlarda hızlı ve okunaklı transkripsiyon sağlamak üzere geliştiriliyor. Cartesia’nın paylaştığı verilere göre, transkriptin tamamlanma süresi 66 ms’ye kadar düşüyor. Ayrıca platform, LiveKit ve Vapi gibi ses altyapılarıyla doğrudan entegrasyon kurabiliyor. 

Sonic ve Ink çekirdek modellerinin yanı sıra Line, modern ses ajanı geliştirme platformu olarak tanıtılıyor ve sıfırdan ilk ajana giden süreci tamamen kod yazarak yönetmeye odaklanıyor. Line, çoklu prompt yapılandırması, bilgiye ve eyleme erişen araçlar, paralel çalışan arka plan ajanları, GitHub entegrasyonu, komut satırı arayüzü (CLI), gözlemlenebilirlik ve yerleşik değerlendirme çerçevesi (framework) gibi bileşenler sunuyor. Tek tıkla konuşma testi, telefonla canlı denemeler, çağrı metrikleri ve LLM temelli çağrı analizleriyle iş akışlarını hızlandırmayı hedefliyor.

Güvenlik ve kurumsal gereksinimlerde platform, SOC 2 Type II, HIPAA ve PCI uyumluluğu ile öne çıkıyor. Dağıtımda esneklik sağlamak için güvenli API, kuruluşun sanal özel bulutu içinde yönetilen kurulumlar ve yerinde barındırma seçenekleri sunuluyor. Bu sayede regülasyon, veri yerleşimi ve güvenlik ihtiyaçları karşılanıyor. 

Cartesia’nın fiyatlandırmasında ücretsiz planda 20 bin kredi, Pro aylık 5 dolar ile 100 bin kredi, Startup 49 dolara 1,25 milyon kredi, Scale 299 dolara 8 milyon kredi sunuyor. TTS için karakter başına 1 kredi ve akışta saniye başına 15 kredi, Ink-Whisper STT için ölçek planında saniye başına 1 kredi yani saatlik yaklaşık 0,13 dolar uygulanıyor. Line çağrıları dakika bazında ücretleniyor, eşzamanlılık limitleri üst planlarda yükseliyor. Ses klonlama yetenekleri planlara göre açılıyor, Enterprise tarafı özel fiyat ile sunulurken, bu planda özel eşzamanlılık ve SLA sağlanıyor.

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.