Daha önce ChatGPT ve Bing Chat'e gelen DALL-E 3 şimdi de API üzerinden geliştiricilerle buluşacak. OpenAI'ın belirttiğine göre; DALL-E 3 API, ürünün kötüye kullanılmasına önlem olarak yerleşik moderasyon içermekte.
DALL-E 3 API neler sunuyor?
DALL-E 3 API, görseller için farklı format ve kalite seçenekleri sunuyor. Bununla beraber çözünürlükler 1024 × 1024 ile 1792 × 1024 aralığında değişkenlik gösterebiliyor. Üretilen görsel başına ücretlendirmeler ise 0.04 dolardan başlıyor.
DALL-E 3 API'ını, DALL-E 2 API'ından farklı olarak mevcut görüntülerin düzenlenmiş versiyonlarını oluşturmak için kullanamıyorsunuz. Yani önceden var olan bir görüntünün bazı alanlarını değiştirmek mümkün değil. Aynı şekilde mevcut bir görüntünün farklı varyasyonlarını da oluşturamıyorsunuz.
Audio API neler sunuyor?
Bununla beraber, OpenAI, Audio API'ı da tanıttı. Audio API, Alloy, Echo, Fable, Onyx, Nova ve Shimer olmak üzere aralarından seçim yapabileceğiniz altı ses ve iki üretken yapay zeka modeli varyasyonu sunuyor. Dünden itibaren yayına alınan Audio API, 1.000 karakter girdisi başına 0,015 dolardan başlayan fiyatlarla kullanıcılara açılıyor.
Audio API kapsamında, üretilen seslerin duygu derinliğini kontrol etmek için herhangi bir seçenek sunulmuyor. Yine de Audio API'ın dokümantasyonunda yer alan bilgilere göre, büyük harf kullanımı ya da metnin gramer yapısı, üretilen seslerin yapısına etki edebiliyor.
Audio API kullanan geliştiriciler, seslerin yapay zeka tarafından üretildiğini kullanıcılara bildirmek durumunda. Buna ek olarak OpenAI'ın açık kaynaklı konuşma tanıma modeli Whisper large-v3'ün bir sonraki modelini piyasaya sürdüğünü belirtelim. Modelin lisansına GitHub üzerinden erişebiliyorsunuz.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap