Meta dün paylaştığı bir blog gönderisi ile betimlemeye dayanan yeni yapay zeka destekli video aracı Make-A-Video'yu duyurdu. Hatırlarsanız Meta ilk olarak 14 Temmuz'da yaptığı bir açıklama ile yapay zeka desteklei görsel üretimi üzerine çalıştığını ifade etmişti. Make-A-Video da bu çalışmanın bir parçası olarak karşımıza çıkıyor.
Make-A-Video ile betimleyerek kendi videolarınızı oluşturabildiğiniz gibi, tek bir görüntüye hareket eklemeniz mümkün. Aynı şekilde iki görüntü arasına hareket ekleyerek bütünsel bir anlatım yakalayabiliyorsunuz.
Bunların yanı sıra orijinal videonuza varyasyon eklemek için Make-A-Video'dan faydalanabilirsiniz. Ancak şu an için videoların düşük netliğe sahip olduğunu belirtmekte fayda var. Yaklaşık bir kaç saniyelik videolar, anlık bir görüntünün size göz kırpması gibi bir izlenim yaratıyor.
Make-A-Video teknolojisi
Make-A-Video'nun arkasındaki sistem, eşlenmiş metin - görsel verisinden kelimelerin nasıl göründüğünü ve metinle ilişkili olmayan kısımda dünyanın video çekimlerinde nasıl göründüğünü öğreniyor. Make-A-Video'yu desteklemek için WebVid-10M ve HD-VILA-100M veri setlerinden faydalanıldığını da belirtelim. Bu veri setlerinde eşlenmiş metin - görsel verisinin yanı sıra etiketlenmemiş videolar ve Shutterstock gibi sitelerden çekilmiş videolar yer alıyor.
Make-A-Video projesi, Make-A-Scene'in devamı niteliğinde. Şirket, yayınladığı araştırma makalesinde çalışma prensibinin detaylarını sunuyor.
Teknik zorluklar
Şu an için kısa bulanık görüntülerin ötesinde bazı teknik zorluklar da mevcut. Eğitim yöntemleri kapsamında yapay zeka, yalnızca bir video izleyen bir insan tarafından çıkarılabilecek bilgileri öğrenemiyor. Örnek vermek gerekirse, sallanan bir elin videosunun soldan sağa mı yoksa sağdan sola mı gittiği Make-A-Video'nun şu an için öğrenebileceği bir bilgi değil.
Buna ek olarak Make-A-Video, 5 saniyeden uzun videolar üretemiyor. Make-A-Video ile Birden fazla sahne ve olay içeren video üretmek de şu an için söz konusu değil. Make-A-Video ile üretilen videolar 64 x 64 piksel çözünürlüğünde ve 16 kareden oluşuyor. Bu çıktıyı başka bir yapay zeka modeli kullanarak 768 x 768 piksel çözünürlüğüne yükseltmek mümkün.
Bu arada Meta, betimlemeye dayalı yapay zeka destekli video aracı üzerinde çalışan tek kurum değil. Tsinghua Üniversitesi ve Pekin Yapay Zeka Akademisi (BAAI) CogVideo çalışmasını yayınladı.
DALL-E ve Midjourney gibi araçların sanat üretimini nasıl etkileyeceği geçtiğimiz aylarda yoğun bir şekilde tartışıldı. Görünen o ki; betimlemeye dayalı yapay zeka destekli video araçları da bu tartışmada kendine yer bulmaya başlayacak. Sanat ve betimlemeye dayalı yapay zeka araçları konusunda daha detaylı bir okuma için UCLA'de akademik çalışmalarına devam eden sanatçı Güvenç Özel ile yaptığımız röportajı inceleyebilirsiniz.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap