Google'ın yeni büyük/geniş dil modeli VideoPoet, Google Research ekibindeki 31 araştırmacı tarafından üretildi. Video üretimi görevlerini yerine getirmek için tasarlanan VideoPoet'i, Google'ın yeni çok modlu yapay zeka video oluşturucusu olarak tanımlayabiliriz.
Difüzyon modeli yerine dönüştürücü mimarisi
Google Araştırma ekibi, genellikle yapay zeka destekli video araçlarında gördüğümüz üzere Stable Diffusion gibi bir difüzyon modeli kullanmak yerine, bir büyük/geniş dil modeli kullanmaya karar verdi. Büyük/geniş dil modelleri, metin ve kod üretimi için kullanılan dönüştürücü mimarisine dayalı farklı bir yapay zeka modeli türü olarak konumlanıyor. Büyük/geniş dil modellerini genellikle ChatGPT, Claude 2 veya Llama 2 gibi ürünlerde görmekteyiz.
Google Araştırma ekibi ise söz konusu modeli, metin ve kod üretmesi için eğitmek yerine video üretmesi için eğitti. Ekip, VideoPoet büyük/geniş dil modelini 270 milyon videonun yanı sıra internetteki kamuya açık diğer kaynaklardan gelen 1 milyardan fazla metin ve görüntü çifti üzerinde ön eğitime tabi tuttu. Bu bağlamda ekip, özellikle bu verileri, yapay zeka modelinin koşullandırıldığı metin yerleştirmeleri, görsel belirteçler ve ses belirteçlerine dönüştürdü.
Daha uzun videolarda daha büyük ve daha tutarlı hareketler
Ekibin difüzyon modeli yerine dönüştürücü modeli kullanması, daha uzun ve daha yüksek kaliteli video kesitleri oluşturmasını sağlayabilir. Zira difüzyon modellerinde videodaki öznelerin hareketleri birkaç kareden sonra bozulmaya başlıyor. Ekip üyelerinden Dan Kondratyuk ve David Ross paylaştıkları blog gönderisinde şu ifadeyi kullanıyor:
"Birçok durumda, mevcut lider modeller bile ya küçük hareketler üretiyor ya da daha büyük hareketler üretirken gözle görülür yapaylıklar sergiliyor."
Paylaşılan bilgilere göre; VideoPoet ise 16 karelik daha uzun videolarda daha büyük ve daha tutarlı hareketler üretebiliyor. Buna ek olarak VideoPoet'in daha geniş bir yetenek yelpazesine sahip olduğunu belirtelim. Bu yeteneklere; farklı kamera hareketlerini, farklı görsel ve estetik stilleri simüle etmek de dahil.
Hatta VideoPoet ile seçtiğiniz bir video kliple eşleşecek yeni sesler oluşturmak da mümkün. Ayrıca üretim sürecinde metin, resim ve video gibi çeşitli girdileri yönlendirici olarak kullanabileceğinizi de ekleyelim.
Diğer yapay zeka video üretim araçlarından farklı olarak VideoPoet, dikey video üretimiyle de öne çıkıyor. Google Research ekibi ilerleyen dönemde VideoPoet'in yeteneklerini genişleterek, metinden sese ve sesten videoya dönüştürme gibi seçenekler kapsamında herhangi bir kategorideki girdinin herhangi bir başka kategorideki çıktıya dönüştürmesini hedefliyor.
Şu an için VideoPoet'in genel kullanıma açık olmadığını belirtmekte fayda var. Şimdilik ekip, ürünün ne zaman kullanıcılarla buluşacağına dair bir açıklama yapmaktan kaçınıyor.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap