Microsoft, hareketsiz bir fotoğraf yüklemeyi, bir ses örneği eklemeyi ve gerçek kişi gibi görünen ve ses çıkaran videolar oluşturmayı mümkün hale getiren yapay zeka aracı VASA-1'i tanıttı. VASA-1, portre tarzında tek bir görüntü ve bir ses dosyasını alıp bunları birleştirerek gerçekçi yüz ifadeleri, kafa hareketleri ve hatta yüklenen sesle şarkı söyleyebilen konuşan bir kafanın kısa bir videosunu oluşturabiliyor.
Microsoft, VASA-1'in şu anda yalnızca bir araştırma projesi olduğunu, bu nedenle başkalarının kullanımına sunmadığını söylese de araca dair ilgi çekici videolar yayınladı. Şirket, yeni aracın özellikle sanal karakterleri canlandırmak amacıyla tasarlandığını ve bu nedenle örneklerindeki tüm bireylerin sentetik olduğunu ve OpenAI'ın DALL-E görüntü oluşturma modeli kullanılarak oluşturulduğunu söyledi.
Demo videoda, konuşan kafalar pürüzsüz, doğal görünümlü hareketlerle filme alınmış gerçek bireyler gibi görünüyor. Dudak senkronizasyonu yetenekleri özellikle etkileyici ve doğal olmayan hareketleri fark etmek çok zor diyebiliriz. VASA-1'in çalışması için geleneksel, yüzü öne dönük, pasaport veya portre tarzı bir görüntüye ihtiyaç duymaması da etkileyici. Örneklerde kafaların biraz farklı yönlere baktığı çekimler mevcut ve model ayrıca göz bakış yönü, baş mesafesi ve hatta duygusal ifadeler gibi şeyleri girdi olarak kullanarak gerçekçiliğe katkıda bulunan yüksek düzeyde bir kontrol sunuyor.
Microsoft'un yeni teknolojisi ilgi çekici olsa da deep fake videolar yaratanların dikkatini çekip kötüye de kullanılabilir. Şirketin bu aracı şu anda başkalarının kullanımına açmak istememesinin nedeni bu olabilir.