Alibaba Group, yeni yapay zeka aracını tanıttı. Emote Portrait Alive (EMO) olarak adlandırlan yapay zeka aracı, herhangi bir fotoğrafı videoya dönüştürürken bu videoları seslendirebiliyor. Yapay zeka aracı, fotoğraflardaki insanları istenilen sese uygun ağız hareketleriyle birlikte konuşturabiliyor.
EMO, videoda kullanılacak ses kaynağına göre konuşmanın hızını otomatik olarak ayarlayabilme özelliğine sahip. Bu sayede, jestler ve mimikler daha tutarlı bir şekilde videoda yer alıyor.
Uzmanlar, bu özelliklere sahip yapay zeka aracının iki bileşenden oluştuğunu vurguluyor. Bu kısımlardan ilki, görseli tanımlayarak bir referans görselden hareketli kareler oluşturuyor. Diğeri ise ses dosyasını analiz ederek önemli noktaları belirliyor. Sonrasında, bu önemli noktalar ile görseller eşleştirilerek bir video oluşturuluyor.
Araştırmacılar, EMO'nun eğitimini gerçekleştirmek için çok çeşitli kaynaklardan derlenen 250 saatten fazla konuşma videosunu içeren geniş bir veri seti kullandılar. Bu veri seti, konuşmalar, filmler, televizyon şovları ve şarkı performansları gibi çeşitli kaynaklardan elde edildi.
Yapılan deneylerde, EMO'nun video kalitesi ve ifade zenginliği gibi ölçütlerde diğer yöntemlere kıyasla belirgin bir şekilde daha iyi performans gösterdiği bulundu. Ayrıca kullanıcı çalışmaları da EMO'nun ürettiği videoların diğer sistemler tarafından üretilenlere göre daha doğal ve duygusal olduğunu ortaya koydu.
Yapay zeka sektörü dünyanın önde gelen teknoloji şirketi bu alanda rekabet ediyor olsa da bu tür teknolojilerin kötüye kullanımıyla ilgili endişeler bulunuyor. Bu yüzden araştırmacılar, sentetik videoların tespiti ve kötüye kullanımını önlemek için çözümler geliştirme konusunda çalışmalarına devam ediyor.
EMO ile ilgili örnek videolara buradan göz atabilirsiniz.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap