OpenAI'ın DALL-E'nin yeni bir sürümünü oluşturduğunu sizlere aktarmıştık. DALL-E 2, orijinal sistemin daha yüksek çözünürlüklü ve daha düşük gecikme süreli bir versiyonu olarak karşımıza çıkmıştı. Bilmeyenler için DALL-E 2'nin kullanıcılar tarafından yazılan açıklamaları gösteren resimler ürettiğini belirtelim.
DALL-E 2 ve Midjourney gibi yapay zeka araçlarının varlığı, sanat üretimi konusunda da tartışmaları beraberinde getiriyor. Hatta tanınmış mimar, tasarımcı ve sanatçı Güvenç Özel ile yaptığımız bir söyleşide hem bilinçli tasarım kavramını hem de sanatın yapay zeka destekli betimlemelerle icra edilmesi nedeniyle plastik sanatlarla edebiyatın birleşmesine dair konuları detaylandırmıştık.
Stable Diffusion Dall-e 2'ye açık kaynaklı bir alternatif
Tıpkı Dall-e 2'de olduğu gibi Stable Diffusion da metinler ile yaptığınız betimlemeleri görsellere dönüştürüyor. Emad Mostaque tarafından kurulan Stability AI'ın bir üretimi olan Stable Diffusion, geçtiğimiz hafta araştırmacılara açıldığını duyurdu. Ekip, ürünü herkese açmanın ilk aşaması olarak tanımlıyor. Bu noktada Stable Diffusion Dall-e 2'ye açık kaynaklı bir alternatif olarak konumlandığını belirtelim. Stable Disffusion kodunu Github'da incelemeniz mümkün.
Modelleme süreci, Runway'den Patrick Esser ve LMU Münih'teki Machine Vision & Learning araştırma grubundan Robin Rombach tarafından yönetildi. Ekip, CVPR'22'de Latent Difüzyon Modelleri üzerindeki önceki çalışmalarını ve Eleuther AI, LAION ve Stability AI'ın kendi üretken yapay zeka ekibindeki toplulukların desteğini temel aldı.
CompVis ve Runway ekipleri, kullandıkları latent difüzyon modelleri (Latent Diffusion Models), Stability AI'ın üretken yapay zeka geliştirme lideri Katherine Crowson, Open AI'dan Dall-E 2 ve Google Brain'den Imagen tarafından ortaya koyulan koşullu difüzyon modellerinden (conditional diffusion models ) elde edilen iç görülerle bir araya getirdi. Diffusion'ın benimsediği modeli de inceleyebilirsiniz.
Çekirdek veri kümesi, LAION 5B'nin bir alt kümesi olan LAION-Aesthetics üzerinde eğitildi. LAION-Aesthetics, yeni bir CLIP tabanlı modelle oluşturuldu. Bu model, Stable Diffusion alfa test kullanıcılarının derecelendirmelerine göre bir görüntünün ne kadar "güzel" olduğuna bağlı olarak LAION-5B'yi filtreliyor. Bu noktada LAION-Aesthetics'in yakın zamanda piyasaya sürüleceğini ekleyelim.
Öne çıkan veriler
Stable Diffusion, kullanıcıların cihazlarındaki GPU'larda 10 GB'ın altındaki VRAM'de çalışıyor. Araç, birkaç saniye içinde 512x512 piksel boyutunda görüntüler oluştuyor. Modelin eğitim sürecinde 10 binden fazla beta test kullanıcısı her gün 1.7 milyon görsel oluşturdu.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap