Geçtiğimiz yıl StableStudio ile gündeme gelen Stability AI, görsel üretimi için yapay zeka modelinin en güncel versiyonu Stable Diffusion 3'ü duyurdu. Stable Diffusion 3, önizleme versiyonu ile araştırmacı ve geliştiricilerin ilgisine sunuluyor.
Şirket, yeni modelin önceki modele kıyasla performans, görüntü kalitesi ve yönlendirme kabiliyeti de dahil olmak üzere çok sayıda iyileştirme yaptığını belirtiyor. Bu model ile çok özneli istemlerden görüntü oluşturmada gelişmiş görüntü kalitesi ve daha iyi performans elde edilmesi amaçlanıyor.
Stability AI, özellikle modelin kelimeleri doğru bir şekilde üretme ve üretilen görüntülerde daha iyi heceleme yeteneğini artırmaya odaklandı. Bildiğiniz üzere görüntü üreten üretimsel yapay zeka modelleri, içinde kelime olan bir görüntü üretmeye çalıştığında genellikle anlamsız şekiller ortaya çıkartmaktaydı. Görünen o ki; Stability AI, Stable Diffusion 3 ile bu problemi ortadan kaldırmayı hedefledi.
Stable Diffusion 3'ün teknik detayları
Stable Diffusion 3, 800 milyon ile 8 milyar parametreleri arasında değişen çoklu model boyutlarında geliştiriliyor. Şirket böylece ölçeklenebilirlik ve kalite için çeşitli seçenekler sunmayı amaçlıyor. Model, açık kaynaklı olduğu için araştırmacı ve geliştiriciler, diledikleri gibi çalışmak üzere modelin temel mimarisine ve koduna doğrudan erişebiliyor.
Stable Diffusion 3, Stability AI'ın piyasaya sürdüğü bir modelin yeni bir versiyonu değil aynı zamanda yeni bir mimariye de dayanıyor. Stability AI CEO'su Emad Mostaque'in aktardıklarına göre OpenAI'ın Sora modelinde kullandığı yeni bir mimari türü olan difüzyon dönüştürücü (diffusion transformer) kullanılıyor. Bu noktada difüzyon dönüştürücü mimarisine dair araştırmanın yazarlarından biri olan William Peebles'ın aynı zamanda Sora projesinin liderlerinden biri olduğunu da belirtelim.
Stable Diffusion 3, difüzyon dönüştürücü mimarinin yanı sıra akış eşleştirme olarak tercüme edebileceğimiz flow matching tekniğini kullanıyor. Akış eşleştirme ile ilgili araştırma makalesine göre bu teknik, karmaşık veri dağılımlarını modellemek için Sürekli Normalleştirme Akışlarını (CNF'ler) eğitmeye yönelik yeni bir yöntem. Araştırmacılar, optimum taşıma yolları ile Koşullu Akış Eşleştirme (CFM) kullanarak, difüzyon yollarına kıyasla modellerde daha hızlı eğitim, daha verimli örnekleme ve daha iyi performans elde ediyor.