Alibaba'dan metin işleme yetenekleriyle öne çıkan yapay zeka görüntü oluşturma modeli: Qwen-Image

Qwen-Image, Çince karakterler de dahil olmak üzere karmaşık metinleri doğrudan yüksek kaliteli görüntüler içinde üretebiliyor.
Alibaba'dan metin işleme yetenekleriyle öne çıkan yapay zeka görüntü oluşturma modeli: Qwen-Image

Geçtiğimiz günlerde kodlamaya odaklanan açık kaynaklı yapay zeka modeli Qwen3-Coder'ı tanıtan Alibaba, şimdi de yapay zeka görüntü üretme alanında açık kaynak modelini Qwen-Image ile karşımızda. Bildiğiniz üzere yapay zeka görsel üretimi araçları metinleri doğru bir şekilde işleme konusunda zorluklar yaşıyordu. Stable Diffusion ve GPT-4o destekli Sora başta olmak üzere şirketler bu zorluğun aşılabildiğini bizlere göstermişti. Qwen-Image da metinleri doğru bir şekilde işleme konusunda üstün performans gösteriyor. 

Modelin mimarisi ve eğitim süreci 

Model, çok satırlı Çince karakterler de dahil olmak üzere karmaşık metinleri doğrudan yüksek kaliteli görüntüler içinde üretme konusunda son teknolojiye sahip. Temelinde Multimodal Diffusion Transformer (MMDiT) mimarisi üzerine inşa edilen Qwen-Image, 20 milyar parametreli bir temel model. Qwen-Image, karmaşık kullanıcı komutlarını yorumlamak için, dil ve görsel verileri hizalamada uzmanlaşmış Qwen2.5-VL görsel-dil modelini koşul kodlayıcı olarak kullanır.

Ayrıca modelin müfredat öğrenimi yaklaşımı kullanılarak eğitildiğini belirtelim. Temel metin dışı görüntüleme ile başlayan eğitim, kademeli olarak karmaşık paragraf düzeyindeki açıklamaları işleyebilecek düzeye getirildi. Buna ek olarak modelin çift kodlama mekanizmasıyla dikkatleri üzerine çektiğini söyleyebiliriz. Bu kapsamda bir değişiklik yapmak için sistem, girdi görüntüsünü iki şekilde işliyor. Bir yandan Qwen2.5-VL, üst düzey semantik özellikleri çıkarırken, diğer yandan Varyasyonel Otomatik Kodlayıcı (VAE) alt düzey yeniden yapılandırma ayrıntılarını yakalıyor. Sonuç olarak Qwen-Image'ın Multimodal Diffusion Transformer (MMDiT), Qwen2.5-VL ve Varyasyonel Otomatik Kodlayıcı (VAE) olmak üzere 3 temel modülü bir araya getirdiğini söyleyebiliriz. 

Geliştirici ekibin belirttiğine göre Qwen-Image, bu yaklaşımı sayesinde kamuya açık benchmark testlerinde, üst düzey performans gösteren bir model olarak konumlanıyor. LongText-Bench ve yeni ChineseWord benchmark gibi metin odaklı değerlendirmelerde üstün performans gösteren Qwen-Image, önde gelen tescilli sistemlere karşı güçlü bir açık kaynaklı rakip olarak öne çıkıyor. Modeli deneyen kullanıcılardan bazıları ise Qwen-Image'ın metin ve komut satırı uyumunun, Midjourney'den belirgin şekilde daha iyi olmadığını ifade ediyor. 

Qwen-Image, komut istemlerini takip etme ve nesne öznitelik tutarlılığı için GenEval ve DPG, kompozisyonel akıl yürütme ve düzen doğruluğu için OneIG-Bench ve TIIF, metin işleme, özellikle çok dilli bağlamlarda CVTG-2K, ChineseWord ve LongText-Bench ölçütlerinde değerlendirildi. Neredeyse her durumda, Qwen-Image, GPT Image 1 , Seedream 3.0 ve FLUX.1 Kontext gibi mevcut kapalı kaynaklı modellerle ya eşleştiyor ya da bu modelleri geride bırakıyor. 

Modelin özellikle, Çince metin işleme performansında karşılaştırılan tüm sistemlerden önemli ölçüde daha iyi olduğunu söylemek mümkün.10 binden fazla insan tarafından yapılan ikili karşılaştırmalara dayanan halka açık AI Arena liderlik tablosunda Qwen-Image genel sıralamada üçüncü sırada yer alıyor. Bu da onu en iyi açık kaynaklı model olarak konumlandırıyor. 

Qwen-Image neler üretiyor?

Qwen-Image, fotogerçekçi sahnelerden izlenimci resimlere, anime estetiğinden minimalist tasarımlara kadar hemen hemen her şeyi üretebiliyor. Düzenleme yetenekleri de dikkate değer nitelikte. Model, stil aktarımlarını, nesne ekleme veya çıkarma işlemlerini ve hatta karmaşık insan poz manipülasyonlarını gerçekleştiriyor. poz değişiklikleri sırasında saç telleri gibi ince ayrıntıları başarıyla koruyan Qwen-Image, önceden gizlenmiş giysi ayrıntılarını doğru bir şekilde çıkarıyor. 

Qwen-Image pazarlama ve markalaşma alanında marka logoları, stilistik kaligrafi ve tutarlı tasarım motifleri içeren iki dilli posterler üretebiliyor. Sunum tasarımı kapsamında başlık hiyerarşileri ve temaya uygun görseller içeren, düzeni dikkate alan slayt sunumları oluşturan model, diyagramlar ve öğretici metinler içeren sınıf materyallerinin oluşturulmasını da sağlıyor. Kullanıcıların Qwen-Image ile ürün etiketleri, tabelalar ve mağaza vitrinleri üretebileceğini de belirtelim. Ayrıca el yazısı şiir, sahne anlatıları, gömülü hikaye metni içeren anime tarzı illüstrasyonlar oluşturmak da mümkün.

Qwen ekibinin belirttiğine göre; model, basit düzenleme komutlarıyla pek çok görüntü anlama görevini gerçekleştirebiliyor. Bu görevler arasında nesne algılama, semantik segmentasyon, derinlik ve kenar (Canny) tahmini ve yeni görünüm sentezi yer alıyor. 

Hugging Face gibi platformlarda kullanılabilen Qwen-Image, geniş kapsamlı Apache 2.0 lisansı altında kullanıcılarla buluşuyor. Bunun yanı sıra kullanıcılar, Qwen Chat web sitesinde modelle etkileşime girebilirler. Bunun için komut satırı giriş alanının altındaki düğmelerden “Görüntü Oluşturma” modunun seçilmesi yeterli. 

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.