Çin merkezli e-ticaret devi Alibaba'nın OpenAI'ın o1 modeline rakip yeni yapay zeka modeli QwQ-32B-Preview'u sizlerle paylaşmıştık. Alibaba'nın yapay zeka araştırma ekibi Qwen, şimdi de yeni açık kaynak modeli olan QVQ-72B-Preview'u tanıttı. QVQ-72B-Preview, görüntüleri analiz ederek bunlardan sonuçlar çıkarabiliyor. Henüz deneysel aşamada olan model, ilk testlerde özellikle görsel muhakeme görevlerinde iyi bir performans gösterdi.
Model, tıpkı diğer akıl yürütme modelleri gibi sorunları adım adım düşünerek çözüyor. Kullanıcılar bir görüntü ve talimatlar girdiğinde, sistem bilgileri analiz edip gerektiğinde düşünmek için zaman ayırıyor. Ardından her tahmin için güven puanları eşliğinde yanıtlar sunuyor. Modelin, OpenAI'nin o1'i veya Google'ın Flash Thinking'i gibi akıl yürütme modellerine benzer şekilde hareket ettiğini söyleyebiliriz.
Paylaşılan bilgilere göre; QVQ-72B-Preview, Qwen'in mevcut görsel-dil modeli Qwen2-VL-72B üzerine düşünme ve muhakeme için ek yeteneklerle inşa edildi. Qwen'in belirttiğine göre; model, türünün ilk açık kaynaklı modeli. Aslında QVQ-72B-Preview, yakın zamanda yayınlanan QwQ muhakeme modeline benzerliğiyle de dikkat çekiyor. Ancak ekip iki modelin ilişkisi hakkında herhangi bir bilgi paylaşmadı.
Modeli test etmek için Qwen dört farklı ölçüt kullandı. Bunlar, üniversite düzeyinde görsel anlayışı test eden MMMU, matematiksel grafikler üzerinden akıl yürütme seviyesini kontrol eden MathVista, matematik yarışması problemlerine odaklanan MathVision ve hem Çince hem de İngilizce Olimpiyat düzeyinde matematik ve fizik problemlerini test eden OlympiadBench.
Bu testlerde QVQ, OpenAI'ın o1'i ve Anthropic'in Claude 3.5 Sonnet gibi modelleriyle benzer doğruluk seviyelerine ulaştı. Böylece model, önceki Qwen2-VL-72B-Instruct modelinden daha iyi performans gösterdi. QVQ-72B-Preview, MMMU kıyaslamasında 70,3 puan elde etti. Bu skor ile o1'ı geride bırakamamış olsa da, GPT-4o ve Claude 3.5 Sonnet modellerini geride bırakmayı başardı. Aynı şekilde MathVista ölçütünde elde edilen 71.4 puan ile o1, GPT-4o ve Claude 3.5 Sonnet modellerinden daha iyi performans gösterdi.
Yine de QVQ-72B-Preview'un bazı sınırlamalara sahip olduğunu belirtelim. Qwen ekibinin aktardıklarına göre; beklenmedik bir şekilde diller arasında geçiş yapabiliyor ya da muhakeme döngülerine takılabiliyor. Dairesel muhakeme döngülerine takılma konusunu henüz OpenAI'nin o1 modelinin de çözemediğini belirtelim. Ayrıca QVQ-72B-Preview, karmaşık görsel akıl yürütme görevleri sırasında, bazen neye baktığını kaybediyor ve bu da halüsinasyonlara yol açabiliyor. Ekibin belirttiğine göre; modelin yaygın kullanıma hazır olması için daha güçlü önlemlere ihtiyaç var. Şu an için QVQ-72B-Preview'u test etmek isteyenler Hugging Face üzerinden modele erişebilir.
Qwen ekibi, QVQ-72B-Preview'u yapay genel zeka (AGI) yolunda atılmış bir adım olarak görürken, ilerleyen dönemde GPT-4o benzeri bir omni model ile kullanıcıların karşısına çıkacaklarını müjdeliyor.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap