MiniMax'ten çok dilli yazılım ve arayüz geliştirme odaklı yapay zeka modeli: M2.1

MiniMax'in M2.1 adlı yeni yapay zeka modeli, farklı programlama dilleriyle yazılım geliştirme, web ve mobil arayüz üretimi ile ajan tabanlı görevlerde kullanılmak üzere tasarlandı.
MiniMax'ten çok dilli yazılım ve arayüz geliştirme odaklı yapay zeka modeli: M2.1

Çin merkezli yapay zeka girişimi MiniMax, çok dilli yazılım geliştirme ve ajan tabanlı kullanım senaryolarına odaklanan yeni modeli M2.1'i duyurdu. Ekim sonunda tanıtılan M2'nin devamı niteliğindeki M2.1, özellikle gerçek dünya ofis işleri ve karmaşık görevlerde daha tutarlı ve kullanılabilir çıktılar üretmeyi hedefliyor.

Şirkete göre M2.1; Rust, Java, Golang, C++, Kotlin, Objective-C, TypeScript ve JavaScript gibi farklı programlama dillerinde önceki sürüme kıyasla belirgin bir performans artışı sunuyor. Model, yalnızca kodun doğru çalışmasına değil, aynı zamanda çok adımlı ve ayrıntılı talimatlara uyum sağlamaya odaklanıyor. Bu yaklaşım, pratikte sıkça karşılaşılan karmaşık iş kurallarında daha güvenilir sonuçlar üretmeyi amaçlıyor.

Yeni sürüm, yazılım geliştirmenin yanı sıra web, Android ve iOS arayüz tasarımı tarafında da daha güçlü bir bağlam ve estetik kavrayışı sunuyor. MiniMax, M2.1'in teknik doğruluğun ötesine geçerek görsel tutarlılık ve etkileşim mantığını da dikkate aldığını vurguluyor. Bu kapsamda şirket, VIBE (Visual and Interactive Benchmark for Execution) adını verdiği yeni bir ölçüm setini de tanıttı. VIBE; web, simülasyon, Android, iOS ve backend geliştirme olmak üzere beş ana alanda, üretilen uygulamaların hem görsel hem de etkileşimsel kalitesini ölçmeyi hedefliyor.

Paylaşılan sonuçlara göre M2.1, VIBE genelinde 88,6 ortalama puan alırken; web tarafında 91,5, Android tarafında ise 89,7 puana ulaştı. Şirket ayrıca modeli, sektördeki büyük oyuncuların çözümleriyle birlikte MMLU-Pro, Humanity's Last Exam ve Toolathon gibi kapsamlı benchmark’larda test ettiğini belirtiyor.

Açıklanan verilere göre M2.1, araç kullanımı, gerçek dünya bilgisi ve karmaşık problem çözme alanlarında istikrarlı bir performans sergiliyor. Model, lisansüstü seviye ve çok modlu sorulardan oluşan Humanity's Last Exam testinde 22 puan alırken, geniş konu kapsamına sahip MMLU benchmark'ında 88 puana ulaştı. Bu skorlar, M2.1'in üst seviye modellerle benzer bir performans bandında konumlandığını gösteriyor.

M2.1, MiniMax üzerinden API olarak erişilebilir durumda. Modelin açık ağırlıklarının HuggingFace üzerinden de sunulması planlanıyor. Şirketin ajan tabanlı ürünü MiniMax Agent ise artık M2.1 üzerine inşa ediliyor

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.