Microsoft'tan donanım açısından verimli akıl yürütme modeli: Phi-4-reasoning-vision-15B

15 milyar parametreli model, hem görüntüleri hem de metinleri işleyebilirken, karmaşık matematik ve fen problemlerini çözebiliyor.
Microsoft'tan donanım açısından verimli akıl yürütme modeli: Phi-4-reasoning-vision-15B

Microsoft, donanım açısından verimli bir akıl yürütme modeli olan Phi-4-reasoning-vision-15B'yi piyasaya sürdü. Bilimsel grafikler gibi çok modlu dosyaları işleyebilen model, SigLIP-2 ve Phi-4 Reasoning adlı iki mevcut algoritmaya dayanıyor. SigLIP-2, görüntüleri sinir ağlarının anlayabileceği sayısal bir biçime sıkıştırken, Microsoft'un geçen nisan ayında açık kaynak olarak yayınladığı Phi-4 Reasoning bir akıl yürütme modeli olarak karşımıza çıkıyor. Microsoft'un araştırmacıları, orta füzyon (mid-fusion) yaklaşımını kullanarak bu iki algoritmayı birleştirdi.

15 milyar parametreli model, hem görüntüleri hem de metinleri işleyebilirken, karmaşık matematik ve fen problemlerini çözebiliyor. Aynı şekilde grafikleri ve belgeleri yorumlayabilen model, grafik kullanıcı arayüzlerinde gezinebilmesinin yanında fotoğrafları altyazılı hale getirmek ve makbuzları okumak gibi günlük görsel görevleri yerine getirebiliyor. Ayrıca geliştiriciler, Phi-4-reasoning-vision-15B'yi kullanarak, kullanıcı arayüzleri aracılığıyla uygulamalarla etkileşime giren yapay zeka ajanları oluşturabiliyor.

Phi-4-reasoning-vision-15B gibi orta füzyon modellerinde, yalnızca bazı katmanlar çok modlu işlemeyi destekler. Bu düzenleme sayesinde kullanıcılar, donanım kullanımını azalttığında çıktı kalitesinden ödün verebilir. Microsoft'a göre, kullanıcılar akıl yürütme özelliğini komutlar aracılığıyla devre dışı bırakarak modelin altyapı ayak izini daha da azaltabilir. 

Phi-4-reasoning-vision-15B açık kaynaklı verilerle eğitildi. Veriler, görüntülerde tasvir edilen nesnelerin resimlerini ve metin tabanlı açıklamalarını içermekteydi. Modeli eğitmeye başlamadan önce Microsoft, çok adımlı bir süreçle dosyaları iyileştirdi.

Microsoft, algoritmayı açık kaynaklı ölçütler (benchmark) kullanarak benzer büyüklükteki birkaç akıl yürütme modeliyle karşılaştırdı. Phi-4-reasoning-vision-15B, çok modlu matematik sorularından oluşan bir ölçüt olan MathVista_Mini'de Google'ın gemma-3-12b-it modelinden yüzde 17 daha yüksek puan aldı.

Phi-4-reasoning-vision-15B, bilimsel diyagramlara odaklanan AI2D'de 84,8, ChartQA üzerinde 83,3, MathVista üzerinde 75,2, ScreenSpot v2'de 88,2 ve geniş kapsamlı çok modlu anlama testi olan MMMU'da 54,3 puan aldı. Phi-4-reasoning-vision-15B, çok daha büyük olan Qwen3-VL-32B gibi modellerin gerisinde kalsa da; Qwen3-VL-8B ve Kimi-VL-A3B gibi benzer boyutlardaki sistemlerle rekabet edebiliyor veya bunların önüne geçebiliyor. Phi-4-reasoning-vision-15B modeline, Microsoft Foundry, Hugging Face ve GitHub üzerinden erişilebilir. 

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.