Şimdiye kadar Codestral, Mistral-NeMo ve Mistral Large 2 modelleriyle gündeme gelen Fransa merkezli yapay zeka girişimi Mistral, sonunda metinlerin yanı sıra görüntüleri de işleyebilen ilk modeli Pixtral 12B'yi piyasaya sürdü.
Pixtral 12B'nin teknik detayları
12 milyar parametreli Pixtral 12B, yaklaşık 24 GB boyutunda. Model, Mistral'in metin modellerinden biri olan Nemo 12B üzerine inşa edildi. Bu yeni model, URL'ler veya ikili-metin kodlama şeması olan base64 kullanılarak kodlanmış görüntüler dahil olmak üzere verilen rastgele boyuttaki rastgele sayıda görüntü hakkındaki soruları yanıtlayabiliyor. Bu bağlamda Pixtral 12B'nin resimlere başlık ekleme ve bir fotoğraftaki nesnelerin sayısını sayma gibi görevleri yerine getirebileceğini söyleyebiliriz. Söz konusu görevleri Anthropic'in Claude ailesi ve OpenAI'ın GPT-4o'su gibi diğer çok modlu modeller de tamamlayabilmekte. Öte yandan eğitildiği veriler de dahil olmak üzere yeni modelin resmi ayrıntıları gizliliğini koruyor.
X'teki ilk test kullanıcılarının paylaştığı bilgilere göre; modelin mimarisinde 40 katman, 14.336 gizli boyut ve kapsamlı hesaplama işlemleri için 32 dikkat başlığı (attention heads) bulunuyor. Görüntü tarafında ise 1024×1024 çözünürlük desteğine sahip özel bir görüntü kodlayıcısı ve gelişmiş görüntü işleme için 24 gizli katman bulunuyor. Ancak model API araclığıyla kullanılmaya başlandığında bu durum değişebilir.
Pixtral 12B'ye nereden ulaşabilirim?
Pixtral 12B, GitHub ve Hugging Face'deki bir torrent bağlantısı aracılığıyla sunuluyor. Kullanıcılar, modeli Apache 2.0 lisansı altında herhangi bir kısıtlama olmaksızın indirilebiliyor, ince ayar yapabiliyor ve kullanabiliyor. Mistral geliştirici ilişkileri başkanı Sophia Yang'in X paylaşımında aktardıklarına göre; Pixtral 12B, Mistral'in chatbot ve API hizmet platformları Le Chat ve Le Plateforme'da yakında test edilebilecek.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap