Nvidia ve Mistral AI'ın kurumsal yapay zekayı bilgisayarlara taşıyan yeni modeli: Mistral-NeMo

12 milyar parametre ve 128 bin token'lık geniş bir bağlam penceresine sahip olan modelin, doğrudan iş bilgisayarlarında çalışması hedefleniyor. 
Nvidia ve Mistral AI'ın kurumsal yapay zekayı bilgisayarlara taşıyan yeni modeli: Mistral-NeMo

Belli bir süre dünyanın en değerli şirketi olmayı başaran Nvidia ve Avrupa'nın yapay zeka yıldızı Mistral AI ile gücünü birleştirerek yeni yapay zeka modeli Mistral-NeMo'yu tanıttı. Bu yeni model, 12 milyar parametre ve 128 bin token'lık geniş bir bağlam penceresine sahip. Güçlü yapay zeka yetenekleriyle dikkat çeken modelin doğrudan iş bilgisayarlarında çalışması hedefleniyor. 

Nvidida'Nın paylaştığı bilglere göre; model, NVIDIA NeMo'nun bir parçası olan Megatron-LM kullanılarak, NVIDIA AI mimarisinden oluşan DGX Cloud üzerinde 3.072 H100 80GB Tensor Core GPU ile eğitildi.

Nvidia uygulamalı derin öğrenme araştırmaları başkan yardımcısı Ryan Catanzaro'nun aktardıklarına göre; model Apache 2.0 lisansı altında piyasaya sürülüyor. Nvidia'nın Mistral ile ortaklığı daha kompakt ancak güçlü bir modelin ortaya çıkmasını sağladı. İnsanların bu küçük modelleri evlerinde kendi sistemlerinde çalıştırabileceğini ifade eden Catanzaro, aslında Mistral-NeMo'nun pek çok kişide bulunan RTX GPU'larda çalışabileceğini dile getiriyor. 

Küresel, çok dilli uygulamalar için tasarlanan Model, özellikle İngilizce, Fransızca, Almanca, İspanyolca, İtalyanca, Portekizce, Çince, Japonca, Korece, Arapça ve Hintçe'de güçlü. Mistral NeMo, 100'den fazla dil üzerinde eğitilmiş Tiktoken tabanlı yeni bir tokenizer olan Tekken'i kullanıyor. Böylece model, önceki Mistral modellerinde kullanılan SentencePiece tokenizer'a kıyasla doğal dil metinlerini ve kaynak kodunu daha verimli bir şekilde sıkıştırıyor. Tekken, Llama 3 tokenizer ile karşılaştırıldığında tüm dillerin yaklaşık yüzde 85'i için metin sıkıştırmada daha yetkin. 

Gemma 2 9B ve Llama 3 8B ile karşılaştırılan Mistral-NeMo, Llama 3 8B'yi tüm ölçütlerde, Gemma 2 9B 'yi ise MMLU (Kitlesel Çoklu Görev Dil Anlayışı) ölçütü dışında tüm ölçütlerde geride bırakıyor. 

Farkındaysanız, son bir kaç haftadır küçük yapay zeka modelleri gündemimizde. Meta'dan OpenAI'a şirketler art arda yeni küçük modellerini duyurarak cihaz üzerinde çalışan bu küçük modellerin yapay zeka erişimini artırabileceğine dikkat çekiyor. Meta AI ekibi mobil cihazlar için kompakt büyük dil modeli yaklaşımı MobileLLM'i tanıtırken, Hugging Face, mobil cihazlar için küçük dil modeli SmolLM ile öne çıktı. Son olarak OpenAI, ChatGPT'ye yeni hafif modeli GPT-4o mini'yi getirdi. Cihaz üzerinde çalışan modellerin, erişilebilirlikle birlikte yapay zekanın hayatımıza etkisini nasıl değiştireceğini hep birlikte izleyip göreceğiz. 

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.