Meta, 405 milyar parametreye sahip bir model olan Llama 3.1 405B'yi yayınladığını açıkladı. Model, Meta'nın şimdiye kadar yayına aldığı en büyük açık model olarak konumlanıyor. Öte yandan Llama 3.1 405B, 405 milyar parametre ile piyasadaki en büyük açık kaynak modeli değil.
Mimari
Model, 16 bin Nvidia H100 GPU kullanılarak eğitildi. Meta'nın iddialarına göre; Llama 3.1 405B, OpenAI'ın GPT-4o ve Anthropic'in Claude 3.5 Sonnet modelleri gibi önde gelen modellerle rekabet edebiliyor.
Llama 3.1 405B, AWS, Azure ve Google Cloud gibi bulut platformlarında kullanılabiliyor. Ayrıca ABD merkezli kullanıcılar ,WhatsApp ve Meta.ai üzerinden modeli deneyimleyebilir.
Yalnızca metin tabanlı olan model, bir görsel hakkındaki soruları yanıtlayamıyor ancak .PDF gibi belgeleri işleyebiliyor. Kodlama ve temel matematik sorularını yanıtlayabilen model, sekiz dilde faaliyet gösteriyor. Bu diller, İngilizce, Almanca, Fransızca, İtalyanca, Portekizce, Hintçe, İspanyolca ve Tayca olarak karşımıza çıkmakta.
Eğitim verileri
Meta, Llama 3.1 405B'yi eğitmek için 2024 yılına kadar olan 15 trilyon token'dan oluşan bir veri seti kullandı. Token'ları sözcük parçaları olarak düşünebilirsiniz. 15 trilyon token 750 milyar sözcüğe denk gelmekte. Llama modellerinde kullanılan eğitim veri setleri, bu modelde de kullanıldı. Ancak bununla beraber şirket, sentetik veri de kullandığını belirtiyor.
Önceki Llama modellerine kıyasla Llama 3.1 405B'nin daha fazla İngilizce olmayan veri, daha fazla “matematiksel veri” ve kod ve de güncel web verileri karışımı üzerinde eğitildi.
Llama 3.1 405B, 128 bin token'lık bağlam penceresine sahip. Bu da 50 sayfalık bir kitap uzunluğuna denk gelmekte. Bununla beraber, önceki Llama modellerine kıyasla Llama 3.1 405B, daha büyük bir bağlam penceresine sahip olduğunu belirtmekte fayda var.
Llama 3.1 8B ve Llama 3.1 70B
Meta'nın bugün ayrıca diğer iki yeni daha küçük modeli Llama 3.1 8B ve Llama 3.1 70B'yi tanıttı. Bu iki model, şirketin Nisan ayında piyasaya sürdüğü Llama 3 8B ve Llama 3 70B modellerinin güncellenmiş versiyonları olarak konumlanıyor. Her iki modelin de 128 bin token'lık bağlam pencerelerine sahip olduğunu belirtelim. Önceki modellerin bağlamlarının 8 bin token ile sınırlı olduğunu düşünürsek, Meta'nın bu yeni modellerle bağlam penceresinde büyük bir atılım gerçekleştirdiğini söyleyebiliriz.
Llama 3.1 modellerinin öne çıkan yetenekleri
Tüm Llama 3.1 modelleri, görevleri tamamlamak için üçüncü taraf araçları, uygulamaları ve API'leri kullanabiliyor. Modeller, güncel konularla ilgili soruları yanıtlamak için Brave Search'ten yararlanırken, matematik ve bilimle ilgili sorgular için Wolfram Alpha API'sine erişiyor. Ayrıca model serisi, kodu doğrulamak için bir Python yorumlayıcısından destek alıyor. Şirket, Llama 3.1 modellerinin daha önce görmedikleri bazı araçları bir dereceye kadar kullanabileceğini ifade etmekte.
Llama 3.1 450B modeli GPT-4, GPT-4o ve Claude 3.5 Sonnet ile karşılaştırıldığında genel olarak yüksek performansıyla dikkat çekiyor. Çok Görevli Dil Anlayışı (MMLU) ölçütünde GPT-4o dışında kalan modelleri geride bırakan Llama 3.1 450B, MMLU Pro ölçütünde ise Claude 3.5 Sonnet'nin gerisinde kalıyor. Llama 3.1 450B , Talimat Takip Değerlendirme Veri Seti (IFEval), GSMBK, ARC Challenge, Nexus ve Çok Dilli İlkokul Matematik Ölçütü (Multilingual MGSM) ölçütlerinde GPT-4, GPT-4o ve Claude 3.5 Sonnet'nin önüne geçiyor.
Meta'nın paylaştığı veriler kapsamında Llama 3.1 405B, İnsan değerlendirmelerine göre; GPT-4, GPT-4o ve Claude 3.5 Sonnet ciddi bir çekişme içerisinde. Llama 3 405B kod yürütme ve grafik oluşturma konusunda GPT-4o'dan daha iyi olsa da, çok dilli yetenekleri genel olarak daha zayıf. Konu, programlama ve genel muhakeme olduğunda Llama 3 405B, Claude 3.5 Sonnet'in gerisinde kalıyor.
Llama 3.1 405B, boyutu nedeniyle, çalıştırmak için güçlü bir donanıma ihtiyaç duyuyor. Kullanıcıların, bir sunucu düğümünden faydalanması öneriliyor.
Meta'nın daha küçük yeni modelleri Llama 3.1 8B ve Llama 3.1 70B ise sohbet robotlarına güç sağlamak ve kod üretmek gibi genel amaçlı uygulamalar için kullanılabilir. Kıyaslamalara baktığımızda, Llama 3.1 8B'nin Gemma 2 9B IT ve Mistral 7B Instruct'ı geride bıraktığı görülürken, Llama 3.1 70B de GPT 3.5 Turbo 'yu BFCL dışındaki tüm ölçütlerde geride bırakmayı başarıyor.
OpenAI ve Anthropic gibi yapay zeka devleriyle yarışmak için Meta, yapay zeka modellerini açık olarak yayınlıyor. Şirket, Llama modellerinin 300 milyondan fazla kez indirildiğini açıkladı. Şimdiye kadar 20 binden fazla Llama türevi model oluşturuldu.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap