Google'dan tüketici dizüstü bilgisayarlarında çalışabilen yeni açık model: Gemma 4 12B

Google, 16 GB RAM’e sahip dizüstü bilgisayarlarda çalışabilen, kodlayıcısız multimodal mimarili açık modeli Gemma 4 12B’yi kullanıma sundu.
Google'dan tüketici dizüstü bilgisayarlarında çalışabilen yeni açık model: Gemma 4 12B

Nisan ayında Apache 2.0 lisansı ile dikkat çeken açık model ailesi Gemma 4'ü piyasaya süren Google, şimdi de Gemma 4 12B ile karşımızda. İlk modeller arasında, E2B ve E4B olmak üzere mobil cihazlar için optimize edilmiş iki seçenek ile daha ciddi işler için tasarlanmış 26B Mixture of Experts ve 31B Dense olmak üzere iki model yer alıyordu. Google, Gemma 4 12B’nin uç cihazlara uygun E4B modeli ile daha gelişmiş 26B Mixture of Experts modeli arasındaki boşluğu doldurduğunu belirtiyor.

Mobil sürümlerden dikkate değer seviyede daha yetenekli olan Gemma 4 12B, yerel olarak çalıştırmak için 20 bin dolarlık bir yapay zeka hızlandırıcısına ihtiyaç duymuyor. Google’ın aktardığına göre model, kaliteden ödün vermeden birçok tüketici dizüstü bilgisayarında çalışabilecek şekilde tasarlandı. 16 GB sistem RAM’i veya VRAM’i olan bir bilgisayarda çalışabilen Gemma 4 12B, Gemma 4 26B MoE’nin toplam bellek ayak izinin yaklaşık yarısına ihtiyaç duyuyor. Google'ın paylaştığı bilgilere göre; yeni model, daha önce daha büyük Gemma varyantlarının kullanılmasını gerektiren karmaşık çok adımlı akıl yürütme ve ajansal iş akışlarını gerçekleştirebiliyor.

Google’ın açıklamasına göre Gemma 4 12B, şirketin yerel cihazlarda ajansal multimodal zekayı çalıştırmaya yönelik en yeni modeli. Model aynı zamanda Gemma ailesinde yerel ses girdisi desteği sunan ilk orta ölçekli seçenek olarak öne çıkıyor.

Modelin öne çıkan yeniliklerinden biri de Multi-Token Prediction, yani MTP desteği. Daha az parametre sayısına rağmen, Gemma 4 12B, yeni tasarlanmış Multi-Token Prediction (MTP) taslaklayıcılarıyla birlikte geliyor. Bu yapı, modelin bir sonraki token yerine birden fazla olası tokeni önceden tahmin etmesini sağlayarak gecikmeyi azaltmayı hedefliyor. Google, diğer Gemma 4 modelleri için isteğe bağlı MTP sürümleri yayımlarken, Gemma 4 12B’de bu özelliği ilk kez hazır olarak sunuyor.

Gemma 4 ailesinin çok modlu bir yapıya sahip olduğunu da hatırlatalım. Gemma 4 12B’de ise multimodalite için yeni bir yaklaşım kullanılıyor. Şirket, modele görme için optimize edilmiş bir gömme modülü eklediğini belirtiyor. Tek matris çarpımı ve konumsal gömme özelliğine sahip bu yapı, görsel verilerin uygun uzamsal farkındalıkla LLM’e aktarılmasını sağlıyor. Böylece ek bir ara kodlayıcıya duyulan ihtiyaç ortadan kalkıyor.

Ses tarafında ise farklı bir yöntem tercih ediliyor. Google’ın aktardığına göre modelde geleneksel bir ses kodlama süreci kullanılmıyor. Bunun yerine geliştiriciler, ham ses sinyalini metin belirteçleri için kullanılan vektörlerle aynı alana yansıtmanın bir yolunu geliştirdi.

Gemma 4 12B’nin asıl farkı, orta ölçekli bir model olarak tüketici dizüstü bilgisayarlarında çalışabilmesi kadar, ses ve görüntü girdilerini ayrı kodlayıcılara ihtiyaç duymadan doğrudan LLM omurgasına aktarabilen birleşik multimodal mimarisiyle gelmesi.

Google'ın paylaştığı verilere göre; Gemma 4 modelleri geliştirici topluluğunun ilgisiyle 150 milyon indirmeyi aştı. Yeni modeli denemek isteyen geliştiriciler LM Studio, Ollama, Google AI Edge Gallery, Google AI Edge Eloquent ve LiteRT-LM CLI üzerinden Gemma 4 12B’ye erişebiliyor. Modelin önceden eğitilmiş ve instruction-tuned ağırlıkları ise Hugging Face ve Kaggle üzerinden indirilebiliyor. Google ayrıca ajan geliştirme süreçlerini desteklemek için Gemma Skills Repository adlı resmi bir beceri kütüphanesini de kullanıma sundu.

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.