Şubat ayında Stablity AI'dan Meta'ya Google'dan Apple'a kadar pek çok şirket yeni yapay zeka modellerini tanıttı. Tanıtılan geniş dil seçenekleri, farklı donanımlarda çalışabilme, öğrenme yöntemleri ve içerik üretimi açısından yapay zeka alanına yenilik getiren 8 yapay zeka modeline gelin birlikte bakalım.
@webrazzi Şubat ayında tanıtılan 8 yapay zeka modeli #webrazzi #yapayzeka
Stability AI'ın yeni yapay zeka modeli: Stable Diffusion 3
Üretilen görsellerde düzgün tipografiler elde edilmesini amaçlayan Stable Diffusion 3, OpenAI'ın Sora modelinde kullandığı yeni diffusion transformer mimarisine sahip. Stability AI, özellikle modelin kelimeleri doğru bir şekilde üretme ve üretilen görüntülerde daha iyi heceleme yeteneğini artırmaya odaklandı. Bildiğiniz üzere görüntü üreten üretimsel yapay zeka modelleri, içinde kelime olan bir görüntü üretmeye çalıştığında genellikle anlamsız şekiller ortaya çıkartmaktaydı. Görünen o ki Stability AI, Stable Diffusion 3 ile bu problemi ortadan kaldırmayı hedefledi.
Google'ın yeni açık büyük dil modeli serisi: Gemma
Google iki yeni büyük dil modeli Gemma 2B ve Gemma 7B'yi duyurdu. Ticari ve araştırma için kullanıma açık olan Gemma 2B ve Gemma 7B isimli bu modeller, Gemini'dan ilham alıyor. Burada hafif olarak tercüme ettiğimiz lightweight tanımı ise geliştiricilerin söz konusu modeli bir laptop ya da masaüstü bilgisayarda çalıştırabileceği anlamına geliyor. Gemma modelleri, yoğun salt kod çözücü (decoder-only) modelleri olarak karşımıza çıkıyor. Gemini modelleri ve daha önceki PaLM modelleri için de aynı mimari kullanılmıştı. Geliştiriciler, Gemma'yı kullanmak için Colab ve Kaggle'ın yanı sıra Hugging Face, MaxText ve Nvidia'nın NeMo'su ile kurulan entegrasyonlara erişebilecek. Paylaşılan bilgilere göre, bu modeller her yerde çalıştırılabilir. Ancak ilk olarak önceden eğitime tabi tutulmaları ve ayarlarının tamamlanması gerekiyor.
Google'ın Gemini Pro modelinin güncellenmiş versiyonu: Gemini 1.5 Pro
Gemini 1.5 Pro, mevcut Gemini Pro modelinin güncellenmiş bir versiyonu olarak karşımıza çıkıyor. Paylaşılan bilgilere göre Gemini 1.5 Pro, şirketin mevcut amiral gemisi modeli Gemini 1.0 Ultra seviyesinde performans gösteriyor. Bununla beraber Gemini 1.5 Pro, bir milyon tokenlık bir bağlam penceresine sahip. Bu da yaklaşık 1 saatlik video, 30 bin satır kod ve 700 binden fazla kelimeye denk geliyor. Ayrıca Gemini 1.5 Pro, çeşitli dillerde 11 saate kadar ses girdisi alabiliyor. Tüm bunlar Gemini 1.0 Pro'nun işleyebildiği miktarın 35 katı ediyor.
Meta'nın metin yerine videodan öğrenen yeni modeli: V-JEPA
V-JEPA, kelimelerden öğrenmek yerine videodan öğreniyor. Meta, insanlar gibi öğrenebilen gelişmiş makine zekası oluşturmayı hedefliyor. Meta'nın yapay zeka araştırmacıları, kelimelerden öğrenmek yerine videodan öğrenen Video Joint Embedding Predictive Architecture (V-JEPA) isimli yeni bir model yayınladı. Günümüzün büyük dil modellerine benzer bir şekilde eğitilmesine rağmen modelin videodan öğrenmesi farklılık yaratıyor. Paylaşılan bilgilere göre bu model, etiketlenmemiş videoyu işleyerek ve ekranın karartıldığı birkaç saniye boyunca ekranın belirli bir bölümünde ne olduğunu anlayarak öğreniyor.
OpenAI'dan metinden video oluşturma aracı: Sora
OpenAI, metinden yüksek kaliteli videolar oluşturmayı sağlayan Sora'yı tanıttı. Sora, görsel kaliteyi ve kullanıcı istemine bağlılığı koruyarak bir dakikaya kadar uzun videolar oluşturabiliyor. Şu anda bu modele zarar veya riskler açısından kritik alanları değerlendirmek amacıyla OpenAI'ın red team ekibi erişebiliyor. Şirket aynı zamanda bir dizi görsel sanatçıya, tasarımcıya ve film yapımcısına erişim izni verileceğini belirtiyor. Sora, birden fazla karakter, belirli hareket türleri ve özne ile arka plana ilişkin doğru ayrıntılar içeren karmaşık sahneler oluşturabiliyor. Model yalnızca kullanıcının komut isteminde ne istediğini değil, aynı zamanda bu şeylerin fiziksel dünyada nasıl var olduğunu da anlıyor.
Cohere for AI'dan 101 dili destekleyen büyük dil modeli: Aya
Üretimsel yapay zeka girişimi Cohere'in yönettiği kar amacı gütmeyen Cohere for AI yeni yapay zeka büyük dil modelini tanıttı. Aya adlı bu açık kaynaklı model "kitlesel olarak çok dilli" olarak tanımlanıyor ve 101 farklı dilde çalışabiliyor. Cohere'in paylaştığı bilgilere göre Aya'nın kapasitesi, mevcut açık kaynaklı modellerin kapsadığı dil sayısının iki katından fazlasına denk geliyor.
Apple'ın fotoğraf düzenlemeye odaklanan yeni yapay zeka modeli: MGIE
MGIE, metinsel komutlar aracılığıyla görsellerde tıpkı Photoshop gibi kırpma, yeniden boyutlandırma, ters çevirme ve filtre ekleme gibi işlemleri gerçekleştirebiliyor. Açılımı MLLM-Guided Image Editing olan MGIE, bir fotoğraftaki belirli nesneleri farklı bir şekle sokmak veya daha parlak göstermek için değiştirmek gibi düzenleme görevlerinde de kullanılabiliyor. Bu anlamda MGIE'nin hem basit hem de karmaşık görevleri yerine getirebileceğini söyleyebiliriz.
Google DeepMind'ın oyunlar üreten yapay zeka modeli: Genie
Google ve British Columbia Üniversitesi iş birliğiyle geliştirilen Genie, basit bir komutla oynanabilir oyunlar yaratabilen üretimsel bir yapay zeka modeli. Model, tek bir görüntü kullanarak Super Mario Brothers ve Contra gibi kullanıcı komutlarına dayalı olarak yana kaydırmalı 2 boyutlu platform oyunları oluşturabiliyor. Genie'nin bu işlevi yerine getirebilmek için yüz binlerce oyun videosundan oyun mekaniklerini öğrendiğini belirtelim. Genie, tek bir görüntü isteminden etkileşimli, oynanabilir ortamlar oluşturabilir. Araştırmacılar modeli eğitmek için 2 boyutlu platform oyunlarından alınan 200 bin saatin üzerinde videodan oluşan bir veri kümesi kullandı.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap