Elon Musk'ın yapay zeka şirketi xAI, Grok'un sohbet robotunun çok modlu (multimodal) bir yapıya kavuşmasına odaklanıyor. Paylaşılan geliştirici dokümanlarına göre; kullanıcılar yakında Grok'a fotoğraflar yükleyip metin tabanlı yanıtlar alabilecek.
Nisan ayında xAI, ilk çok modlu yapay zeka modeli Grok-1.5V'yi duyurmuştu. Grok-1.5 Vision, metinlerin yanı sıra belgeler, fotoğraflar, ekran görüntüleri, grafikler ve diyagramları da anlayabiliyor. Belgelerde yapılan son güncelleme ise yeni bir modelin sinyalini veriyor.
Geliştirici belgelerinde, örnek bir Python komut dosyası yer alıyor. Bu dosyada geliştiricilerin hem metin hem de görüntülere dayalı bir yanıt oluşturmak için xAI yazılım geliştirme kiti kitaplığını nasıl kullanabilecekleri gösteriliyor. Bir görüntü dosyasını okuyan bu komut dosyası, bir metin istemi ayarlamanın yanı sıra bir yanıt oluşturmak için xAI SDK'yı kullanıyor.
Aslına bakarsanız bu yeni dokümanlar, xAI'ın ilk olarak Kasım 2023'te piyasaya sürdüğü Grok için büyük bir güncelleme. Söz konusu model, X Premium Plus aboneleri tarafından kullanılıyor. Grok'un bundan önceki güncellemesi ise gelişmiş muhakeme yeteneklerine sahip Grok 1.5 ile gerçekleşti. Model, karmaşık metinlerle mantık yürütme, bilimsel resimleri yorumlama ve görsel içerikle insan benzeri bir şekilde etkileşim kurma becerisi ile öne çıkmaktaydı. Şirketin paylaştığı bilgilere göre; Grok-1.5 Vision, şirketin gerçek dünyadaki uzamsal anlayışı ölçümlenmesi için ortaya çıkardığı RealWorldQA ölçütünde rakipleri geride bırakıyor.
Öte yandan günümüzde GPT-4o ve Gemini 1.5 Pro gibi modeller çok modlu yapılarıyla kullanıcılara birbirinden farklı alanlarda kapsamlı bir şekilde destek olabiliyor. Görünen o ki Grok da çok modlu bir yapıya daha fazla odaklanarak, yapay zeka çağının gerisinde kalmamaya uğraşıyor.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap