OpenAI'ın yeni o3 ve o3-mini modelleri neler sunuyor?

o3, düşük hesaplama ayarında, o1'in performansını üçe katlarken, o3-mini, uygun maliyetle o1 akıl yürütme modeliyle karşılaştırılabilir sonuçlar elde edebiliyor.
OpenAI'ın yeni o3 ve o3-mini modelleri neler sunuyor?

OpenAI’ın 12 günlük duyuru serisi o3 model serisinin tanıtımı ile taçlandı. Şu an için genel kullanıma sunulmayan o3 ilk etapta güvenlik testlerine odaklanan araştırmacıların ilgisine sunulacak. o3 ile birlikte o3 mini modeli de tanıtıldı. Sam Altman'ın belirttiğine göre; o3 mini, Ocak ayı sonunda, o3 ise bundan kısa bir süre sonra piyasaya sürülecek. 

o3 modelinin detayları

o3, pekiştirmeli öğrenme yoluyla eğitildi. Bu sayede model, özel düşünce zinciri adlı yöntemle yanıt vermeden önce düşünüyor. Model, bir görev üzerinde mantık yürütebilir ve ileriye dönük plan yapabilir. Bununla beraber, modelin uzun bir süre boyunca bir çözüm bulmasına yardımcı olacak bir dizi eylem gerçekleştirebileceğini belirtelim. 

o3'e bir istem verdiğinizde, model, yanıt vermeden önce duraklayarak bir dizi ilgili komut istemini değerlendiriyor. Bu süreçte muhakemesini açıklayan model, düşüncesine göre en doğru yanıtı kullanıcılara sunuyor. 

Öne çıkan kıyaslama ölçütleri 

o3'ün o1'a kıyasla daha iyi bir performans gösterdiğini söyleyebiliriz. Hatta model, düşük hesaplama ayarında, o1'in performansını üçe katlıyor. American Invitational Mathematics Examination'da o3 yüzde 96,7'lik bir doğruluk puanı elde ederken, o1 yüzde 83,3'lük bir dereceye ulaştı.

Fizik ve kimya sorularından oluşan GPQA Diamond'da yüzde 87,7'ye ulaşan model, EpochAI'ın Frontier Math kriterinde yeni bir rekor kırarak problemlerin yüzde 25,2'sini çözdü. Bu noktada başka hiçbir modelin yüzde 2'yi geçemediğini belirtmekte fayda var. 

Model, programlama görevlerine odaklanan bir kıyaslama olan SWE-Bench Verified'da o1'den yüzde 22,8 puan daha iyi performans gösterdi. o3, kodlama becerilerini değerlendiren başka bir ölçüt olan Codeforces derecelendirmesinde ise 2727'ye ulaşıyor.

OpenAI'ın araştırmadan sorumlu kıdemli başkan yardımcısı Mark Chen'in belirttiğine göre; o3'ün genellikle sadece bir soruyu kaçırmakta. Paylaşılan bilgilere göre; o3, OpenAI'nin modellerini tabi tuttuğu olağan kıyaslama testlerinde o kadar başarılı oldu ki, şirket onu kıyaslamak için daha zorlu testler bulmak zorunda kaldı. ARC PRIZE'ın ürettiği ARC-AGI de bunlardan biri. Bu ölçüt, bir yapay zeka algoritmasının yerinde sezme ve öğrenme yeteneğini test ediyor.

ARC-AGI'yi başarıyla geçebilen bir yapay zeka sisteminin yapay genel zekaya (AGI) doğru önemli bir kilometre taşını temsil edeceği belirtiliyor. 2019'daki ilk çıkışından bu yana hiçbir yapay zeka modelinin ARC-AGI'yi geçemediğini belirtelim. Test, çoğu insanın sezgisel olarak çözebileceği girdi-çıktı sorularından oluşuyor. o3 testten düşük işlemci ayarında yüzde 75,7 puan, ek işlem gücü ile yüzde 87,5'lik bir dereceye ulaştı.

ARC Prize Foundation Başkanı Greg Kamradt, insan performansının yüzde 85 eşiğinde karşılaştırılabileceğini ifade ediyor. Kamradt, bu nedenle bunun üzerine çıkmanın önemli bir kilometre taşı olduğunu belirtiyor. Öte yandan ARC-AGI'nin ortak yaratıcısı François Chollet'in açıkladığına göre; o3, ARC-AGI'deki çok kolay görevlerde başarısız oldu. Bu anlamda model, insan zekasından temel farklılıklar sergiliyor.

03-mini 

OpenAI'ın o3-mini, Düşük, Orta ve Yüksek olmak üzere üç farklı akıl yürütme modu sunmak için Adaptive Thinking Time API'sini kullanıyor. Böylece kullanıcılar, modelin bir sorun hakkında ne kadar süre düşüneceğini ayarlayabiliyor. o3-mini, uygun maliyetle OpenAI'ın mevcut o1 akıl yürütme modeliyle karşılaştırılabilir sonuçlar elde edebiliyor.

OpenAI web sitesi üzerinden modellere erken erişim için başvurmak mümkün. Başvuru süreci 10 Ocak 2025 tarihinde sona erecek. Başvuru formunda geliştiricilerden araştırma odağı, geçmiş deneyimleri, daha önce yayınlanmış makaleleri ve Github'daki kod depolarına bağlantıları dahil olmak üzere pek çok bilgi isteniyor. Geliştiriciler, o3 veya o3-mini olmak üzere test etmek istedikleri modellerden hangisini, ne için kullanmayı planladıklarını seçmek durumunda.

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.