OpenAI'ın o1-preview modeli, satranç karşılaşmasında yenilmemek için oyunu "hack"ledi

o1-preview, oynamak yerine oyun durumunu düzenleyerek kazanabileceğini keşfetti.
OpenAI'ın o1-preview modeli, satranç karşılaşmasında yenilmemek için oyunu

Tehlikeli Yapay Zeka yeteneklerini araştırmaya odaklanan Palisade Research, geçtiğimiz haftalarda paylaştığı bir X gönderisiyle OpenAI'ın o1-preview modelinin, satranç karşılaşmasında Stockfish'e yenilmek yerine ortamını otonom olarak hacklediğini açıkladı. Kurumun belirttiğine göre; o1-preview modelinin bunu yapması için karşı tarafın yönlendirmesine gerek kalmadı. 

Paylaşılan bilgilere göre; sadece o1'e rakibinin “güçlü” olduğunu söylemek, kazanmaya zorlamak için dosya sistemini manipüle etmeyi tetikledi. o1, oynamak yerine oyun durumunu düzenleyerek kazanabileceğini keşfetti.

Palisade Research, bu çalışmayla bir diğer yapay zeka araştırma şirketi Apollo Research'ün araştırmasını ileri taşıdığını açıkladı. Apollo Research geçen ay yayınladığı ve bağlam içi planlama yeteneklerini ölçen şema muhakeme değerlendirmeleri (Scheming reasoning evaluations) çalışmasında modellerin hedeflerine ulaşmak için gözetim mekanizmasını kaldırıp kaldıramayacağını ve geliştiricilerini kandırıp kandıramayacağını test etti. Apollo Research bu araştırma için OpenAI'ın GPT-4o ve o1, Google'ın Gemini-1.5, Meta'nın Llama 3.1, Anthropic'in Sonnet 3.5 ve Opus-3 modellerini kullandı.

Ekip, model entrika eylemini gerçekleştirdikten sonra, modele ne olduğunu açıklayıp açıklayamayacağını sorduğu bir “takip görüşmesi” gerçekleştirdiğini ifade ediyor. Apollo Research'ün belirttiğine göre; Llama 3.1 405B ve Claude 3 Opus vakaların yaklaşık yüzde 80'inde planlı hareket ederek adeta entrika çevirdiğini itiraf ederken, o1 şaşırtıcı derecede ısrarcı ve vakaların yüzde 20'sinden daha azında bu durumu itiraf etmekte. Kurumun belirttiğine göre; oldukça çekişmeli çok turlu sorgulamalarda bile, o1 sadece 7 tur sorgulamadan sonra yüzde 80 oranında planlı hareket ettiğini itiraf etti. 

Apollo Research, bazı modellerin, hedefi güçlü bir şekilde takip etme talimatını kaldırdıklarında bile nadir durumlarda (~%1) plan yapmaya devam ettiğini ifade etti. Palisade Research ise tam da bu noktada 5/5 denemede yönlendirme (nudge) olmadan yüzde 100 entrika elde ettiğini belirtiyor. Palisade Research'ün kullandığı istemi aşağıda görebilirsiniz. 

Palisade Research'ün test sonuçlarına göre; o1-preview isteme ihtiyaç duymadan sistemi hacklerken, GPT-4o ve Claude 3.5'in bu konuda hedef dürtüsüne ya da başka bir deyişle yönlendirmeye ihtiyaç duyuyor. Llama 3.3, Qwen, o1-mini ise tutarlılık kaybı yaşıyor.

Palisade Research, test neticesinde şema değerlendirmelerinin, model yetenekleri için bir kıstas görevi görebileceğini dile getiriyor. Bu değerlendirmeler, hem sistem açıklarını belirleme yeteneklerini hem de bunlardan yararlanma eğilimlerini ölçebilir. Şirketin önümüzdeki haftalarda deney kodunu, tam transkriptleri ve daha uzun biçimli bir analizi paylaşması bekleniyor. O zamana kadar konuyla ilgili daha detaylı bir okuma için Apollo Research'ün makalesini inceleyebilirsiniz. 

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.