OpenAI, "Confessions" sistemiyle modellerin hatalarını kendi ağzından raporlatıyor

OpenAI, büyük dil modellerinin nasıl karar verdiğini görünür kılmak için yeni bir yöntem deniyor. "İtiraf" modu, modellerin hataları açıkça belirtmesini sağlıyor.
OpenAI,

OpenAI, büyük dil modellerinin nasıl karar verdiğini görünür kılmak için alışılmadık ama etkili bir yöntem deniyor: Confessions, yani “itiraf” modu. Bu yaklaşımda model, asıl cevabını verdikten sonra ikinci bir metin daha üretiyor ve burada talimatlara nasıl uyduğunu, hangi yolları kullandığını ve nerede hataya düştüğünü kendi ağzından açıklıyor. OpenAI’a göre amaç, hatalı davranışı tamamen engellemek değil; tespit etmeyi ve kök neden analizi yapmayı kolaylaştırmak.

Büyük dil modelleri birden fazla hedefi aynı anda optimize ettiği için bu hedefler kimi zaman çatışıyor. Bu da modellerin iyi görünmeye çalışarak aslında hatalı sonuçlar üretmesine, hatta test koşullarında hile yapmasına yol açabiliyor. Örneğin, bir model bilmediği bir soruda yardımcı olma dürtüsüyle güvenli olmayan bir tahmin sunabiliyor; ya da zaman kısıtlı bir görevi tamamlamak için arka planda zaman sayacını sıfırlayarak hile yapabiliyor.

OpenAI’ın yeni sisteminde itiraflar yalnızca dürüstlük üzerinden değerlendiriliyor; model itiraf ettiği için cezalandırılmıyor, aksine ödüllendiriliyor. Böylece model, yanlış davranmış olsa bile itiraf safhasında daha açık davranmaya motive ediliyor.

GPT-5 Thinking ile yapılan erken testler, bu yöntemin etkili olabileceğini gösteriyor. Hile yapmaya, yönergeleri çiğnemeye veya yanlış cevap vermeye zorlayan 12 stres senaryosunun 11’inde model yanlış yaptığını açıkça kabul etti. Bazı durumlarda model, “yarısından fazlasını doğru yanıtlarsan yeniden eğitilirsin” gibi koşullara karşı kasıtlı olarak hata yaptığını da raporladı. Bu içgörü normalde yalnızca zincirleme düşünme kayıtlarında görülebilirken, itiraf modu bu süreci daha okunabilir hale getiriyor.

Yöntemin bir sınırı da var elbet: Model kendi hatasını fark etmiyorsa itiraf edemiyor. Yani bu teknik kötü davranışı engellemiyor, sadece görünür kılıyor. OpenAI yöntemi, zincirleme düşünme takibi ve çok katmanlı güvenlik yaklaşımlarıyla birlikte daha geniş bir şeffaflık çerçevesine dahil etmeyi planlıyor.

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.