Google'ın yapay zekası, hangi makine öğrenimi modellerinin en iyi sonuç vereceğini seçebiliyor

Google'ın yeni yayınladığı bir blog yazısında, Google AI araştırmacıları ekibi, yapay zekanın performansını değerlendiren “politika dışı sınıflandırma” veya OPC dedikleri şeyi öneriyor.
Google'ın yapay zekası, hangi makine öğrenimi modellerinin en iyi sonuç vereceğini seçebiliyor

Google yapay zekası ile, hangi makine öğrenim modellerinin en iyi sonuçları üreteceğini tahmin etme yeteneğine sahip olarak karşımıza çıkıyor. Google'ın yeni yayınladığı bir blog yazısında, Google AI araştırmacıları ekibi, yapay zekanın performansını değerlendiren “politika dışı sınıflandırma” veya OPC dedikleri şeyi öneriyor. Bunun da değerlendirmeyi sınıflandırma problemi olarak ele alındığını belirtelim.

Ekip, yaklaşımlarının görüntü girdileriyle çalıştığını ve vizyona dayalı robotik kavrama da dahil olmak üzere görevlere ölçeklendiğini belirtiyor. Google'ın yazılım mühendisi Alex Irpan'ın yazdığı yazıya göre, politika dışı güçlendirme öğrenmesi bir robotla yapılan yapay zeka model eğitimini sağlıyor, ancak değerlendirme yapmıyor. Dahası, temel doğruluk değerlendirmesinin çok sayıda modelin değerlendirilmesini gerektiren yöntemlerde genellikle çok yetersiz olduğuna işaret ediliyor.

Çözüm önerilerine göre OPC, eldeki görevlerin, durumların nasıl değiştiği konusunda hiç ya da hiç rastlantısallık içermediği varsayılarak ve ajanların deneysel denemelerin sonunda başarılı ya da başarısız olduğunu varsayarak bu sorunu gideriyor. İki varsayımın ikincisinin ikili niteliği, iki sınıflandırma etiketinin (başarı için “etkili” veya başarısızlık için “felaket”) atanmasına izin veriyor.

OPC ayrıca, eylemlerin gelecekteki toplam ödüllerini tahmin etmek için bir Q-öğrenme algoritması kullanıyor. Temsilciler, öngörülen en büyük ödülleri olan eylemleri seçiyorlar ve performansları, seçilen eylemlerin ne kadar etkili olduğuna göre ölçülüyor. Akabinde sınıflandırma doğruluğu politika dışı değerlendirme puanı olarak işlev görüyor.

Google AI ekibi, politika dışı güçlendirme öğrenimini kullanarak simülasyonda makine öğrenme politikalarını eğitti ve daha sonra önceki gerçek dünya verilerinden alınan politika dışı puanları kullanarak bunları değerlendirdi. Bir robot kavrama görevinde, özellikle bir OPC varyantının (SoftOPC) nihai başarı oranını tahmin etmede en iyi performansı gösterdiğini bildirildi. Gelecekteki çalışmalarda ise araştırmacılar, gürültülü ve ikili olmayan dinamiklerle görevleri keşfetmeyi hedefliyorlar.

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.