OpenAI'ın GPT-4'ü eğitmek için bir milyon saatten fazla YouTube videosunun yazıya dökümünü yaparak konuşmayı yazıya dönüştüren Whisper modelini ortaya çıkardığı öne sürülüyor. The New York Times'ın haberinde paylaşılan detaylara göre; şirket bunun yasal olarak tartışmalı olduğunu biliyordu ama bu eylemin adil kullanım olduğuna inanıyordu. İddialara göre, OpenAI başkanı Greg Brockman kullanılan videoların toplanmasında bizzat yer aldı.
OpenAI sözcüsü Lindsay Held ise yaptığı açıklamada modellerinin her biri için "benzersiz" veri kümeleri oluşturduğunu söyledi. Held'in aktardıklarına göre şirket bunu modellerin dünyayı anlamalarına yardımcı olmak ve küresel araştırma rekabet gücünü korumak için yaptı. Bununla beraber Held, şirketin kamuya açık veriler ve kamuya açık olmayan veriler için ortaklıklar dahil olmak üzere çok sayıda kaynak kullandığını belirtti. Held'in ifadesine göre şirket, kendi sentetik verilerini üretmeyi de araştırdı.
Google sözcüsü Matt Bryant ise robots.txt dosyalarının hem de Hizmet Şartları'nın YouTube içeriklerini yetkisiz bir şekilde kazıma (scraping) veya indirmeyi yasakladığını hatırlattı. Bu arada YouTube CEO'su Neal Mohan'ın geçen hafta gerçekleşen bir röportaj esnasında OpenAI'ın Sora'yı eğitmek YouTube videolarından yararlanması iddialarına karşılık OpenAI'ın bu tarz bir eylemde bulunmasının platformun ilkelerininin ihlal edilmesi anlamına geldiğini ifade etmişti.
Öte yandan Times'ın haberine göre Google da YouTube transkriptlerini topluyor. Bu noktada Matt Bryant, modellerinin YouTube içerik üreticileriyle varılan anlaşmalar doğrultusunda modelleri, YouTube içerikleri ile eğittiklerini dile getirdi.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap