Çin Merkezli yapay zeka şirketi DeepSeek'in OpenAI'ın o1'ı ile yarışan muhakeme modeli DeepSeek-R1'ın açık bir versiyonunu yayınladığını sizlere geçtiğimiz haftanın Yapay Zeka Gündemi'nde aktarmıştık. Hatta hatırlarsanız DeepSeek’in yapay zeka alanındaki çalışmaları, OpenAI'ın eleştirilmesine de neden olmuştu. Yapay zeka alanında devrim yaratan DeepSeek'in başarısına yakından bakalım.
DeepSeek'e yakından bakış
Liang Wenfeng tarafından kurulan ve yönetilen DeepSeek, yine Liang Wenfeng tarafından kurulan Çin merkezli yatırım fonu High-Flyer Quant tarafından finanse ediliyor. DeepSeek, düşük fiyata güçlü performans sunan DeepSeek-V2'yi Mayıs 2024'te piyasaya sürdü. Bu andan itibaren şirket, özellikle Çin'de yapay zeka modeli fiyat savaşının katalizörü olarak konumlandı. Bu anlamda DeepSeek'in ByteDance, Tencent, Baidu ve Alibaba gibi diğer teknoloji devleriyle rekabet edebilmek adına kendi yapay zeka modellerinin fiyatlarını düşürmeye başladığını belirtelim.
DeepSeek'in araştırmaları kapsamında yayınlanan modeller arasında DeepSeek LLM, DeepSeek Coder, DeepSeek Math, DeepSeek VL, DeepSeek V2, DeepSeek Coder V2 ve DeepSeek V3 yer alıyor. Şirket ayrıca yeni muhakeme modeli R1 ile de büyük ses getirdi. Şirketin ürünleri arasında ise API platformunun yanı sıra DeepSeek uygulaması, DeepSeek Chat ve DeepSeek Platform bulunuyor. Kullanıcıların belirttiğine göre; DeepSeek'in arama özelliği de OpenAI ve Perplexity gibi rakiplerine kıyasla daha iyi performans gösteriyor. Öte yandan araç yalnızca Google'ın Gemini Deep Research'ü ile rekabet ediyor.
GPU kullanımında verimlilik
Paylaşılan bilgilere göre High-Flyer Quant, modellerini eğitmek için ABD'nin ihracat kısıtlamalarından önce 10 binden fazla Nvidia GPU'su temin etti. Kurumun ayrıca ticaret engellerine rağmen alternatif tedarik yollarıyla 50 bin GPU'ya ulaştığı da belirtiliyor. Böyle bakıldığında DeepSeek'in işlemci gücünün her biri 500 binden fazla GPU ile çalışan OpenAI, Google ve Anthropic gibi önde gelen yapay zeka laboratuvarlarının gerisinde kaldığını söyleyebiliriz. Peki DeepSeek, buna rağmen nasıl daha yenilikçi bir model ile karşımıza çıktı?
Jeffrey Emanuel tarafından paylaşılan bilgilere göre; DeepSeek karışık hassasiyetli eğitim (mixed-precision training) kapsamında 32 bit yerine 8 bit gerçel sayılar (floating numbers) kullandı. Bu da DeepSeek'in GPU başına bellek gereksinimlerini önemli ölçüde azaltmasına imkan tanıdı.
DeepSeek R1'ın başarısının sırrı
Kasım ayında sınırlı bir R1-lite-preview modeli ile gündeme gelen şirket, o dönemde de OpenAI o1'ı geride bıraktığını ifade etmişti. Modelin sınırlı bir sürüm ile karşımıza çıkması nedeniyle söz konusu model ilk etapta beklenen etkiyi yaratmadı. Ancak geçtiğimiz hafta teknik makale ile birlikte açık sürümü kullanıcılara sunan DeepSeek, yapay zeka ile ilgilenen hemen hemen herkesin ilgi odağı oldu.
DeepSeek'in belirttiğine göre R1, belirli yapay zeka ölçütlerinde OpenAI'ın o1‘ı kadar iyi performans gösteriyor. Hatta AIME, MATH-500 ve SWE-bench Verified gibi bazı ölçütlerde de o1'ı geride bırakıyor.
671 milyar parametreli R1, Hugging Face’ten MIT lisansı altında temin edilebiliyor. Bu anlamda modelin bir kısıtlama olmaksızın ticari olarak kullanılabildiğini belirtelim. Geliştiriciler bu yeni modeli heyecanla karşıladı. Bu yazıyı yazdığımız saatlerde modelin Hugging Face'te yaklaşık 149 bin indirmeye ulaştığını görüyoruz. Geliştiricilerin R1'a bu ilgiyi göstermesinin nedeni de milyon token başına maliyetin OpenAI'ın o1 serisi modelleriyle karşılaştırıldığında çok düşük olması.
Bunun ötesinde şirket dikkat çekici bir yenilik ile yapay zeka araştırmacılarının karşısına çıktı. DeepSeek, büyük dil modellerinin (LLM'ler) eğitiminde yaygın olarak kullanılan geleneksel denetimli ince ayar (supervised fine-tuning - SFT) sürecinden kasıtlı bir sapma gerçekleştirdi.
Denetimli ince ayar (SFT) yerine takviyeli öğrenme (RL)
Denetimli ince ayarın (SFT), yapay zeka geliştirmede standart bir adım olduğunu söyleyebiliriz. Araştırmacılar, denetimli ince ayar ile genellikle modellere düşünce zinciri (chain-of-thought - CoT) olarak adlandırılan adım adım akıl yürütmeyi öğretiyor. Bunun için de araştırmacılar, düşünce zinciri oluşturulmasına yönelik seçilmiş veri kümeleri üzerinde modelleri eğitiyor. Bu bağlamda denetimli ince ayarın, modellerin muhakeme yeteneklerini geliştirmek için gerekli olduğu düşünülmekte. Ancak DeepSeek, bu yaklaşımın aksine SFT aşamasını tamamen atlayarak bunun yerine modeli eğitmek için takviyeli öğrenmeyi (reinforcement learning - RL) tercih etti.
DeepSeek'in bu adımı sayesinde DeepSeek-R1 bağımsız muhakeme yetenekleri geliştirmek durumunda kaldı. Daha da önemlisi model, genellikle kuralcı veri kümelerinin getirdiği kırılganlığı bünyesine dahil etmemiş oldu. Öte yandan denetimli ince ayarı atlamak bazı kusurları da beraberinde getirdi. Bu nedenle ekip, modeli oluşturmanın son aşamalarında sınırlı bir şekilde denetimli ince ayar yöntemini uyguladı. Ortaya çıkan sonuç ise takviyeli öğrenmenin tek başına önemli performans kazanımları sağlayabileceğini gösterdi. Kısacası DeepSeek ve R1'ın başarısının düşük maliyet ile yüksek teknoloji sunabilmek olduğunu söyleyebiliriz.
Paylaşılan bilgilere göre; DeepSeek'in ayrıca modelin hangi token'ları etkinleştireceğini tahmin etmek için çeşitli formüller kullandığı ve daha sonra, yalnızca etkinleştirilecek olan token'ları eğittiği ifade ediliyor. Böyle bakıldığında DeepSeek'in Meta'dan yüzde 95 daha az GPU'ya ihtiyacı bulunuyor çünkü şirket, her bir token için parametrelerinin yalnızca yüzde 5'ini eğitti.
DeepSeek'in ortaya koyduğu bu gelişmeler, kurumsal şirketler için yeni bir dönemin başlangıcı niteliğinde. Azalan maliyetler ve açık erişim göz önünde bulundurulduğunda işletmelerin ve geliştiricilerin artık OpenAI'ınki gibi maliyetli tescilli modeller yerine alternatif açık ve güçlü modellerle ilerleyebileceğini söyleyebiliriz. DeepSeek'in bu atılımı, açık modelleriyle tanınan Meta da dahil olmak üzere pek çok yapay zeka şirketinin GPU kullanımı açısından daha verimli, daha düşük maliyetli ve açık modellerle karşımıza çıkmasını sağlayacaktır. Yapay zeka alanında GPU ihtiyacının azalmasının ise çip şirketlerinin hareket alanını daraltacağını söylemek mümkün.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap