DeepSeek'ten model performansını artıran mimari: Manifold-Constrained Hyper-Connections

DeepSeek’in paylaştığı sonuçlara göre, mHC mimarisiyle çalışan modeller sekiz farklı yapay zeka ölçütünde (benchmark) daha yüksek performans sergiledi.
DeepSeek'ten model performansını artıran mimari: Manifold-Constrained Hyper-Connections

Çin'in yapay zeka ve robotik yükselişinde DeepSeek'in rolünü sizlerle paylaşmıştık. DeepSeek araştırmacıları, yayınladıkları bir makale ile Manifold-Constrained Hyper-Connections (mHC) adlı bir teknoloji geliştirdiklerini paylaştı. Manifold-Constrained Hyper-Connections (mHC), yapay zeka modellerinin performansını artırabiliyor. 

Aslında DeepSeek'in büyük dil modellerinin yeni bilgileri öğrenmek için kullandığı kalıntı bağlantı mekanizmasını geliştirmek için mHC'yi ortaya koyduğunu söyleyebiliriz. 2015 yılında icat edilen bağlantı mekanizması ise birçok görme modeliyle birlikte sunuluyor.

Yapay zeka modellerinin çalışma prensibinde Manifold-Constrained Hyper-Connections

Bir yapay zeka modeli, katmanlar halinde çalışan bir yapıdan oluşuyor. Kullanıcının komutu katmanlar boyunca ilerlerken her katman hesaplamanın bir kısmını yapıyor; eğitim sırasında ise hatayı gösteren gradyan sinyali ters yönde katmanlara geri yayılır. Bu süreci iyileştirmek için 2015’te geliştirilen rezidüel bağlantılar, gradyanın katmanlar arasında daha doğrudan ve kararlı ilerlemesini sağlarken, büyük dil modellerinde yaygınlaştı. Daha sonra tanıtılan Hyper-Connections (hiper bağlantılar), bazı eksikleri gidermeye çalışsa da yeni teknik zorluklar getirdi. DeepSeek tarafından bu hafta tanıtılan mHC mimarisi, Hyper-Connections’ın geliştirilmiş bir versiyonu olarak bu zorlukların bir kısmını ortadan kaldırıyor. mHC’nin temel yeniliği, gradyanların katmanlar arasında daha kararlı biçimde taşınmasını sağlamak için manifold adı verilen matematiksel yapıları kullanması.

Şirket, mimariyi test etmek için 3 milyar, 9 milyar ve 27 milyar parametreye sahip üç büyük dil modeli eğitti. Karşılaştırma amacıyla, aynı parametre ölçeklerinde Hyper-Connections kullanan üç ayrı model daha oluşturdu. DeepSeek’in paylaştığı sonuçlara göre, mHC mimarisiyle çalışan modeller sekiz farklı yapay zeka ölçütünde (benchmark) daha yüksek performans sergiledi. Şirket ayrıca mHC’nin donanım açısından Hyper-Connections’a kıyasla daha verimli olduğunu vurguluyor. Hyper-Connections, eğitim sırasında bellek gereksinimini ciddi biçimde artırırken, şirket içi testler mHC’nin yalnızca yüzde 6,27 oranında ek donanım yükü oluşturduğunu gösteriyor.

mHC, 19 DeepSeek araştırmacısından oluşan bir ekip tarafından geliştiridi. Zhenda Xie, Yixuan Wei ve Huanqi Cao liderliğindeki araştırmacıların belirttiğine göre ampirik sonuçlar, mHC'nin geleneksel HC ile karşılaştırıldığında üstün ölçeklenebilirlik ile etkili bir şekilde sağlam büyük ölçekli eğitim sağladığını doğrulamakta. DeepSeek, Manifold-Constrained Hyper-Connections (mHC) olarak adlandırılan bu yeni yöntem ile ABD'li rakiplerine meydan okumak için modellerini daha uygun maliyetli hale getirmeye odaklanıyor.

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.