Çinli teknoloji firması Tencent, dün, çeviri görevleri için optimize edilmiş yeni bir dil modeli serisini açık kaynak olarak yayınladı. Paylaşılan bilgilere göre; Hunyuan-MT adlı bu seri, algoritmaların popüler bir yapay zeka çeviri karşılaştırmasında Google Translate'i önemli ölçüde geride bırakıyor.
Dört modelden oluşan Hunyuan-MT serisinin iki amiral gemisi modeli Hunyuan-MT-7B ve Hunyuan-MT-Chimera-7B, 7 milyar parametreye sahip. Ayrıca, daha düşük bellek kullanımı için iki sıkıştırılmış algoritma versiyonu da bulunuyor. Ancak bu versiyonlar çıktı kalitesinden ödün veriyor.
Her iki model de, 33 dilde iki yönlü çeviriyi destekliyor. Desteklenen diller arasında Çince, İngilizce ve Japonca gibi yaygın olarak kullanılan dillerin yanı sıra Çekçe, Marathi, Estonca ve İzlandaca gibi daha az yaygın olarak dijitalleştirilmiş diller yer alıyor. Aslında Tencent, Çince ve Çin'deki azınlık dilleri arasındaki çeviriye daha fazla odaklanıyor. Modeller, Çince ile Kazakça, Uygurca, Moğolca ve Tibetçe arasında iki yönlü çeviri yapabiliyor.
Hunyuan-MT serisinin eğitim süreci
Modellerin ilk eğitimi, dört farklı veri seti kullanılarak gerçekleştirişdi. İlk iki veri seti, 33 dilde yazılmış metin parçacıkları içerse de, çevirinin nasıl yapılacağına dair herhangi bir bilgi içermiyor. Diğer iki veri seti ise birkaç milyon veri çifti içeriyor. Bu veri çiftlerini her biri bir metin parçacığı ve bir çeviriden oluşan kayıtlar olarak tanımlamak mümkün.
Tencent'in paylaştığı bilgilere göre, eğitim iş akışı Hunyuan-MT modellerine sadece çeviri yetenekleri kazandırmanın yanı sıra önemli miktarda genel bilgi de ekledi. MMLU-Pro adlı genel bilgi ölçütünde Hunyuan-MT, 8 milyar parametreye sahip Llama-3-8B-Base modelini önemli bir farkla geride bıraktı.
Tencent, ilk eğitimin ardından takviyeli öğrenme aşamasına geçti. Takviyeli öğrenme kapsamında şirket, Hunyuan-MT modellerine bir dizi eğitim görevi verdi ve yanıtlarının kalitesi hakkında geri bildirimde bulundu. Modeller, bu geri bildirimleri çıktı kalitesini iyileştirmek için kullandı.
Hunyuan-MT serisinin ilk yapay zeka modeli Hunyuan-MT-7B, standart bir dil modeli mimarisine dayanıyor. Hunyuan-MT-Chimera-7B ise işleme yaklaşımı olarak ensemble öğrenmeyi kullanıyor. Ensemble öğrenme algoritması tıpkı uzmanlar karışımı modellerinde olduğu gibi birden fazla sinir ağından oluşuyor. Ancak uzmanlar karışımı modeli, kullanıcının komutunu işlemek için sinir ağlarından sadece birini kullanırken, ensemble öğrenme hepsini kullanıyor. Komuta birden fazla yanıt üreten bu yaklaşım, ardından bu yanıtlrı tek bir yüksek kaliteli yanıtta birleştiriyor.
Bu arada Tencent'in WMT25 adlı bir yapay zeka çeviri ölçütü kullanarak Hunyuan-MT'yi Google Translate ile karşılaştırdığını belirtelim. Şirketin aktardıklarına göre, Hunyuan-MT model serisi testte değerlendirilen 31 dil çiftinden 30'unda daha iyi performans gösterirken, bazı durumlarda, yüzde 65 daha yüksek puan aldı. Ayrıca Tencent'in belirttiğine göre; Hunyuan-MT, WMT25 ölçütünde çoğu dil çiftinde GPT-4.1 ve Claude 4 Sonnet'den daha yüksek puan aldı.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap