Ağustos ayında Qwen-Image'ı tanıtan Alibaba yeni modeli Qwen3-Omni'yi duyurdu. Şirket, modeli, metin, görüntü, ses ve video girdilerini tek seferde işleyebilen ilk “yerel uçtan uca omni-modal yapay zeka” olarak konumlandırıyor. Qwen3-Omni modeli, birden fazla formatta girdi alabiliyor, ancak yalnızca metin ve ses biçiminde çıktı sağlıyor.
Metin öncelikli sistemlere konuşma veya görme özellikleri ekleyen diğer modellerin aksine, Qwen3-Omni tüm modaliteleri baştan itibaren entegre ettiğini belirtelim. Bu sayede model, gerçek zamanlı olarak yanıt vermeye devam ederken girdi alıp çıktı verebiliyor.
Model, metin için 119 dili, konuşma girdisi için 19 dili ve konuşma çıktısı için 10 dili destekliyor. Bunlara ek olarak modelin etkinleştirildikten sonra üç ay boyunca geçerli olan tüm modalitelerde bir milyon token'lik ücretsiz kota sunduğunu belirtmekte fayda var.
Alibaba Cloud, her biri farklı amaçlara hizmet eden üç farklı Qwen3-Omni-30B-A3B sürümü piyasaya sürdü.
Instruct modeli, ses, video ve metin girdilerini işlemek ve hem metin hem de konuşma çıktıları üretmek için Thinker ve Talker bileşenlerini birleştiriyor. “Thinker-Talker” mimarisini kullanan Qwen3-Omni'de ‘Thinker’ akıl yürütme ve çok modlu anlamayı yönetirken, “Talker” sesli doğal konuşma üretiyor. Her ikisi de yüksek eşzamanlılık ve hızlı çıkarım için Uzmanlar Karışımı (Mixture-of-Experts (MoE)) tasarımlarına dayanıyor.
Thinking modeli, akıl yürütme görevlerine ve uzun düşünce zinciri işlemelerine odaklanıyor. Aynı çoklu modlu girdileri kabul eden bu versiyon, buna rağmen çıktıyı metinle sınırlıyor. Qwen3-Omni'nin Thinking modelini ayrıntılı yazılı yanıtların gerekli olduğu uygulamalar için kullanmak daha uygun. Captioner modeli ise ses altyazıları için özel olarak geliştirilmiş, ses girdilerinin doğru ve düşük halüsinasyonlu metin açıklamalarını üreten, ince ayarlı bir varyant olarak karşımıza çıkıyor.
Bu üç sürüm birlikte, geliştiriciler ihtiyaçlarına bağlı olarak geniş multimodal etkileşim, derin akıl yürütme veya özel ses anlama arasında seçim yapabilir. Qwen3-Omni şu anda Hugging Face, Github ve Alibaba'nın API'sı aracılığıyla daha hızlı bir “Flash” varyantı olarak mevcut.
Paylaşılan bilgilere göre; Qwen3-Omni, 36 benchmark testinden 22'sinde rakiplerini geride bıraktı. Model, Metin ve akıl yürütme görevleri, konuşma ve ses işleme, görüntü ve görme tanıma ile video anlama alanlarında üstün performansıyla dikkat çekiyor. Örneğin, metin ve akıl yürütme alanında AIME25 ölçütünde 65,0 puanla GPT-4o'nun (26,7) çok üzerinde ve ZebraLogic'te 76,0 puanla Gemini 2.5 Flash'ın (57,9) üzerinde yer alıyor. WritingBench sonuçlarına bakıldığında Qwen3-Omni'nin 82,6 puan alarak GPT-4o'yu (75,5) geride bıraktığı görülüyor. Diğer karşılaştırmalar için aşağıdaki tabloyu inceleyebilirsiniz.
Alibaba'nın Qwen3-Omni ile OpenAI'nin GPT-4o ve Google'ın Gemini 2.5 Pro gibi modelleriyle rekabete giriştiğini söyleyebiliriz. Modelin ticari kullanım kapsamında Apache 2.0 lisansı altında indirilebildiğini, bu lisansa altında değiştirilebilir ve dağıtılabildiğini belirtelim. Qwen3-Omni'nin kullanım alanları arasında çok dilli transkripsiyon/çeviri, ses altyazısı, OCR (optik karakter tanıma), müzik etiketleme ve video anlama gibi örnekler yer alıyor. Model, geliştiriciler tarafından sistem istemlerini kullanarak konuşma stilinden kişiliğe kadar ince ayar yapılabiliyor.
İlk Yorumu yazmak ister misiniz?
Yorum Yazmak için Giriş Yap