2023 yılında DeepMind'ın teknolojisini kullanarak Idefics görsel dil modelini piyasaya süren Hugging Face, şimdi de modelin yeni yükseltmesi Idefics2 ile karşımızda. Idefics2, daha küçük bir parametre boyutu, açık bir lisans ve geliştirilmiş Optik Karakter Tanıma (OCR) yeteneklerine sahip.
Model kıyaslamaları
Bilmeyenler için Idefics'in metin ve görüntü istemlerine yanıt verebilen genel bir çok modlu (multimodal) model olduğunu belirtelim. Idefics 80 milyar parametre boyutuna sahipken, Idefics2, 8 milyar ile Idefics'in onda biri boyutunda. Bu anlamda Idefics2, DeepSeek-VL ve LLaVA-NeXT-Mistral-7B ile karşılaştırılabilir.
Öte yandan Hugging Face'in paylaştığı bilgilere göre Idefics2, Görsel Soru Yanıtlama kıyaslamalarındaki performansı ile LLava-Next-34B ve MM1-30B-chat gibi çok daha büyük modellerle rekabet edebiliyor.
Idefics2'nin öne çıkan yetenekleri
Idefics2, görüntülerle ilgili soruları yanıtlayabilirken, görsel içeriği tanımlayabiliyor ve birden fazla görüntüye dayanan hikayeler oluşturabiliyor. Bununla beraber model, belgelerden bilgi çıkarabiliyor ve temel aritmetik işlemleri gerçekleştirebiliyor.
Paylaşılan bilgilere göre Idefics2, hem 980 x 980 piksele kadar doğal çözünürlükte hem de doğal en boy oranlarında daha iyi görüntü manipülasyonu sunuyor. Böylece görüntülerin sabit boyutlu bir kare oranına uyacak şekilde yeniden boyutlandırılması gerekmeyecek.
Modelin OCR yetenekleri ise bir görüntü veya belgedeki metnin yazıya dökülmesinden elde edilen veri entegrasyonu yoluyla geliştirildi. Hugging Face ekibinin ayrıca Idefics'in grafikler, şekiller ve belgeler üzerindeki soruları yanıtlama becerisini de geliştirdiğini belirtmekte fayda var.
Eğitim verileri
Hugging Face, Idefics2'yi eğitmek için Mistral-7B-v0.1 ve siglip-so400m-patch14-384 gibi açık veri kümelerinin bir karışımını kullandı. Ayrıca kullanılan veri kümeleri kapsamında Wikipedia ve OBELICS kaynaklı web belgeleri, Public Multimodal Dataset ve LAION-COCO kaynaklı resim açıklamaları çiftleri yer aldı. Buna ek olarak PDFA (en) ve IDL'nin yanı sıra işlenmiş metin olarak tercüme edebileceğimiz Rendered-text, ve WebSight kaynaklı resimden koda (image-to-code) verileri kapsayan OCR verileri de kullanıldı.