Anthropic'in yeni yapay zeka atılımları: Claude 3.7 Sonnet ve Claude Code

Anthropic, ilk hibrit akıl yürütme modeli Claude 3.7 Sonnet'i ve Claude Code adlı agent odaklı kodlama için komut satırı aracını tanıttı.
Anthropic'in yeni yapay zeka atılımları: Claude 3.7 Sonnet ve Claude Code

Anthropic, dün ilk “hibrit akıl yürütme modeli” Claude 3.7 Sonnet'i tanıttı. Daha karmaşık problemleri çözebilen Claude 3.7 Sonnet, matematik ve kodlama gibi alanlarda önceki modellerden daha iyi performans gösteriyor. Claude 3.7 Sonnet'nin hibrit olarak tanımlanmasının nedeni ise hem gerçek zamanlı cevaplar hem de sorulara daha ayrıntılı, düşünülmüş cevaplar verebilen tek bir model olmasından kaynaklanıyor. 

Şimdiye kadar OpenAI, DeepSeek, Google ve xAI akıl yürütme modellerini ayrıca yayınlamayı tercih etti. Bu trendin aksine Anthropic ürün araştırma lideri Dianne Penn, şirketin bir model kullanma deneyimini basitleştirmek istediğini söyledi. Penn'in aktardıklarına göre Anthropic, temelde akıl yürütmenin tamamen ayrı bir şey değil, yapay zekanın bir özelliği olduğuna inanıyor. Hatta şirket, görüşünü, paylaştığı blog yazısında kullandığı şu ifadelerle destekliyor:

İnsanların hemen cevaplanabilecek sorular ile düşünmeyi gerektiren sorular için iki ayrı beyne sahip olmamasına benzer şekilde, akıl yürütmeyi ayrı bir modelde sağlanacak bir şey olarak değil, diğer yeteneklerle sorunsuz bir şekilde entegre edilecek bir sınır modelinin sahip olması gereken yeteneklerden biri olarak görüyoruz

Şirketin bu yaklaşımı, OpenAI'ın yakın zamanda açıkladığı yol haritasıyla da örtüşüyor. Sam Altman geçtiğimiz haftalarda paylaştığı gönderide şirketin ürün tekliflerini basitleştirme konusunda çok daha iyi bir iş çıkarmak istediklerini belirtmiş ve birleşik zekaya geri dönmek istediklerini eklemişti.

Claude 3.7 Sonnet'nin detayları 

Dianne Penn'in paylaştığı bilgilere göre; Claude 3.7 Sonnet, agent kodlama, finans ve hukuk görevlerinde belirgin şekilde daha iyi performans gösteriyor.

Gerçek dünya kodlama görevlerini ölçen bir test olan SWE-Bench'te Claude 3.7 Sonnet yüzde 62,3 doğru sonuç verdi. Aynı ölçütte OpenAI'ın o3-mini modeli ise yüzde 49,3 puan aldı. Bir yapay zeka modelinin perakende ortamında simüle edilmiş kullanıcılar ve harici API'lerle etkileşime girme yeteneğini ölçen bir başka test olan TAU-Bench'te OpenAI'ın o1 modeli yüzde 73,5 puan alırken, Claude 3.7 Sonnet, yüzde 81,2 puan aldı.

Claude diğer modellerde gördüğümüz web araması özelliğine henüz sahip değil, ancak 3.7 sürümünün bilgi tabanı daha güncel bir tarih olan Ekim 2024'e kadar olan bilgileri kapsıyor. 

Kullanıcılar, Claude 3.7 Sonnet'i “muhakeme” yeteneklerini etkinleştirip etkinleştirmeyeceklerini seçebiliyor. Ayrıca Anthropic, geliştiricilerin modelin düşünme şeklini scratchpad aracılığıyla yönlendirmelerine imkan tanıyor. Bu bağlamda geliştiriciler, modelin tam olarak ne kadar sürede yanıt vereceğini bile belirleyebiliyor. 

Penn'in paylaştığı bilgilere göre Anthropic çalışanları, yeni modeli kullanarak ön uç (front-end) web sitesi tasarımları ve interaktif oyunlar oluşturdu. Çalışanlar, test setleri oluşturarak ve test senaryolarını yinelemeli olarak ileri geri düzenleyerek kodlama işine 45 dakikaya varan zaman harcadılar.

Pokémon oyunu ile değerlendirme

Ayrıca şirketin modelleri, modelin API'sini bir kontrol şemasıyla eşleştirerek Game Boy klasiklerinden Pokémon Red oyununda ilerleme becerileri açısından da test edildi. Claude 3.5 Sonnet oyunun başında Pallet Town'dan çıkamazken, 3.7 sürümü birden fazla gym liderini yenebildi.

Claude 3.7 Sonnet'nin bu başarıyı elde etmek için ne kadar hesaplama gerçekleştirdiği ve her bir hesaplamanın ne kadar sürdüğü bilinmiyor. Öte yandan Anthropic'in belirttiğine göre model, sadece son gym lideri Surge'e ulaşmak için 35 bin eylem gerçekleştirdi. 

Ücretlendirme ve erişim 

Claude 3.7 Sonnet ise Pazartesi gününden itibaren Claude uygulamasında yerini alacak. Bununla beraber yeni model, Anthropic'in API'si, Amazon Bedrock ve Google Cloud'un Vertex AI platformu aracılığıyla geliştiricilerin ilgisine sunulacak. 

Modelin maliyetinin bir önceki model olan 3.5 Sonnet ile aynı olduğunu belirtelim. Bu anlamda Claude 3.7 Sonnet, milyon girdi tokenı başına 3 dolar ve milyon çıktı tokenı başına 15 dolar ücretlendirme ile karşımıza çıkıyor. Model, OpenAI'ın o3-mini ve DeepSeek'in R1 muhakeme modelinden daha pahalı. o3-mini milyon girdi jetonu başına 1,10 dolar ve milyon çıktı jetonu başına 4,40 dolar alırken R1, milyon girdi tokenı başına 55 sent ve milyon çıktı tokenı başına 2,19 dolar ücretlendirmeye sahip. Fiyattaki bu farkın, Claude 3.7 Sonnet'nin hibrit bir model olmasından kaynaklandığını söyleyebiliriz. 

Claude Code

Yeni modele ek olarak Anthropic, Claude Code adlı agent odaklı kodlama için komut satırı aracının sınırlı araştırma önizlemesini de kullanıcılarla buluşturuyor. Şimdiye kadar Cursor gibi araçları destekleyen Anthropic, Claude Code'u kod arayabilen ve okuyabilen, dosyaları düzenleyebilen, testler yazıp çalıştırabilen, GitHub'a kod işleyip gönderebilen ve komut satırı araçlarını kullanabilen aktif bir yardımcı olarak tanımlıyor. 

Anthropic çalışanları yaptığı bir demoda, Claude Code'un "Bu proje yapısını açıkla." benzeri basit bir komut ile bir kodlama projesini nasıl analiz edebileceği gösterildi. Aracı kullanan bir geliştirici, komut satırında İngilizce kullanarak bir kod tabanını değiştirebiliyor. Bu kapsamda Claude Code, değişiklik yaparken yaptığı düzenlemeleri açıklamanın ötesinde bir projeyi hatalar için test edebiliyor.

Şimdiye kadar kendinden emin adımlarla daha güvenli bir yoldan ilerlemeyi tercih eden Anthropic, Claude 3.7 Sonnet ve Claude Code ile dikkate değer bir atılım gerçekleştiriyor. Şirketin hibrit model ve birleşik yapay zeka konusunda OpenAI'dan önce davranması, yapay zeka alanında gittikçe artan rekabetin ciddi bir yansıması. 

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.