Alibaba’dan Yeni Yapay Zeka: Qwen 2.5-Max!

Çinli teknoloji devi Alibaba, yeni yapay zeka modeli Qwen 2.5-Max’i tanıttı. Bu modelin, GPT-4o, DeepSeek-V3 ve Llama-3.1-405B gibi rakiplerini geride bıraktığı iddia ediliyor.
Reuters’teki habere göre Alibaba, Qwen 2.5-Max modeli hakkında yaptığı açıklamada, “Bu model neredeyse tüm alanlarda OpenAI’ın GPT-4o’su, DeepSeek’in V3’ü ve Meta’nın Llama-3.1-405B’sinden daha üstün performans sergiliyor” ifadelerine yer verdi. Yapay zeka alanında Çin ile Amerika Birleşik Devletleri arasında ciddi bir rekabetin mevcut olduğu belirtiliyor.
The burst of DeepSeek V3 has attracted attention from the whole AI community to large-scale MoE models. Concurrently, we have been building Qwen2.5-Max, a large MoE LLM pretrained on massive data and post-trained with curated SFT and RLHF recipes. It achieves competitive… pic.twitter.com/oHVl16vfje
— Qwen (@Alibaba_Qwen) January 28, 2025
DeepSeek’in bir Çin girişimi olduğu göz önüne alındığında, bu gelişmeler sürpriz yaratmıyor. Yapılan testler, R1 modelinin hassas konular içeren 1.360 sorunun yüzde 85’ini yanıtlamayı reddettiğini ortaya koyuyor. Şirket, hassas konularda devletle sorun yaşamamak adına özel düzenlemeler yapıyor. “AI Asistan” adındaki mobil uygulama, dünkü itibariyle App Store’un en popüler ücretsiz uygulaması haline geldi. DeepSeek, R1 adlı LLM’ini Nvidia H800 kullanarak eğitti ve şu ana kadar Huawei Ascend 910C çiplerinin bulunduğu özel sunucu sistemleri üzerinden cevap veriyor. DeepSeek, R1 modelinin OpenAI’ın “01” modelinden daha iyi performans sergilediğini belirtiyor. Şirket, R1’in AIME, MATH-500 ve SWE-bench Verified testlerinde o1’i geride bıraktığını, birçok testte ise benzer başarılara ulaştığını ifade ediyor. R1, 671 milyar parametreye sahipken, özel versiyonlarının 1,5 milyar ile 70 milyar parametre arasında değiştiği belirtiliyor. En küçük versiyonunun bir dizüstü bilgisayarda çalıştırılabildiği, tam kapasiteli versiyonunun ise hem eğitim hem de kullanımdaki maliyetinin OpenAI’dan daha düşük olduğu bildiriliyor.
Bu arada, DeepSeek geçtiğimiz günlerde Janus Pro serisi görüntü modellerini GitHub ve Hugging Face platformlarında yayınladı. Şu an için bir ve yedi milyar parametreye sahip iki farklı versiyonu bulunan Janus Pro’nun büyük versiyonu, bazı testlerde Stable Diffusion ve DALL-E 3’ü geride bırakma iddiasında. Hem görsel analiz hem de yazılı içerikten görsel üretme yetenekleriyle dikkat çeken bu modellerin hangi çözünürlükte çıktı vereceği henüz netlik kazanmadı; bazı örneklerin 768 x 768 piksel seviyesinde olduğu bilgisi mevcut. Yedi milyar parametreli Janus Pro modeliyle gerçekçi fotoğraflar üretilebildiği gösterilmiş olsa dahi, sistemin mükemmel seviyede olmadığı vurgulanıyor.