Çinli Teknoloji Devinin Yanlış Yolculuğu: Yapay Zeka ve Bağlam Öğrenme
Tam Boyutta Gör, Çin merkezli teknoloji devi Tencent tarafından yayınlanan yeni bir teknik makale, yapay zeka sistemlerinin gerçek dünya koşullarında sınırlı performans gösterdiğini vurguluyor. Bu durum, mevcut modellerin bağlam öğrenme konusunda ciddi eksiklikleri ve bu sorunların pratik kullanımın etkilerini ortaya koymaktadır.
Gelecekteki Yapay Zeka Modellerinin Başka Bir Yol
Araştırmacılar, gelecekte yapay zeka modellerinin kontrollü ortamların dışına çıkabilmesi için “bağlam öğrenmenin” model tasarımının merkezine yerleştirilmesi gerektiğini savunuyor. İnsanlar anında öğreniyor, modeller hatırlamaya çalışıyor. Ancak mevcut sistemler, gerekli bilgilere erişebilmelerine rağmen bağlamı doğru şekilde yorumlayamadıkları için görevleri tutarlı biçimde yerine getiremiyor.
İnsanlar ve Yapay Zeka Arasındaki Temel Fark
Tam Boyutta Gör Çalışmada, insanlarla yapay zekalar arasındaki temel fark günlük örneklerle açıklanıyor. Bir yazılımcının daha önce görmediği bir araç için dokümantasyonu hızla tarayıp hata ayıklamaya başlaması, bir oyuncunun yeni bir oyunu kural kitabını okuyarak oynaya oynaya öğrenmesi ya da bir bilim insanının yüzlerce deney kaydını inceleyerek yeni bir ilişki keşfetmesi bu farkın somut örnekleri olarak gösteriliyor. İnsanlar bu süreçlerde geçmişte ezberlenmiş sabit bilgiye değil, o anda karşılarına çıkan bağlama dayanarak öğreniyor.
CL-bench: Bağlam Öğrenme için Yeni Değerlendirme Kriteri
Tencent araştırma ekibi, CL-bench adı verilen yeni bir değerlendirme kriteri geliştirdi. Bu kriter, 19 önde gelen yapay zeka modeli, 500 karmaşık bağlam, 1.899 görev ve 31.607 doğrulama kriteri üzerinden test edildi. CL-bench, modellerin “iş başında” öğrenme yeteneğini ölçmeyi hedefliyor.
Test Sonuçları: Gerçek Dünya Karmaşıklığında Performans
Tam Boyutta Gör Test sonuçları, yapay zekaların gerçek dünya karmaşıklığında nasıl da kaybolduğunu net biçimde ortaya koyuyor. İlk 10 sıradaki modellerin CL-bench üzerindeki ortalama başarısı yalnızca yüzde 17,2 olarak ölçüldü. En başarılı olan GPT-5.1 modeli bile hiçbir bağlam verilmediğinde görevlerin yüzde 1’inden daha azını çözebildi.
Gelecekteki Yapay Zeka ve İnsan Yaptığı İşlev Değişimi
Araştırma, bağlam öğrenmenin gelişmesi halinde insan-yapay zeka ilişkisinin de değişeceğini öngörüyor. Buna göre insanlar, modele veri sağlayan aktörler olmaktan çıkıp, en doğru ve zengin bağlamı tasarlayan “bağlam sağlayıcılara” dönüşebilir. Ancak burada kritik bir sorun var: Model, bağlam penceresi kapandığında öğrendiklerini unutuyor. Asıl büyük soru ise şu: Bağlamdan edinilen bilgi nasıl kalıcı hale getirilebilir?
CL-bench GitHub veya Hugging Face’da Mevcut
CL-bench, klasik bilgi sorularına dayanan kıyaslamalardan farklı olarak her görevin kendi bağlamını modele sunuyor. Bu yaklaşım temelde insanların öğrenme biçimine daha yakın. Ek olarak bunu sürekli öğrenme modelleriyle de karıştırmamak gerek.