Google Gemini 3'nin Yeni 'Agentic Vision' Özellikini Anladık
Google, yapay zeka modellerinin performansını artırmak için sürekli olarak yeni özellikler geliştirmeye ve geliştirmeye devam ediyor. Sonunda, bu çabaların sonucu olarak 'Agentic Vision' adlı yeni bir yetenek duyuruldu.
Agentic Vision, görsel içeren komutları daha doğru ve detaylı yanıt vermek için tasarlanmış bir özellik. Bu, modelin sadece bakmakla kalmayı bırakıp, görüntüyü analiz etme ve detaylıca inceleme yeteneğine sahip olmasıyla mümkün oldu.
Agentic Vision Nasıl Çalışır?
Agentic Vision, modelin görsel içeriği üzerinde daha aktif bir yaklaşım benimsemesiyle başlar. Model, sadece görüntüyü analiz etmekle kalmayı bırakıp, 'Düşün, Hareket Et, Gözlemle' döngüsünü kullanarak detaylı bir işlem serisi oluşturuyor.
Bu süreçte, model önce kullanıcıya verilen bir görüntüyü analiz edip plan yapıyor. Ardından, bu planı Python kodları kullanarak gerçekleştirmeye çalışır. Örneğin, bir eldeki parmakları sayarken hata yapmamak için her parmağın üzerinde sınırlayıcı kutular ve sayısal etiketler koyabilir.
Agentic Vision'in Farklı Alanlarda Kullanım Oranı
Agentic Vision, özellikle görsel matematiksel işlemlerde hata yapma eğiliminde olan standart dil modellerinden çok daha etkili. Bu, modelin hesaplamalarını deterministik bir Python ortamına aktararak gerçekleştirdiği için olabilir.
Google, Agentic Vision'ın şu anda Google AI Studio ve Vertex AI üzerinden erişilebilir durumda olduğunu belirtti. Gelecekte ise, bu özellik web araması ve tersine görsel arama gibi araçlarla modelin dünyayı anlama yeteneğinin daha da genişletilmesi planlanıyor.
Sizin Ne Düşünüyorsunuz? Yapay zekanın görseller üzerinde aktif işlem yapabilmesi ve kod çalıştırarak analiz etme konusunda ne düşünüyorsunuz? Bu özellik, özellikle hangi alanlarda en çok işe yarayabilir?