Cuma günü Google, metin ve imgeleri alıp bunları robotik aksiyonlara dönüştürebilen bir görüş-dil-eylem (VLA) modeli olan Robotics Transformer 2’yi (RT2) tanıttı.
Google DeepMind Robotik Lideri Vincent Vanhoucke bir blog yazısında, “Tıpkı lisan modellerinin genel fikirleri ve kavramları öğrenmek için web’deki metinler üzerinde eğitilmesi üzere, RT-2 de robot davranışını bilgilendirmek için web bilgilerinden bilgi aktarıyor. Başka bir deyişle, RT-2 robotça konuşabilir.” tabirlerine yer verdi.
Vanhoucke, sohbet robotlarının bir bahis hakkında bilgi verilerek eğitilebileceğini, fakat robotların bir adım daha ileri giderek gerçek dünyada “topraklanması” gerektiğini söylüyor.
Verdiği örnek kırmızı bir elma: “Bir chatbot’a elmanın ne olduğunu basitçe açıklayabilseniz de, bir robotun elmayla ilgili her şeyi bilmesinin yanı sıra onu misal bir objeden (örneğin kırmızı bir toptan) nasıl ayırt edeceğini ve o elmayı nasıl alması gerektiğini de öğrenmesi gerekecektir.”
ROBOTLAR OBJELERİ TAHLİL EDEREK KENDİSİNİ EĞİTEBİLECEK
RT-2, web’deki dataları kullanarak Google’ın RT-1’inden ve başka modellerden bir adım daha ileri gidiyor. Örneğin, daha evvelki bir modelin bir şeyi atmasını istiyorsanız, onu çöpün ne olduğu ve nasıl kullanılacağı konusunda eğitmeniz gerekirdi.
RT-2 ile, tahminen çöpün ne olduğunu ve nasıl kullanılacağını açıklanmasa da robotun web datalarını kullanarak bu kısmı kendi başına çözebileceği belirtildi.
Öğrendiği bilgileri yeni yapay zeka sayesine harekete geçirebilmesi sağlanacak
RT-2 ile robotlar öğrenebilir ve öğrendikleri bilgileri gelecekteki durumlara uygulayabilir. Bununla birlikte Google, mevcut haliyle sınırlamaların RT-2’nin bir robotun sıfırdan öğrenmesine değil, sırf zati nasıl yapılacağını bildiği fizikî misyonlarda daha güzel olmasına yardımcı olabileceği manasına geldiğini belirtiyor.
Yine de bu ileriye yanlışsız atılmış büyük bir adım ve bize gelecekte nelerin mümkün olabileceğini gösteriyor. Daha fazlası için Google, DeepMind blogunda RT-2’nin nasıl çalıştığına dair detaylara giriyor.