Quando o ChatGPT chegou pela primeira vez, recebemos um chatbot baseado em texto que poderia tentar responder razoavelmente a qualquer pergunta, mesmo que tenha entendido as coisas (ainda assim, como as alucinações não desapareceram). Não demorou muito para a IA obter novas habilidades. Pode ver as coisas através de fotos e vídeos. Ele podia ouvir os humanos falarem e responder através de sua própria voz.
O próximo passo foi dar aos olhos e ouvidos da IA que pudessem observar seu ambiente em tempo real. Já temos óculos inteligentes que fazem isso, o modelo Ray-Ban. O Google e outros estão trabalhando em produtos semelhantes. A Apple pode colocar câmeras dentro do AirPods pelo mesmo motivo.
O trabalho estará completo quando a IA tiver um corpo para estar fisicamente presente ao nosso redor e nos ajudar a todos os tipos de tarefas que exigem lidar com objetos da vida real. Eu vi a escrita na parede meses atrás, quando disse que queria robôs de IA humanóides para o lar.
Mais recentemente, vi o tipo de modelo de IA que daria aos robôs os inteligentes para ver e entender o mundo físico ao seu redor e interagir com objetos e ações em que nunca foram treinados. Essa foi a figura da visualização da visão (VLA) para robôs de IA.
Sem surpresa, outros estão trabalhando em tecnologia semelhante, e o Google acaba de anunciar dois modelos de robótica Gemini que me surpreenderam. Como a tecnologia da figura, o Gemini Robotics AIs ajudará os robôs a entender os comandos humanos, seus arredores e o que precisam fazer para executar as tarefas que os humanos lhes dão.
Ainda estamos nos primeiros dias da AI Robotics, e vai demorar um pouco até que o ajudante de robô humanóide que eu quero pela casa esteja pronto para o consumo em massa. Mas o Google já está estabelecendo as bases para esse futuro.
Google Deepmind publicado uma postagem no blog e um artigo de pesquisa Descrevendo os novos modelos Robotics e Gemini Robotics-ER que desenvolveu na parte de trás da Gemini 2.0 Tech. Esse é o programa de IA generativo mais avançado do Google disponível para os usuários no momento.
O Google Robotics é o VLA construído no Gemini 2.0 “com a adição de ações físicas como uma nova modalidade de saída com o objetivo de controlar diretamente robôs”.
O segundo é “um modelo de Gêmeos com entendimento espacial avançado, permitindo que os roboticistas administrem seus próprios programas usando as habilidades de Raciocínio Incorporado (ER) de Gêmeos”. É apropriadamente chamado Gemini Robotics-er.
Por raciocínio incorporado, o Google significa que os robôs precisam desenvolver “a capacidade humana de compreender e reagir ao mundo ao nosso redor” e fazê -lo com segurança.
O Google compartilhou vários vídeos que mostram robôs de IA em ação, respondendo aos comandos de linguagem natural e se adaptando às mudanças de paisagens. Graças a Gêmeos, os robôs podem ver seus arredores e entender a linguagem natural. Eles podem executar novas tarefas, mesmo que nunca tivessem interagido com objetos ou lugares antes.
O Google explica os três princípios que guiaram o desenvolvimento da Gemini Robotics. Isso é generalidade, interatividade e destreza:
Para ser útil e útil para as pessoas, os modelos de IA para a robótica precisam de três qualidades principais: elas precisam ser gerais, o que significa que são capazes de se adaptar a diferentes situações; Eles precisam ser interativos, o que significa que podem entender e responder rapidamente a instruções ou mudanças em seu ambiente; E eles precisam ser dexteros, o que significa que podem fazer os tipos de coisas que as pessoas geralmente podem fazer com as mãos e os dedos, como manipular cuidadosamente objetos.
Como você verá nos vídeos deste post, os robôs podem reconhecer todos os tipos de objetos em uma tabela e executar tarefas em tempo real. Por exemplo, um robô bate um pequeno basquete através de um aro quando instruído.
Os robôs da IA também podem se adaptar rapidamente à mudança da paisagem. Disseram para colocar bananas em uma cesta de uma cor específica em uma mesa, os robôs executam a tarefa corretamente, mesmo que o humano mova irritantemente a cesta.
Finalmente, os robôs da AI podem exibir habilidades motoras finas, como dobrar origami ou embalar uma bolsa de ziplock.
O Google explica que o modelo Gemini Robotics funciona com todos os tipos de tipos de robôs, seja uma plataforma robótica bi-bra-bra ou um modelo humanóide.
A Gemini Robotics-Er é uma tecnologia AI igualmente brilhante para robótica. Esse modelo se concentra em entender o mundo para que os robôs possam executar movimentos e tarefas no espaço que eles deveriam executar ações. Com a Gemini Robotics-ER, a AI Robots empregaria o Gemini 2.0 para codificar (Razão?) Em tempo real:
A Gemini Robotics-Er melhora as habilidades existentes de Gemini 2.0, como apontar e detecção em 3D por uma grande margem. Combinando o raciocínio espacial e as habilidades de codificação de Gêmeos, a Gemini Robotics-ER pode instanciar recursos totalmente novos em tempo real. Por exemplo, quando mostrado uma caneca de café, o modelo pode intuir uma compreensão apropriada de dois dedos para pegá-la pela alça e uma trajetória segura para abordá-la.
Tudo isso é muito emocionante, pelo menos para esse entusiasta da IA, mesmo sabendo que tenho muita espera para fazer até que os robôs de IA alimentados por essa tecnologia estejam disponíveis comercialmente.

Antes de começar a se preocupar com os robôs de IA se tornarem o inimigo, como nos filmes, você deve saber que o Google também desenvolveu um Constituição do robô Em trabalhos anteriores, para garantir que os robôs de IA se comportem com segurança em seus ambientes e evitem danos aos seres humanos. A Constituição de Segurança é baseada nas três leis da robótica de Isaac Asimov, com o Google atualizando -o para criar uma nova estrutura que pode ser ajustada ainda mais por meio de instruções simples de linguagem natural:
Desde então, desenvolvemos uma estrutura para gerar automaticamente constituições orientadas a dados-regras expressas diretamente na linguagem natural-para direcionar o comportamento de um robô. Essa estrutura permitiria que as pessoas criassem, modificassem e apliquem constituições para desenvolver robôs mais seguros e mais alinhados com os valores humanos.
Você pode ler mais sobre os modelos de robótica Gemini Neste link.