Google DeepMind Anuncia Controlador de Robô Baseado em LLM, o RT-2
O Google DeepMind anunciou recentemente o Robotics Transformer 2 (RT-2), um modelo de IA de visão-linguagem-ação (VLA) para controlar robôs. O RT-2 utiliza um LLM ajustado para emitir comandos de controle de movimento. Pode realizar tarefas que não estavam explicitamente incluídas em seus dados de treinamento e melhora os modelos de base em até 3 vezes nas avaliações de habilidades emergentes.
DeepMind treinou duas variantes do RT-2, usando dois diferentes modelos de fundação visual-LLM: uma versão de 12B parâmetros baseada no PaLM-E e uma de 55B parâmetros baseada no PaLI-X. O LLM é co-ajustado em uma mistura de conjuntos de dados de visão-linguagem gerais e dados específicos de robôs. O modelo aprende a emitir um vetor de comandos de movimento do robô, que é tratado simplesmente como uma sequência de inteiros: na prática, é uma nova linguagem que o modelo aprende. O modelo final é capaz de aceitar uma imagem do espaço de trabalho do robô e um comando do usuário, como “pegue a bolsa prestes a cair da mesa”, e a partir disso gerar comandos de movimento para realizar a tarefa. De acordo com o DeepMind,
O RT-2 não só mostra como os avanços em IA estão rapidamente se espalhando para a robótica, mas também mostra um enorme potencial para robôs de propósito mais geral. Ainda há muito trabalho a ser feito para habilitar robôs úteis em ambientes centrados no ser humano, mas o RT-2 nos mostra um futuro emocionante para a robótica ao nosso alcance.
Google Robotics e DeepMind publicaram vários sistemas que usam LLMs para controle de robôs. Em 2022, InfoQ cobriu o SayCan do Google, que utiliza um LLM para gerar um plano de ação de alto nível para um robô, e Code-as-Policies, que usa um LLM para gerar código Python para executar o controle do robô. Ambos usam um LLM apenas de texto para processar a entrada do usuário, com o componente de visão tratado por módulos de robôs separados. No início deste ano, o InfoQ cobriu o PaLM-E do Google, que lida com dados de entrada multimodais de sensores robóticos e produz uma série de etapas de ação de alto nível.
O RT-2 é baseado em uma implementação anterior, o RT-1. A principal ideia da série RT é treinar um modelo para emitir diretamente comandos de robô, em contraste com esforços anteriores que emitiam abstrações de movimento de nível mais alto. Tanto o RT-2 quanto o RT-1 aceitam como entrada uma imagem e uma descrição textual de uma tarefa. No entanto, enquanto o RT-1 usava um pipeline de módulos de visão distintos para gerar tokens visuais para entrada em um LLM, o RT-2 usa um único modelo de visão-linguagem como o PaLM-E.
DeepMind avaliou o RT-2 em mais de 6.000 testes. Em particular, os pesquisadores estavam interessados em suas capacidades emergentes: isto é, realizar tarefas não presentes nos dados de treinamento específicos do robô, mas que emergem de seu pré-treinamento de visão-linguagem. A equipe testou o RT-2 em três categorias de tarefas: compreensão de símbolos, raciocínio e reconhecimento humano. Quando comparado com as linhas de base, o RT-2 alcançou “mais de 3 vezes a taxa média de sucesso” da melhor linha de base. No entanto, o modelo não adquiriu habilidades físicas que não estavam incluídas nos dados de treinamento do robô.
Em uma discussão no Hacker News sobre o trabalho, um usuário comentou:
Parece que este trabalho (e muitos trabalhos de aprendizado de robôs) ainda estão presos no controle de posição/velocidade e não no controle de impedância. Isso parece reduzir drasticamente a necessidade de dados, mas parece um limite fundamental para que tarefas possamos realizar. A manipulação de robôs é difícil porque precisamos levar em conta não apenas o que está acontecendo no mundo, mas também como nossa interação o altera e como precisamos reagir a isso.
Embora o RT-2 não tenha sido disponibilizado em código aberto, o código e os dados para o RT-1 foram.
Fonte: InfoQ: https://www.infoq.com/news/2023/10/deepmind-robot-transformer/