Universidade de Zhejiang desenvolve inovador Sistema de Raciocínio Visual, permitindo que robôs processem informações 22 vezes mais rápido que a leitura de texto

Um grupo de pesquisadores da Universidade de Zhejiang, em parceria com a Universidade Cornell, a Universidade Nacional de Singapura e a Universidade Xidian, criou um sistema revolucionário de raciocínio visual que permite aos robôs realizarem suas decisões baseadas na visão, ao invés de dependerem de diálogos internos fundamentados na linguagem.

Nomeado VisualThink-VLA, esse sistema consegue uma aceleração impressionante de 22,8 vezes em relação a métodos tradicionais que utilizam texto para raciocinar, além de apresentar uma maior precisão nos resultados obtidos.

A essência do VisualThink-VLA reside no fato de que os modelos convencionais que associam Visão-Linguagem-Ação dependem de um raciocínio sequencial baseado em texto. Nesses modelos, o robô formula internamente um ensaio detalhando cada passo antes de agir, um processo que leva em média 8,377 segundos por etapa — extremamente lento para atividades que exigem manipulação em tempo real. Em contraste, o VisualThink-VLA substitui tokens textuais por tokens visuais, reduzindo o tempo necessário para apenas 0,367 segundos por etapa.

O sistema utiliza uma arquitetura com quatro canais de evidência visual: Caixa Delimitadora, Borda, Movimento e Relação. Ao invés de ativar todos os canais simultaneamente, o VisualThink-VLA incorpora um mecanismo adaptativo que seleciona em média apenas 2,22 canais por etapa, promovendo um equilíbrio eficiente entre qualidade no raciocínio e desempenho computacional.

Testes realizados em oito benchmarks resultaram em uma taxa média de sucesso impressionante de 92,63%, superando a abordagem textual ECoT, que obteve 85,09%. A velocidade do sistema é notavelmente superior: 22,8 vezes mais rápida e ainda mais precisa — uma combinação rara no campo da inteligência artificial onde frequentemente há um trade-off entre rapidez e qualidade.

Os pesquisadores testaram o sistema utilizando um braço robótico PIPER NERO com 7 graus de liberdade. O sucesso foi alcançado em tarefas como pegar e colocar múltiplos objetos, realizar colocações que consideram relações espaciais entre os itens envolvidos e executar tarefas compostas que requerem raciocínio sequencial.

Para treinamento do modelo, foi criado o VisualEvidence-Set, composto por 754.700 instruções cobrindo diversas situações de manipulação.

Uma das principais vantagens do design do VisualThink-VLA é sua funcionalidade como um módulo plug-and-play para sistemas VLA já existentes. Isso possibilita atualizar robôs que atualmente utilizam raciocínio baseado em texto sem a necessidade de trocar completamente suas arquiteturas subjacentes.

O artigo detalhando essa pesquisa pode ser encontrado no arXiv com o identificador 2605.30011.

Esse trabalho representa uma mudança significativa na abordagem do raciocínio robótico ao transitar da escrita interna para uma metodologia onde ver-pensar-agir se torna predominante. Essa evolução aproxima as operações dos robôs à maneira como os humanos processam informações visuais diretamente, sem a mediação da linguagem.

Material referencial publicado por Pandaily.