Um meme que frequentemente ressurge nas redes sociais proclama: “Quero uma IA que lave minha roupa enquanto faço arte, não que faça arte enquanto lavo minha roupa”. Esta afirmação reflete uma tendência crescente na tecnologia, onde ferramentas generativas estão assumindo funções criativas, enquanto o ser humano continua com atividades menos apreciadas, como as tarefas domésticas. Recentemente, surgiram novas informações sobre essa realidade, como o projeto V-JEPA 2, desenvolvido pela Meta.
O nome V-JEPA 2 é uma abreviatura para Video Joint Embedding Predictive Architecture 2, e refere-se a uma tecnologia que utiliza vídeos para simular a forma como os seres humanos abordam tarefas complexas. Este sistema visa replicar como o cérebro humano processa diversos estímulos visuais ao nosso redor. Um vídeo divulgado pela Meta ilustra braços mecânicos que, com a ajuda do V-JEPA 2, estão começando a aprender a dobrar camisetas. Embora essa tarefa possa parecer simples, representa um desafio significativo para robôs, que enfrentam maior facilidade em reproduzir obras de arte do que em realizar tarefas cotidianas.
O V-JEPA 2, desenvolvido sob a liderança de um dos pioneiros em inteligência artificial, atua como o cérebro de um robô, funcionando como um “modelo do mundo”. Isso significa que ele constrói representações internas do ambiente, semelhantes a um mapa mental. Para alcançar esse nível de compreensão, a tecnologia foi treinada com mais de um milhão de horas de vídeo, durante as quais aprendeu sobre as leis da física e dinâmicas de objetos, sem a necessidade de intervenção humana para rotulagem dos dados.
No caso da tarefa de dobrar roupas, o modelo assiste a centenas de horas de vídeo para desenvolver uma compreensão intuitiva da física envolvida. Em vez de simplesmente memorizar os passos, ele antecipa como o tecido se comportará ao ser manipulado. Essa habilidade de prever as consequências das ações é crucial para a manipulação de materiais que são flexíveis e imprevisíveis. O resultado é que o robô ganha uma espécie de “bom senso” em relação a esses objetos.
Essa capacidade de previsão torna-se vital para robôs que precisam lidar com objetos ou que navegam em ambientes desconhecidos. Nos testes, robôs equipados com o V-JEPA 2 já demonstraram a habilidade de pegar, mover e organizar itens em locais desconhecidos, alcançando taxas de sucesso de até 80%.
As aplicações do V-JEPA 2 ultrapassam o campo da robótica convencional. Este modelo pode ser utilizado em veículos autônomos, assistentes domésticos, dispositivos de realidade aumentada e virtual, logística e também em sistemas de suporte para pessoas com deficiência visual. Por ser um projeto de código aberto, suas especificações estão disponíveis para pesquisadores e startups, promovendo a inovação global e democratizando o acesso a tecnologias avançadas de inteligência artificial.
A previsão é que a popularização de robôs, como os que frequentemente aparecem em vídeos nas redes sociais, aconteça em torno de 2027. Essa perspectiva é reforçada por especialistas da área, como Sam Altman, CEO da OpenAI. Em recente publicação, ele descreveu um futuro em que robôs operarão toda a cadeia de suprimentos, desde a mineração até a fabricação, acelerando o progresso em setores críticos, como a construção de novos data centers e fábricas de chips.
Jensen Huang, CEO da NVIDIA, considera essa evolução como a “próxima onda da IA”, a chamada “IA Física”. Em suas palestras, ele discutiu o conceito de uma inteligência artificial que compreende as leis da física e interage no ambiente humano, um objetivo que tecnologias como o V-JEPA 2 estão alcançando. Huang expressou a convicção de que essa transformação iniciará uma nova revolução industrial, afirmando com convicção que em breve “tudo o que se move será robótico”, destacando assim a transição da IA de algo abstrato para uma força atuante em nosso cotidiano.