Pesquisadores da Google Research lançaram o VANTAGE, um experimento que usa modelos de linguagem grandes (LLMs) para simular interações em equipe e avaliar habilidades humanas consideradas essenciais no futuro: colaboração, criatividade e pensamento crítico. Chamadas de “durable skills” ou habilidades duráveis, essas competências resistem à automação e vão além do que testes padronizados tradicionais conseguem capturar.
O sistema coloca o usuário em conversas abertas com avatares de IA que atuam como colegas de equipe. Em vez de respostas múltipla escolha ou tarefas isoladas, a interação acontece de forma natural, como em uma reunião real ou debate. O grande diferencial está na arquitetura: um “Executive LLM” único coordena todos os avatares, usando um rubrica pedagógica para guiar a conversa e criar oportunidades específicas para que o participante demonstre cada habilidade.
O que é o VANTAGE e como funciona
O VANTAGE resolve um dilema antigo na avaliação educacional. Testes padronizados oferecem controle e reprodutibilidade, mas faltam autenticidade. Já interações humanas reais são autênticas, porém difíceis de escalar e padronizar. A solução da Google combina as duas coisas: simula cenários reais com IA e mantém controle programático.
O Executive LLM não deixa a conversa fluir ao acaso. Ele monitora o diálogo em tempo real e introduz desafios direcionados:
- Em colaboração, pode gerar um conflito entre avatares ou criar um gargalo de planejamento.
- Em criatividade, estimula ideias originais ou pede elaboração.
- Em pensamento crítico, apresenta argumentos falhos para o usuário analisar e julgar.
Essa orquestração garante que surjam evidências claras das habilidades, mesmo que os participantes não as demonstrem espontaneamente. Experimentos mostraram que simplesmente pedir ao usuário para “prestar atenção em resolução de conflitos” não aumenta a taxa de evidências relevantes. O direcionamento precisa vir da IA.
O mesmo LLM (ou outro especializado) também atua como avaliador automático. Ele analisa cada turno da conversa e atribui notas com base na rubrica. Nos testes, o acordo entre o avaliador de IA e especialistas humanos ficou no mesmo patamar do acordo entre dois avaliadores humanos.
Resultados dos experimentos com humanos
Os pesquisadores recrutaram 188 participantes entre 18 e 25 anos, falantes nativos de inglês nos Estados Unidos. Cada um participou de duas conversas de cerca de 30 minutos, totalizando 373 transcrições válidas. As tarefas envolviam planejamento de experimento científico ou debate estruturado.
Para colaboração, avaliaram duas sub-habilidades principais:
- Resolução de Conflitos (Conflict Resolution)
- Gerenciamento de Projetos (Project Management)
Com o Executive LLM ativado, as taxas de evidência de comportamentos relevantes subiram significativamente em comparação com agentes independentes (sem coordenação central). No nível da conversa inteira, o sistema capturou evidências em até 92,4% dos casos para Gerenciamento de Projetos e 85% para Resolução de Conflitos.
O avaliador automático alcançou concordância com especialistas humanos comparável à concordância entre humanos (Cohen’s Kappa moderado, na faixa de 0,45 a 0,64). Isso indica que a IA já consegue pontuar essas habilidades complexas com precisão próxima à de avaliadores pedagógicos treinados.
Criatividade e pensamento crítico também avançam
Embora a validação principal tenha focado em colaboração, os pesquisadores testaram o mesmo paradigma em criatividade e pensamento crítico usando simulações. O Executive LLM superou agentes independentes em todas as oito dimensões analisadas:
- Criatividade: fluidez, originalidade, qualidade, construção sobre ideias, elaboração e seleção.
- Pensamento crítico: interpretação/análise e avaliação/julgamento.
Em um estudo separado com 280 alunos do ensino médio, em parceria com a OpenMic, o avaliador automático de criatividade obteve correlação Pearson de 0,88 com as notas totais dadas por especialistas humanos em tarefas multimídia complexas. No nível de itens individuais, o Kappa foi de 0,66, considerado bom acordo.
Por que um único Executive LLM faz diferença
Usar vários LLMs independentes, cada um controlando um avatar, resulta em conversas mais naturais, mas sem garantia de que as habilidades desejadas aparecerão. O Executive LLM resolve isso: ele tem acesso à rubrica de avaliação e usa essa informação para orquestrar ativamente os avatares.
Essa abordagem lembra testes adaptativos computadorizados, mas aplicada a conversas abertas. O resultado é maior taxa de “informação útil” por conversa, o que torna a avaliação mais eficiente e confiável.
Outra vantagem prática: os pesquisadores validaram que simulações com LLMs podem substituir participantes humanos durante o desenvolvimento do protocolo. Isso reduz custos e riscos antes de coletar dados reais.
Feedback transparente e mapa de habilidades
Além da nota final, o VANTAGE entrega um mapa visual de competências com níveis em cada habilidade e sub-habilidade. O usuário pode clicar e ver trechos específicos da conversa que justificam cada pontuação. Essa transparência ajuda tanto na prática quanto na compreensão do que precisa melhorar.
Implicações para educação e desenvolvimento de habilidades
O VANTAGE surge em um momento em que habilidades como colaboração, criatividade e pensamento crítico ganham importância crescente. Com a automação avançando em tarefas técnicas, as competências “humanas” se tornam diferenciais no mercado de trabalho e na educação.
A proposta da Google oferece um caminho escalável para medir e praticar essas habilidades com o mesmo rigor usado em matemática ou ciências. Estudantes do ensino médio e superior podem usar o ambiente como sandbox seguro para treinar interações complexas.
O experimento está disponível em inglês no Google Labs para quem quiser testar. A pesquisa foi desenvolvida em parceria com especialistas em pedagogia da New York University.
O que vem a seguir
Os pesquisadores continuam coletando dados humanos para criatividade e pensamento crítico. Futuros trabalhos devem expandir validações, idiomas e faixas etárias. O foco inicial é criar uma camada mensurável de habilidades que possa se integrar a currículos existentes.
Aqui vão três pontos essenciais sobre o VANTAGE:
- Arquitetura centralizada vence dispersa: Um Executive LLM coordenando todos os avatares gera mais evidências úteis que múltiplos agentes independentes.
- Avaliação automática já rivaliza com humanos: Concordância com especialistas se aproxima do nível inter-humano, abrindo caminho para avaliações em larga escala.
- Direcionamento ativo é fundamental: A IA precisa criar desafios intencionais; instruções passivas para o usuário não surtem efeito significativo.
Três aplicações práticas imediatas:
- Escolas e universidades podem integrar simulações para treinar trabalho em equipe antes de projetos reais.
- Empresas conseguem avaliar candidatos ou desenvolver equipes em habilidades interpessoais de forma padronizada.
- Desenvolvedores de edtech ganham um modelo replicável para construir ferramentas de avaliação mais autênticas.
O VANTAGE representa um avanço concreto na direção de avaliações que espelham o mundo real sem perder rigor científico. Ao combinar simulação naturalista com controle programático, a Google mostra que LLMs podem ir além de gerar texto e ajudar a medir o que realmente importa para o futuro do trabalho e da aprendizagem.










