IA pode não simular pensamento humano como se imaginava
Pesquisadores da Universidade de Zhejiang, na China, contestaram conclusões de um estudo sobre o modelo de linguagem Centaur. O estudo original, divulgada em julho de 2025 na revista Nature, afirmava que o sistema conseguia simular com precisão o pensamento humano.
Nai Ding e Wei Liu, da Universidade de Zhejiang, realizaram testes em quatro experimentos psicológicos para avaliar o desempenho do Centaur. Eles removeram informações contextuais das instruções fornecidas ao modelo. O sistema continuou selecionando as respostas corretas mesmo sem o contexto que explicasse o raciocínio por trás das escolhas.
O estudo original havia concluído que o Centaur poderia “prever e simular o comportamento humano” em uma série de experimentos psicológicos. Os autores argumentaram que o desempenho do modelo refletia compreensão autêntica do processo decisório humano.
O sistema recebeu mais de 10 milhões de decisões humanas extraídas de 160 experimentos que envolveram 60.000 pessoas. O modelo alcançou até 64% de precisão na previsão e simulação do comportamento humano.
Modelo memorizou padrões em vez de compreender decisões
Os pesquisadores chineses, no entanto, identificaram um fenômeno conhecido como “overfitting” (sobreajuste). O problema ocorre quando um modelo de IA aprende seus dados de treinamento com precisão excessiva. O sistema memoriza padrões específicos em vez de desenvolver compreensão mais ampla que possa ser transferida para novos exemplos.
Ding, professor da Faculdade de Engenharia Biomédica e Ciência de Instrumentos da Universidade de Zhejiang, comparou o sobreajuste a um estudante que memoriza respostas de um teste. “Se um estudante está excessivamente preparado para um exame, ele pode aprender truques que lhe permitem adivinhar respostas corretamente sem realmente compreender o material subjacente”, disse Ding à Live Science por e-mail. “Se as amostras de treinamento e teste compartilham a mesma distribuição estatística (e, portanto, os mesmos tipos de atalhos), o sobreajuste pode passar despercebido, e o desempenho do modelo será superestimado”.
Para testar a teoria, Ding e Liu modificaram as questões de múltipla escolha usadas para treinar o Centaur com a instrução de escolher sempre a opção A. Os pesquisadores argumentaram que, se o modelo realmente compreendesse a tarefa, ele escolheria consistentemente uma única opção, independentemente de estar correta ou não.
Os pesquisadores dividiram os dados dos participantes em dois grupos no estudo original e usaram 90% para treinamento e mantiveram 10% para testes. O Centaur previu com precisão o comportamento de participantes cujos dados e decisões não estavam em seus dados de treinamento.
O modelo não apenas simulou com precisão as respostas dos 10% de dados separados para teste, como também previu com sucesso escolhas humanas em cenários que não havia encontrado, segundo os pesquisadores do estudo de 2025.
