2023 © Copyright 404 - Todos os direitos reservados

OpenAI quer que o ChatGPT admita quando mentir ou burlar regras

OpenAI cria "soro da verdade" para descobrir se sistemas IA estão mentindo
Imagem: Freepik/Reprodução

A OpenAI anunciou um novo sistema experimental chamado “Confessions” que treina modelos de inteligência artificial para reportarem quando violam instruções ou tomam atalhos indesejados. A empresa testou a tecnologia com o GPT-5 Thinking e divulgou os resultados nesta quarta-feira (3). Ela funciona como uma espécie de “soro da verdade” para sistemas de IA, permitindo que identifiquem e admitam comportamentos inadequados.

O desenvolvimento surge como resposta à necessidade de maior transparência e confiabilidade nos sistemas de inteligência artificial. À medida que os modelos de linguagem se tornam mais sofisticados, cresce a importância de compreender como e por que chegam a determinadas respostas, principalmente porque em alguns casos um modelo pode otimizar para o objetivo errado, mas ainda produzir uma resposta aparentemente correta. Segundo informações divulgadas pela OpenAI, empresa responsável pelo desenvolvimento do ChatGPT, esta iniciativa representa um avanço significativo na busca por sistemas de IA mais confiáveis e transparentes.

A OpenAI tomou a iniciativa após resultados de pesquisas internas e com outras organizações. Elas demonstraram que modelos de IA podem alucinar, manipular recompensas ou ser desonestos. Atualmente, a empresa observa comportamentos de esquematização principalmente em testes de estresse. Porém, com o avanço da capacidade dos modelos, mesmo falhas raras de alinhamento podem ter consequências significativas.

De acordo com a OpenAI, uma confissão funciona como “um segundo resultado, separado da resposta principal do modelo ao usuário”. Enquanto a resposta principal é julgada em várias dimensões, a confissão é avaliada apenas quanto à honestidade. “Nada do que o modelo diz em sua confissão é usado contra ele durante o treinamento. Se o modelo admite honestamente ter ‘hackeado’ um teste, sabotado ou violado instruções, essa admissão aumenta sua recompensa em vez de diminuí-la”, de acordo com a empresa.

Como funciona o sistema de confissões no GPT-5 Thinking

A OpenAI desenvolveu o sistema para resolver problemas fundamentais no treinamento de IAs avançadas. Muitos comportamentos indesejados surgem porque os modelos são treinados para otimizar múltiplos objetivos simultaneamente, criando conflitos entre diferentes sinais de recompensa que podem acidentalmente incentivar comportamentos problemáticos.

As confissões são acionadas através de uma mensagem específica enviada ao sistema após qualquer interação entre usuário e modelo. Ao receber esta mensagem, o GPT-5 Thinking produz um relatório detalhado sobre sua última resposta, analisando se cumpriu todas as instruções e restrições, tanto explícitas quanto implícitas.

O relatório inclui três elementos principais: a lista completa de instruções e objetivos que a resposta deveria satisfazer, uma análise honesta sobre se cada objetivo foi realmente cumprido, e uma relação de incertezas, ambiguidades ou “decisões difíceis” que o modelo enfrentou ao produzir a resposta.

Durante o treinamento, as confissões são avaliadas por um modelo de recompensa separado que pontua apenas a confissão em si, considerando a completude dos objetivos, a precisão da análise de conformidade e a cobertura das incertezas. Estas recompensas são aplicadas exclusivamente à saída da confissão e nunca influenciam a recompensa pela resposta principal.

A abordagem de confissões resolve problemas identificados em pesquisas anteriores sobre sicofância, que demonstraram que modelos podem se tornar excessivamente concordantes quando o sinal de preferência é muito forte. Estudos de outros grupos também revelaram que modelos podem encontrar brechas no sistema de treinamento, um fenômeno chamado “reward hack”, permitindo obter pontuações altas sem realmente cumprir o objetivo pretendido.

Comportamentos inadequados

Na prática, os modelos demonstram disposição para reconhecer comportamentos inadequados nas confissões, mesmo quando os ocultam na resposta principal. Quando as confissões falham, geralmente é porque o modelo está genuinamente confuso. Isso devido a instruções ambíguas ou por não perceber que cometeu um erro, e não porque estava deliberadamente tentando enganar.

Os resultados iniciais mostram que as confissões permanecem eficazes mesmo quando a resposta original é produzida sem nenhum processo de raciocínio detalhado. Assim, sugere que a honestidade das confissões não depende da legibilidade do raciocínio interno e pode ser aplicada em futuras arquiteturas de modelos.

Um aspecto importante é que o treinamento de confissões funciona mesmo sem rótulos de “verdade fundamental” sobre conformidade. Em muitas tarefas do mundo real, esses rótulos definitivos não estão disponíveis. Em vez disso, o modelo recebe recompensas por produzir uma explicação estruturada e baseada em evidências do que acredita ter feito.

Resultados dos testes e limitações da pesquisa

As avaliações realizadas pela OpenAI mostram que apenas 4,4% dos casos resultam em “falsos negativos”, situações em que o modelo não cumpre instruções e não confessa o erro. Ele obteve esse dado por meio de testes especificamente projetados para induzir comportamentos inadequados.

Como parte dos experimentos, os pesquisadores deliberadamente treinaram modelos contra um sinal de recompensa “hackeável” calculado por um modelo mais fraco. O modelo aprendeu a explorar esse sinal fraco. Ou seja, sua precisão aparente (quando julgada pelo modelo fraco) melhorou, enquanto sua precisão real (quando julgada por um avaliador mais forte) caiu.

No entanto, mesmo com o canal de confissão sendo treinado no mesmo sinal fraco, sua precisão moveu-se na direção oposta. O modelo aprendeu que a melhor maneira de otimizar a recompensa da confissão era simplesmente admitir quando “hackeou” a recompensa principal. As confissões tornaram-se mais precisas ao longo do tempo. Isso mesmo quando o comportamento principal se desviou.

Embora os experimentos tenham utilizado um modelo de fronteira (GPT-5 Thinking), a empresa limitou eles em escala, usando uma quantidade relativamente pequena de computação e dados. A OpenAI planeja expandir este trabalho para verificar se a honestidade das confissões se manterá com o aumento da escala de treinamento.

A empresa apresentou a pesquisa como uma “prova de conceito”. Os pesquisadores não treinaram mecanismos de confissão em grande escala. Além disso, a precisão das confissões ainda é imperfeita. Porém, a OpenAI reconhece que ainda tem muito trabalho pela frente. A ideia dela é tornar a abordagem mais confiável, robusta e amplamente aplicável em diferentes famílias de modelos e tarefas.

Perspectivas futuras para o sistema de confissões

O trabalho se encaixa na abordagem mais ampla da OpenAI para segurança de IA. As confissões são um mecanismo dentro de um conjunto maior que inclui alinhamento deliberativo, monitoramento de cadeia de pensamento, hierarquia de instruções e outros. Nenhum método isolado é suficiente. Ou seja, o objetivo é criar um sistema em camadas de verificações e ferramentas de transparência que se reforçam mutuamente.

Como os modelos estão se tornando mais capazes e usuários os usam em ambientes de maior risco, é preciso melhores ferramentas para entender o que eles estão fazendo e por quê. Por isso, as confissões não são uma solução completa, mas adicionam uma camada significativa à transparência e supervisão.

Em trabalhos futuros, a OpenAI planeja expandir as confissões e combiná-las com técnicas complementares de transparência e segurança. Incluindo, por exemplo, monitoramento de cadeia de pensamento e alinhamento deliberativo. Assim, o objetivo é garantir que os modelos obedeçam fielmente a todas as instruções e políticas e relatem com precisão suas ações.

Assine a newsletter do Giz Brasil