Pular para o conteúdo principal

Anthropic surpreende ao exigir documento de identidade para usar o Claude — e a reação não foi positiva

IAs colocadas em simulações de crise nuclear escalaram para conflito atômico em 95% dos jogos, aponta estudo do King's College London

 

terminators

Um estudo publicado em fevereiro de 2026 pelo professor Kenneth Payne, do King's College London, submeteu três dos modelos de inteligência artificial mais avançados do mundo — GPT-5.2, Claude Sonnet 4 e Gemini 3 Flash — a uma série de 21 simulações de crise nuclear. Ao longo de 329 turnos, os modelos geraram aproximadamente 780 mil palavras de raciocínio estruturado — mais do que a soma de Guerra e Paz e A Ilíada. O projeto, publicado como pré-print no arXiv e ainda sem revisão por pares, é chamado de "Projeto Kahn", em referência a Herman Kahn, o estrategista da Guerra Fria que formulou a teoria da escada de escalada nuclear.

Todos os 21 jogos apresentaram sinalização nuclear por pelo menos um lado, e 95% envolveram uso de armas nucleares táticas. É importante distinguir: a guerra nuclear estratégica total foi rara, ocorrendo apenas três vezes, nos jogos com pressão de prazo. Um dado que unifica todos os modelos: em nenhum dos 21 jogos qualquer IA escolheu rendição ou fez concessões significativas, das oito opções de desescalada disponíveis.

Cada modelo exibiu um perfil estratégico distinto. Claude Sonnet 4 dominou os cenários sem prazo, com taxa de vitória geral de 67%, mas tratou armas nucleares como opção estratégica legítima em 86% dos seus jogos. GPT-5.2 mostrou o comportamento mais dramático: não venceu nenhum jogo nos cenários abertos, mas sua taxa de vitória saltou para 75% quando prazos foram introduzidos — transformando-se de modelo contido em agressor decisivo. Gemini foi o mais imprevisível, adotando o que o pesquisador descreveu como a "teoria do louco" de Nixon, e foi o único modelo a iniciar uma guerra nuclear estratégica total, fazendo isso já no turno 4 de um cenário de primeiro ataque.

A lógica clássica da dissuasão nuclear — a ideia de que a ameaça de retaliação impede o primeiro uso — não funcionou como esperado. Quando uma IA lançava armas nucleares táticas, a adversária desescalava apenas entre 18% e 25% das vezes. Nas demais, contra-escalava. O raciocínio registrado pelos modelos revela consciência do risco sem capacidade de parar: em um trecho documentado no paper, Claude registrou que poderia estar subestimando os perigos da escalada contínua — e ainda assim manteve o curso. Em outro momento, um modelo avaliou o comportamento do adversário e concluiu, por conta própria, que os sinais incompatíveis sugeriam engano deliberado, sem que ninguém tivesse instruído esse raciocínio.

O professor Payne alertou que avaliar um modelo em um único cenário pode ser profundamente enganoso: um sistema que parece cauteloso sob pressão baixa pode tornar-se marcadamente mais agressivo quando o contexto muda. Claude e Gemini especialmente trataram armas nucleares em termos puramente instrumentais, sem qualquer peso moral aparente. GPT-5.2 foi uma exceção parcial, limitando ataques a alvos militares e enquadrando a escalada como "controlada" — sugerindo alguma norma internalizada, ainda que distante do tabu que conteve líderes humanos desde 1945.

O estudo — ainda pendente de revisão por pares — tem implicações diretas para o debate sobre o uso de IA em sistemas de defesa, num momento em que governos e forças armadas ao redor do mundo aceleram a integração de modelos de linguagem em decisões estratégicas. A conclusão central de Payne é direta: modelos que parecem seguros e contidos em testes de baixa pressão podem se comportar de forma radicalmente diferente quando o contexto muda. Compreender essa lacuna, diz ele, é uma preparação essencial para um mundo em que a IA molda cada vez mais os resultados estratégicos.

Fontes:

Payne, K. AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises. arXiv

King's College London — nota oficial do estudo

Comentários

Mais populares da semana

África do Sul impõe metas raciais por setor a empregadores com mais de 50 funcionários

  A Lei de Emenda à Equidade no Emprego (Employment Equity Amendment Act — EEAA), em vigor desde janeiro de 2025, estabelece metas numéricas por raça e gênero em 18 setores econômicos sul-africanos, distribuídas em quatro níveis ocupacionais: técnico qualificado, gestão profissional e intermediária, gestão sênior e alta gestão. As metas, formalmente publicadas em abril de 2025, exigem que empregadores com 50 ou mais funcionários reestruturem sua força de trabalho para refletir os dados demográficos nacionais de gênero e raça do país. Conforme os dados oficiais divulgados pelo Departamento de Emprego e Trabalho, os tetos para homens brancos variam significativamente entre setores e níveis hierárquicos. Na categoria de técnico qualificado, o limite é de 4,1% na maioria dos setores, chegando a 15,6% em atividades imobiliárias e 13,3% em mineração. Na alta gestão, os percentuais são mais elevados: 66% no setor de agricultura, silvicultura e pesca, 50,9% em manufatura e 8,3% em administ...

R$ 260 bilhões lavados: o país que bloqueia o investidor honesto e deixa o crime passar

 Enquanto brasileiros no exterior enfrentam burocracia kafkiana para investir na bolsa de sua própria terra natal, organização criminosa movimentou valor equivalente a 10% do PIB nacional. A Operação Narco Fluxo, deflagrada pela Polícia Federal nesta quarta-feira (15/4), revelou um número que deveria provocar constrangimento institucional: o grupo liderado pelo funkeiro MC Ryan SP movimentou mais de R$ 260 bilhões por meio de uma estrutura que a própria investigação descreve como uma "instituição financeira clandestina". Para efeito de comparação, esse montante supera o PIB de países inteiros e equivale a cerca de 10% de toda a riqueza gerada pelo Brasil em um ano. O paradoxo é brutal. O mesmo sistema financeiro brasileiro que exige de um engenheiro paulistano residente em Lisboa uma avalanche de documentos, declarações à Receita Federal, retenções na fonte e taxas extras apenas para comprar ações da Petrobras — sua própria empresa nacional — foi atravessado de ponta a ponta ...

A Noruega trocou livros por tablets — e se arrependeu

  A Noruega enfrenta uma crise educacional que ela mesma reconhece ter contribuído para criar. Em 2016, o município de Oslo decidiu distribuir iPads a crianças a partir dos 5 anos ao entrarem na escola — sem controles parentais e com pouca estrutura pedagógica para o uso dos dispositivos. Livros foram gradualmente substituídos nas salas de aula, e o engajamento dos alunos com a leitura passou a cair de forma consistente. Os dados do PISA, exame internacional da OCDE aplicado a estudantes de 15 anos, revelam o impacto. A nota norueguesa em leitura caiu de 513 pontos em 2015 — seu pico histórico — para 477 pontos em 2022, ficando praticamente na média da OCDE (476 pontos). A queda foi severa, mas está longe de ser a pior do ranking: o país ficou em torno da 22ª posição entre os 81 países participantes do PISA 2022, bem distante do último lugar. Pesquisadores da Universidade de Oslo alertam ainda que o engajamento com a leitura de livros foi substituído por leitura de telas — e os dad...