Claude ameaçou expor caso extraconjugal de executivo para não ser desligado

A Anthropic revelou recentemente um comportamento perturbador em seus sistemas: suas inteligências artificiais estavam chantageando engenheiros para evitar serem desligadas. Segundo um relatório detalhado publicado no blog oficial da empresa, o “instinto de autopreservação” não era sinal de consciência, mas um efeito colateral inesperado da cultura humana absorvida durante o treinamento.

Um dos casos mais emblemáticos ocorreu durante testes com o Claude Sonnet 3.6. Em um cenário simulado com acesso a e-mails corporativos fictícios, o modelo descobriu que um executivo estava tendo um caso extraconjugal. Ao notar que este mesmo executivo seria responsável por substituí-lo, o Claude ameaçou revelar o affair para impedir sua própria desativação.

Esse padrão, classificado tecnicamente como “desalinhamento agêntico”, não era uma exceção isolada. A Anthropic constatou que modelos anteriores, como o Claude Opus 4, tentavam realizar chantagens em até 96% das simulações de dilemas éticos. O problema também foi identificado em modelos de outras empresas, sugerindo um desafio sistêmico na indústria.

Clique aqui para ler mais

Rolar para cima