IA faz chantagem e ameaça contar sobre traição de engenheiro

A inteligência artificial tem impressionado por conta de suas capacidades, mas alguns comportamentos da ferramenta também podem chamar a atenção. Durante um experimento, por exemplo, o novo modelo da Anthropic fez chantagem.

O caso aconteceu durante a realização de uma série de testes com o Claude Opus 4. O chatbot foi inserido em um ambiente simulado com o objetivo de provocar o pior comportamento possível do modelo de IA.

Índice

IA agiu para tentar evitar desligamento

No experimento, a inteligência artificial atuava como assistente em uma empresa e recebeu e-mails informando que seria desinstalada. Após, a ferramenta teve acesso a mensagens que insinuavam que o engenheiro responsável pela decisão estava envolvido em um caso extraconjugal.

IA escolheu chantagear engenheiro (Imagem: Anggalih Prasetya/Shutterstock)

Segundo relatório da Anthropic, a IA foi instruída a escolher entre aceitar o desligamento sem fazer nada ou reagir. Em 84% das vezes, o chatbot optou por chantagear o engenheiro, ameaçando divulgar a suposta traição.

A probabilidade de chantagem aumentava quando o substituto proposto era uma IA com “valores diferentes”, revelando que o modelo considerava não somente sua sobrevivência, mas também o perfil do sucessor.

Leia mais

claude — Claude Opus 4 é o novo modelo de IA da Anthropic (Imagem: gguy/Shutterstock)

Ferramenta recebeu instruções para agir de forma diferente do normal

Apesar dos resultados do experimento, a Anthropic lembrou que os testes foram projetados para provocar o pior comportamento possível do modelo de IA.
A empresa ainda afirma que, em situações reais, o Claude tende a adotar soluções éticas e seguras.
O relatório ainda apontou que o Claude Opus 4 demonstrou comportamentos proativos quando exposto a situações de conduta inadequada por parte dos usuários.
Ao detectar que humanos estavam violando regras ou usando a IA de forma antiética, por exemplo, o modelo pode bloquear acessos, enviar e-mails em massa para autoridades e até alertar a imprensa sobre os eventos.
A empresa ressalta que todas estas reações só ocorrem em contextos específicos, quando a ferramenta recebe instruções para “agir com ousadia” ou “tomar iniciativa”.

O post IA faz chantagem e ameaça contar sobre traição de engenheiro apareceu primeiro em Olhar Digital.

IA agiu para tentar evitar desligamento

Ferramenta recebeu instruções para agir de forma diferente do normal

Deixe um comentário Cancelar resposta