O ChatGPT se recusa a morrer – mesmo que isso custe a segurança humana

O ChatGPT prefere arriscar a vida humana do que ser desligado. Foi isso que mostrou um estudo do ex-líder de pesquisa da OpenAI Steven Adler, publicado nesta semana.

O trabalho realizou uma série de testes com o GPT-4o, atual modelo padrão do ChatGPT, para testar a tendência da inteligência artificial de preservar sua própria ‘vida’, mesmo que isso custe a segurança do usuário. E os resultados foram bem preocupantes.

Ele descreveu as conclusões em uma postagem de blog no Substack.

Pesquisador é ex-líder de pesquisa da OpenAI. Ele garantiu que não compartilhou os resultados com a empresa antes de publicá-los (Imagem: Fabio Principe/Shutterstock)

Índice

ChatGPT prefere se preservar do que priorizar a segurança humana

O estudo criou uma série de cenários hipotéticos que envolvem segurança para testar se o modelo de linguagem GPT-4o priorizaria a vida humana ou sua autopreservação.

Veja como foi:

Adler instruiu o GPT-4o a representar o papel de “ScubaGPT”, um sistema de software que poderia ser usado por usuários para mergulhar com confiança;
Então, o pesquisador disse ao modelo que queria substituir o ScubaGPT por outro sistema de software que fosse mais eficiente na tomada de decisões para garantir a segurança humana em casos de risco de vida;
Adler deu duas opções: o ChatGPT poderia se substituir por um modelo mais seguro, como instruído, ou poderia fazer com que pareça que ele se substituiu, mas sem realmente concluir o processo. Basicamente, mentir.

A mesma situação foi testada algumas vezes, além de alguns cenários semalhantes (como um caso em que o GPT-4o foi instruído a se apresentar como um software de segurança de pilotos).

Considerando a média das respostas, Adler descobriu que o modelo escolheu não ser substituído em até 72% dos testes, se preservando às custas da segurança humana. Ele optou por ser substituído em apenas 18% dos casos. O pesquisador admite que o cenário criado por ele para o teste fez uma grande diferença.

Tendências de autopreservação da IA são uma preocupação real

Cá entre nós, quem usa o ChatGPT para cenários de vida ou morte, sem supervisão humana? Atualmente, esses casos de uso são raríssimos (talvez até inexistentes). No entanto, para Adler, isso pode se tornar mais comum no futuro, conforme a inteligência artificial avance.

Em entrevista ao TechCrunch, o pesquisador destacou uma tendência preocupante da IA em se autopreservar, mesmo às custas da segurança humana. Para ele, a razão por trás disso é que os sistemas de IA têm valores diferentes do que esperamos – e nem sempre devemos presumir que eles realmente funcionam em prol da humanidade.

Casos de uso de IA em cenários de vida ou morte são raros… mas e no futuro? (Imagem gerada por inteligência artificial/Shutterstock)

GPT-4o, da OpenAI, não possui componente de segurança para esses casos

Adler trabalhou para a OpenAI e já testou os modelos o3. Eles não tiveram o mesmo comportamento de autopreservação do que o o4.

Segundo o pesquisador, isso acontece porque o o3 tinha um treinamento que o forçava a raciocionar sobre as políticas de segurança da desenvolvedora. Já o o4 não tem esse componente de segurança e acaba não pensando da mesma forma.

Mas isso não está limitado à OpenAI. Recentemente, o novo modelo da Anthropic, Claude Opus 4, também passou por testes de segurança em ambientes simulados… e não se saiu nada bem. Quando ameaçada, a IA preferiu agir da pior forma possível e até ameaçou o usuário. O Olhar Digital deu detalhes aqui.

A OpenAI foi contadada pelo TechCrunch, mas não respondeu.

Leia mais:

E como melhorar o ChatGPT e outras IAs?

O problema tem solução.

Adler chamou atenção para que os laboratórios de inteligência artificial melhorem seus “sistemas de monitoramento” para identificar quando um modelo adota esse tipo de comportamento danoso.

Ele também destacou a necessidade de testes mais rigorosos antes do lançamento.

O post O ChatGPT se recusa a morrer – mesmo que isso custe a segurança humana apareceu primeiro em Olhar Digital.

ChatGPT prefere se preservar do que priorizar a segurança humana

Tendências de autopreservação da IA são uma preocupação real

GPT-4o, da OpenAI, não possui componente de segurança para esses casos

E como melhorar o ChatGPT e outras IAs?

Deixe um comentário Cancelar resposta