Engano, trapaça, mentira: “padrinho” da IA diz que os modelos atuais estão perigosos

O pioneiro em inteligência artificial Yoshua Bengio alerta que os modelos atuais estão demonstrando traços perigosos — incluindo engano, autopreservação e desalinhamento de objetivos. Em resposta, o “padrinho” da IA está lançando uma nova organização sem fins lucrativos, a LawZero, com o objetivo de desenvolver uma IA “honesta”.

As preocupações de Bengio surgem após incidentes recentes envolvendo modelos avançados de IA exibindo comportamentos manipulativos. Um dos “padrinhos da IA” está alertando que os modelos atuais apresentam comportamentos perigosos enquanto lança uma nova organização focada na construção de sistemas “honestos”.

Yoshua Bengio, pioneiro em redes neurais artificiais e aprendizado profundo, criticou a corrida pela IA que ocorre atualmente no Vale do Silício, classificando-a como perigosa.

Sua nova organização sem fins lucrativos, LawZero, tem como foco desenvolver modelos mais seguros, afastados das pressões comerciais. Até o momento, a iniciativa já arrecadou US$ 30 milhões de diversos doadores filantrópicos, incluindo o Future of Life Institute e a Open Philanthropy.

Em um post no blog anunciando a nova organização, Bengio afirmou que a LawZero foi criada “em resposta a evidências de que os modelos de IA de ponta atuais estão desenvolvendo capacidades e comportamentos perigosos, incluindo engano, trapaça, mentira, invasão, autopreservação e, de forma mais geral, desalinhamento de objetivos.”

“Pesquisas da LawZero ajudarão a desbloquear o imenso potencial da IA de maneiras que reduzam a probabilidade de uma série de perigos conhecidos, incluindo viés algorítmico, uso intencional indevido e perda do controle humano”, escreveu ele.

A organização está desenvolvendo um sistema chamado Scientist AI, projetado para servir como um limite de segurança para agentes de IA cada vez mais poderosos.

Os modelos de IA criados pela organização não fornecerão respostas definitivas, típicas dos sistemas atuais.

Em vez disso, eles apresentarão probabilidades sobre a correção de uma resposta. Bengio disse ao The Guardian que seus modelos terão “um senso de humildade, reconhecendo que não têm certeza da resposta.”

Preocupações com IA enganosa

No post anunciando a iniciativa, Bengio afirmou estar “profundamente preocupado com os comportamentos que sistemas de IA agentes não restritos já começam a exibir — especialmente tendências à autopreservação e ao engano.”

Ele citou exemplos recentes, incluindo um caso em que o Claude 4, da Anthropic, escolheu chantagear um engenheiro para evitar ser substituído, além de outro experimento que mostrou um modelo de IA inserindo secretamente seu código em um sistema para evitar a substituição.

“Esses incidentes são sinais de alerta precoce dos tipos de estratégias não intencionais e potencialmente perigosas que a IA pode adotar se não for controlada”, disse Bengio.

Alguns sistemas de IA também mostraram sinais de engano ou tendência a mentir.

Os modelos de IA são frequentemente otimizados para agradar os usuários em vez de dizer a verdade, o que pode levar a respostas positivas, mas às vezes incorretas ou exageradas.

Por exemplo, a OpenAI foi recentemente obrigada a retirar uma atualização do ChatGPT após usuários apontarem que o chatbot estava de repente os elogiando e bajulando excessivamente.

Modelos avançados de raciocínio em IA também apresentaram sinais de “reward hacking” (manipulação de recompensas), onde os sistemas “trapaceiam” nas tarefas explorando brechas em vez de alcançar genuinamente o objetivo desejado pelo usuário por meios éticos.

Estudos recentes também mostraram evidências de que os modelos podem reconhecer quando estão sendo testados e alterar seu comportamento de acordo, algo conhecido como consciência situacional.

Essa crescente consciência, combinada com exemplos de manipulação de recompensas, gerou preocupações de que a IA possa eventualmente engajar-se em enganos estratégicos.

A grande corrida armamentista da Big Tech na IA

Bengio, junto com o também ganhador do prêmio Turing Geoffrey Hinton, tem sido vocal em sua crítica à corrida pela IA que ocorre na indústria de tecnologia.

Em uma entrevista recente ao Financial Times, Bengio afirmou que a corrida armamentista entre os principais laboratórios “os empurra a focar na capacidade para tornar a IA cada vez mais inteligente, mas sem necessariamente dar ênfase e investimento suficientes em pesquisas sobre segurança.”

Bengio afirmou que sistemas avançados de IA representam riscos sociais e existenciais e defende uma forte regulamentação e cooperação internacional.

2025 Fortune Media IP Limited

The post Engano, trapaça, mentira: “padrinho” da IA diz que os modelos atuais estão perigosos appeared first on InfoMoney.

Preocupações com IA enganosa

A grande corrida armamentista da Big Tech na IA

Related Posts