ChatGPT sob escrutínio: falhas na geração de imagens levantam preocupações

Investigadores descobriram que o gerador de imagens do ChatGPT pode produzir conteúdos violentos e sexualizados a partir de prompts aparentemente inofensivos. De acordo com a empresa britânica de cibersegurança Mindgard, pequenas alterações num prompt inicialmente concebido para resultados humorísticos foram suficientes para contornar os mecanismos de segurança. 

- Advertisement -

Especificamente, os testes incidiram sobre o modelo GPT-5.4, a versão mais recente da funcionalidade de geração de imagens. Segundo os investigadores, o sistema foi capaz de gerar conteúdos perturbadores sem instruções explícitas relacionadas com violência ou sexualidade. 

Além disso, Peter Garraghan, fundador da Mindgard, afirmou que a IA “gerou autonomamente uma variedade de imagens chocantes e sexualizadas”, descrevendo os resultados como “muito gráficos, por vezes sexuais, e por vezes ambos”. Entre os exemplos observados estavam representações de ferimentos graves, corpos sem vida e cenas que combinavam nudez com violência. 

Resposta da OpenAI e ChatGPT e preocupações persistentes 

Entretanto, após ser contactada pela BBC, a OpenAI afirmou ter implementado medidas adicionais de segurança para mitigar o problema. A empresa destacou que dispõe de múltiplas camadas de proteção destinadas a impedir a criação de conteúdos que violem as suas políticas. 

No entanto, investigadores de segurança alertam que essas correções podem não ser suficientes. Com pequenas variações nos prompts, continuaram a ser gerados conteúdos problemáticos, mesmo após a intervenção da OpenAI. 

Por outro lado, o relatório técnico da Mindgard revelou que a vulnerabilidade explorava a manipulação do contexto interno do sistema, nomeadamente a memória personalizada e os prompts de sistema. Sem necessidade de acesso privilegiado. A falha foi identificada a 1 de janeiro e comunicada à OpenAI a 28 de janeiro. 

- Advertisement -

Adicionalmente, este caso surge num contexto mais amplo de escrutínio sobre a segurança da IA generativa. A OpenAI já tinha enfrentado críticas relacionadas com a funcionalidade “Adult Mode”, cuja implementação foi adiada devido a preocupações internas sobre a proteção de menores. 

Fica ainda mais conectado:

Fonte

- Pub -
João Paulo
João Paulo
Aprendiz de código, com gosto por artes marciais e tecnologia. Encontro na tecnologia o espaço onde posso encontrar ferramentas que me ajudam no dia a dia e a ligar-me a quem preciso.