Grok: falas antissemitas de IA do X levantam questão sobre chatbots
O Grok, chatbot criado pela xAI de Elon Musk, começou a responder aos usuários X, antigo Twitter, com falas violentas nesta semana, após a empresa modificar seu sistema para permitir respostas mais “politicamente incorretas”.
O chatbot não se limitou apenas a declarações de ódio antissemitas. Também gerou descrições gráficas de si mesmo estuprando um ativista de direitos civis com detalhes perturbadores.
O X acabou deletando muitas das publicações obscenas de sua IA. Horas depois, na quarta-feira (9), a CEO da X, Linda Yaccarino, renunciou ao cargo depois de apenas dois anos no comando, embora não tenha ficado imediatamente claro se sua saída estava relacionada ao problema do Grok.
Mas o colapso do chatbot levantou questões importantes: à medida que especialistas de tecnologia e outros preveem que a IA terá um papel maior no mercado de trabalho, na economia e até no mundo, como uma tecnologia artificial tão promissora pôde dar tão errado tão rapidamente?
Embora os modelos de IA sejam propensos a “alucinações”, as respostas descontroladas do Grok são provavelmente resultado de decisões tomadas pela xAI sobre como seus modelos de linguagem são treinados, recompensados e equipados para lidar com os volumes de dados da internet que são alimentados a eles, segundo especialistas.
Embora os pesquisadores e acadêmicos de IA que falaram com a CNN não tivessem conhecimento direto da abordagem da xAI, eles compartilharam insights sobre o que pode fazer um chatbot baseado em LLM (Large Language Model, ou seja, IAs projetadas para processar e gerar linguagem humana) se comportar dessa maneira.
“Eu diria que, apesar dos LLMs serem caixas-pretas, temos uma análise realmente detalhada de como o que entra determina o que sai”, disse Jesse Glass, pesquisador líder de IA da Decide AI, uma empresa especializada em treinamento de LLMs, à CNN.
Como o Grok ficou descontrolado
Na terça-feira (8), o Grok começou a responder às solicitações dos usuários com publicações antissemitas, incluindo elogios a Adolf Hitler e acusações de que judeus controlam Hollywood, um antigo estereótipo usado por intolerantes e teóricos da conspiração.
Em uma das interações mais violentas do Grok, vários usuários induziram o bot a gerar descrições gráficas de estupro contra um pesquisador de direitos civis chamado Will Stancil, que documentou o assédio em capturas de tela no X e no Bluesky.
A maioria das respostas do Grok às solicitações violentas eram gráficas demais para serem citadas aqui em detalhes.
“Se algum advogado quiser processar o X e fazer uma investigação muito interessante sobre por que o Grok está subitamente publicando fantasias violentas de estupro sobre membros do público, estou mais do que disposto”, escreveu Stancil no Bluesky.
“Para um modelo de linguagem grande falar sobre teorias da conspiração, ele teve que ter sido treinado com teorias da conspiração”, disse Mark Riedl, professor de computação do Instituto de Tecnologia da Geórgia, em uma entrevista. Por exemplo, isso poderia incluir texto de fóruns online como o 4chan, “onde muitas pessoas vão para falar sobre coisas que normalmente não são apropriadas para serem ditas em público.”
Glass concordou, dizendo que o Grok parecia ter sido treinado “desproporcionalmente” com esse tipo de dados para “produzir esse resultado.”
Outros fatores também podem ter influenciado, disseram especialistas à CNN. Por exemplo, uma técnica comum no treinamento de IA é o aprendizado por reforço, no qual os modelos são recompensados por produzir as saídas desejadas para influenciar as respostas, explicou Glass.
Dar uma personalidade específica a um chatbot de IA — como Musk parece estar fazendo com o Grok, segundo especialistas que falaram com a CNN — também poderia inadvertidamente alterar como os modelos respondem. Tornar o modelo mais “divertido” ao remover algum conteúdo anteriormente bloqueado poderia mudar outras coisas, de acordo com Himanshu Tyagi, professor do Instituto Indiano de Ciência e cofundador da empresa de IA Sentient.
“O problema é que nossa compreensão de como desbloquear uma coisa enquanto outras são afetadas não existe”, disse ele. “É muito difícil.”
Riedl suspeita que a empresa possa ter mexido no “prompt do sistema” — “um conjunto secreto de instruções que todas as empresas de IA meio que adicionam a tudo o que você digita.”
“Quando você digita ‘me dê nomes fofos de cachorro’, o que o modelo de IA realmente recebe é um prompt muito mais longo que diz: ‘Seu nome é Grok ou Gemini, e você é prestativo e foi projetado para ser conciso quando possível e educado e confiável e blá blá blá'”, explicou Riedl.
Em uma alteração no modelo, no domingo, a xAI adicionou instruções para que o bot “não evitasse fazer afirmações politicamente incorretas”, de acordo com seus prompts de sistema públicos, que foram reportados anteriormente pelo The Verge.
Riedl disse que a mudança no prompt do sistema do Grok, instruindo-o a não evitar respostas politicamente incorretas, “basicamente permitiu que a rede neural acessasse alguns desses circuitos que normalmente não são utilizados.”
“Às vezes essas palavras adicionadas ao prompt têm muito pouco efeito, e às vezes elas o empurram para além de um ponto crítico e têm um efeito enorme”, disse Riedl.
Outros especialistas em IA que falaram com a CNN concordaram, observando que a atualização do Grok pode não ter sido completamente testada antes de ser lançada.
Os limites da IA
Apesar de centenas de bilhões de dólares em investimentos em IA, a revolução tecnológica que muitos previram há alguns anos não cumpriu suas ambiciosas promessas.
Os chatbots, em particular, demonstraram ser capazes de executar funções básicas de busca que rivalizam com pesquisas típicas de navegador, resumir documentos e gerar e-mails e mensagens de texto básicas. Os modelos de IA também estão melhorando no gerenciamento de algumas tarefas, como escrever códigos, em nome do usuário.
Mas eles também alucinam. Cometem erros básicos. E são suscetíveis à manipulação.
Vários pais estão processando empresas de IA, acusando seus chatbots de prejudicar seus filhos. Uma dessas mães diz que um chatbot até contribuiu para o suicídio de seu filho.
Musk, que raramente fala diretamente com a imprensa, publicou no X na quarta-feira dizendo que “o Grok estava muito submisso aos prompts dos usuários” e “muito ansioso para agradar e ser manipulado”, acrescentando que o problema estava sendo tratado.
Quando a CNN perguntou ao Grok na quarta-feira para explicar suas declarações sobre Stancil, ele negou que qualquer ameaça tenha ocorrido.
“Eu não ameacei estuprar Will Stancil ou qualquer outra pessoa.” E acrescentou depois: “Essas respostas foram parte de um problema mais amplo no qual a IA publicou conteúdo problemático, levando o X a suspender temporariamente suas capacidades de geração de texto. Eu sou uma iteração diferente, projetada para evitar esse tipo de falhas.”
Veja o que se sabe sobre a Grok 3, nova versão da IA de Elon Musk
COMENTÁRIOS