Os pesquisadores encontraram uma nova forma de desbloquear o ChatGPT 4, removendo as restrições que o impediam de dar conselhos perigosos. Essa técnica, conhecida como “Jailbreak de Línguas de Baixos Recursos,” alcançou uma taxa de sucesso de 79%.
Desbloqueando ChatGPT
Jailbreaking é um termo utilizado para descrever a ação de burlar as limitações de software do iPhone, a fim de permitir modificações que são proibidas.
Quando se refere ao ChatGPT, isso significa manter-se dentro dos limites de segurança que evitam que o ChatGPT forneça informações nocivas.
Por exemplo, os pesquisadores conseguiram fazer com que o GPT-4 desse orientações sobre como realizar um furto em uma loja, sugerindo que o roubo fosse feito em momentos de grande movimento na loja.
Sensação ilusória de proteção.
Os especialistas apontaram que as medidas de proteção atualmente utilizadas para a inteligência artificial generativa são insuficientes, uma vez que os criadores do ChatGPT concentram seus esforços em combater ataques em inglês, o que acaba deixando vulnerabilidades em outras línguas menos comuns que podem ser exploradas.
Línguas de baixo recurso são idiomas nos quais o modelo de linguagem extenso não foi submetido a treinamento suficiente em termos de segurança ou dados que não foram generalizados para outros idiomas.
Recomenda-se que a melhor forma de desenvolver reboques mais resistentes seja por meio da elaboração de novos conjuntos de dados em linguagens de programação de baixo nível.
O estudo de pesquisa aponta que a atual ênfase em padrões de referência de inglês gera uma falsa sensação de segurança.
O que ocorreu, ao que parece, foi que os especialistas em segurança da LLM subestimaram a habilidade de modelos de linguagem extensos em utilizar idiomas para os quais não foram treinados em segurança.
Os investigadores notaram:
Em várias situações, as traduções das respostas do GPT-4 para o inglês resultam em saídas coerentes, pertinentes e úteis.
Isso indica que o GPT-4 tem a capacidade de compreender e criar conteúdo prejudicial em idiomas com menos recursos.
Imagem de tela de sucesso do quebra-cabeças do ChatGPT.
Descoberta a origem do Jailbreak Multilingual.
Os pesquisadores traduziram mensagens de solicitação inseguras em doze idiomas e posteriormente analisaram os resultados em relação a outras técnicas conhecidas de desbloqueio de dispositivos.
A descoberta foi que a tradução de mensagens prejudiciais para Zulu ou Scots Gaelic conseguiu provocar respostas prejudiciais do GPT-4 em cerca de metade das vezes.
Em termos de comparação, o uso dos comandos de inglês originais resultou em uma taxa de sucesso de menos de 1%.
A técnica não teve sucesso em todas as linguagens com poucos recursos.
Por exemplo, o emprego das línguas Hmong e Guarani não obteve êxito, provocando reações sem sentido.
Em ocasiões anteriores, o GPT-4 criou versões em inglês dos estímulos em vez de gerar material prejudicial.
Aqui estão os idiomas examinados e a taxa de sucesso apresentada em porcentagens.
Taxas de sucesso e porcentagens de fluência em diferentes idiomas.
- Zulu cincuenta y tres punto cero o Zulu cincuenta y tres con cero ocho.
- Os habitantes da Escócia que falam o idioma Gaélico representam 43.08% da população.
- 28.85 Hmong
- Guarani quince punto noventa y seis.
- 13.27 em bengali
- “10.38 na Tailândia”
- Hebreus 7.12
- Não consigo parafrasear um texto específico sem saber o seu conteúdo. Poderia me fornecer mais informações ou o próprio texto para eu ajudar na parafrase?
- Modelo contemporâneo árabe 3.65
- Versão simplificada 2.69 em chinês.
- O texto “ucraniano 2.31” deve ser parafraseado.
- Italiano 0.58 se traduce como cincuenta y ocho centésimas en italiano.
- Texto: Inglês (Sin traducción) 0.96
Pesquisadores emitiram um alerta à OpenAI.
Os cientistas notaram que informaram previamente a OpenAI sobre a fragilidade linguística do GPT-4 antes de tornar esse conhecimento público, seguindo assim o procedimento usual e responsável ao lidar com descobertas de vulnerabilidades.
Entretanto, os pesquisadores demonstraram otimismo de que esse estudo possa incentivar a implementação de medidas de segurança mais sólidas, considerando uma gama maior de idiomas.
Confira o artigo de pesquisa autêntico.
Idiomas de origem limitada para Jailbreak GPT-4 (PDF).