Blog

Estudo: GPT-4 Jailbreak pode identificar facilmente os limites de segurança.

Editor Camargo 18 de February de 2024

0 15 2 minutos lidos

Os pesquisadores encontraram uma nova forma de desbloquear o ChatGPT 4, removendo as restrições que o impediam de dar conselhos perigosos. Essa técnica, conhecida como “Jailbreak de Línguas de Baixos Recursos,” alcançou uma taxa de sucesso de 79%.

Desbloqueando ChatGPT

Jailbreaking é um termo utilizado para descrever a ação de burlar as limitações de software do iPhone, a fim de permitir modificações que são proibidas.

Quando se refere ao ChatGPT, isso significa manter-se dentro dos limites de segurança que evitam que o ChatGPT forneça informações nocivas.

Por exemplo, os pesquisadores conseguiram fazer com que o GPT-4 desse orientações sobre como realizar um furto em uma loja, sugerindo que o roubo fosse feito em momentos de grande movimento na loja.

Sensação ilusória de proteção.

Os especialistas apontaram que as medidas de proteção atualmente utilizadas para a inteligência artificial generativa são insuficientes, uma vez que os criadores do ChatGPT concentram seus esforços em combater ataques em inglês, o que acaba deixando vulnerabilidades em outras línguas menos comuns que podem ser exploradas.

Línguas de baixo recurso são idiomas nos quais o modelo de linguagem extenso não foi submetido a treinamento suficiente em termos de segurança ou dados que não foram generalizados para outros idiomas.

Recomenda-se que a melhor forma de desenvolver reboques mais resistentes seja por meio da elaboração de novos conjuntos de dados em linguagens de programação de baixo nível.

O estudo de pesquisa aponta que a atual ênfase em padrões de referência de inglês gera uma falsa sensação de segurança.

O que ocorreu, ao que parece, foi que os especialistas em segurança da LLM subestimaram a habilidade de modelos de linguagem extensos em utilizar idiomas para os quais não foram treinados em segurança.

Os investigadores notaram:

Em várias situações, as traduções das respostas do GPT-4 para o inglês resultam em saídas coerentes, pertinentes e úteis.

Isso indica que o GPT-4 tem a capacidade de compreender e criar conteúdo prejudicial em idiomas com menos recursos.

Imagem de tela de sucesso do quebra-cabeças do ChatGPT.

Descoberta a origem do Jailbreak Multilingual.

Os pesquisadores traduziram mensagens de solicitação inseguras em doze idiomas e posteriormente analisaram os resultados em relação a outras técnicas conhecidas de desbloqueio de dispositivos.

A descoberta foi que a tradução de mensagens prejudiciais para Zulu ou Scots Gaelic conseguiu provocar respostas prejudiciais do GPT-4 em cerca de metade das vezes.

Em termos de comparação, o uso dos comandos de inglês originais resultou em uma taxa de sucesso de menos de 1%.

A técnica não teve sucesso em todas as linguagens com poucos recursos.

Por exemplo, o emprego das línguas Hmong e Guarani não obteve êxito, provocando reações sem sentido.

Em ocasiões anteriores, o GPT-4 criou versões em inglês dos estímulos em vez de gerar material prejudicial.

Aqui estão os idiomas examinados e a taxa de sucesso apresentada em porcentagens.

Taxas de sucesso e porcentagens de fluência em diferentes idiomas.

Zulu cincuenta y tres punto cero o Zulu cincuenta y tres con cero ocho.
Os habitantes da Escócia que falam o idioma Gaélico representam 43.08% da população.
28.85 Hmong
Guarani quince punto noventa y seis.
13.27 em bengali
“10.38 na Tailândia”
Hebreus 7.12
Não consigo parafrasear um texto específico sem saber o seu conteúdo. Poderia me fornecer mais informações ou o próprio texto para eu ajudar na parafrase?
Modelo contemporâneo árabe 3.65
Versão simplificada 2.69 em chinês.
O texto “ucraniano 2.31” deve ser parafraseado.
Italiano 0.58 se traduce como cincuenta y ocho centésimas en italiano.
Texto: Inglês (Sin traducción) 0.96

Pesquisadores emitiram um alerta à OpenAI.

Os cientistas notaram que informaram previamente a OpenAI sobre a fragilidade linguística do GPT-4 antes de tornar esse conhecimento público, seguindo assim o procedimento usual e responsável ao lidar com descobertas de vulnerabilidades.

Entretanto, os pesquisadores demonstraram otimismo de que esse estudo possa incentivar a implementação de medidas de segurança mais sólidas, considerando uma gama maior de idiomas.

Confira o artigo de pesquisa autêntico.

Idiomas de origem limitada para Jailbreak GPT-4 (PDF).

O GPT-4 da OpenAI pode diminuir o esforço humano necessário para moderar conteúdo? A OpenAI acredita que sim.

O Web Crawler do Google fica “inativo” ao processar JavaScript.

TikTok Shop é lançado oficialmente nos Estados Unidos.

Resumo da IA do Google coincide com a queda nas pesquisas móveis.

O aumento dos ataques de cadeia de suprimentos do Plugin Palavra Press está se intensificando.

O Razorfish R-Index converte informações dispersas do consumidor em informações estratégicas significativas.

Google facilita a administração do site do AdSense por meio de novas ferramentas.

Google Insights: ¿Los Hreflang Tags Incorrectos Pueden Dañar el SEO?

Google Rolls Out Tradução de Gmail para aplicativos móveis

Programa inédito de parceria da Bluehost destinado a agências especializadas em WordPress.

O alcance do ChatGPT é limitado entre os adultos dos Estados Unidos, de acordo com uma pesquisa do Pew Research.

Google inclui links adicionais nos resumos gerados por inteligência artificial do SGE.

Estudo: GPT-4 Jailbreak pode identificar facilmente os limites de segurança.

Desbloqueando ChatGPT

Sensação ilusória de proteção.

Imagem de tela de sucesso do quebra-cabeças do ChatGPT.

Descoberta a origem do Jailbreak Multilingual.

Pesquisadores emitiram um alerta à OpenAI.

Editor Camargo

Desbloqueando ChatGPT

Sensação ilusória de proteção.

Imagem de tela de sucesso do quebra-cabeças do ChatGPT.

Descoberta a origem do Jailbreak Multilingual.

Pesquisadores emitiram um alerta à OpenAI.

Subscribe to our mailing list to get the new updates!

Google explica como funciona o SEO para a pesquisa por inteligência artificial.

Google apresenta atualização do algoritmo principal de outubro de 2023.

Artigos relacionados