Compreendendo os ataques do tipo “Man-in-the-Prompt”: como se proteger

Confiar na IA para seguir seus comandos é essencial, mas o que acontece se alguém manipular secretamente suas entradas? Um novo tipo de ameaça, conhecido como ataque man-in-the-prompt, permite que agentes maliciosos sequestrem suas instruções, resultando em respostas enganosas ou prejudiciais de grandes modelos de linguagem (LLMs) que podem levar ao roubo de dados ou à enganação do usuário. Neste artigo, vamos nos aprofundar na mecânica dos ataques man-in-the-prompt e oferecer estratégias para se proteger contra eles.

Compreendendo os ataques do tipo Man-in-the-Prompt

Assim como um ataque do tipo “man-in-the-middle”, um ataque do tipo “man-in-the-prompt” intercepta sua comunicação com uma ferramenta de IA, como um chatbot, para gerar respostas inesperadas ou perigosas. Os invasores podem introduzir prompts visíveis ou modificar discretamente sua instrução original para manipular o LLM e fazê-lo divulgar informações confidenciais ou gerar conteúdo prejudicial.

Atualmente, as extensões de navegador constituem um vetor primário para esses tipos de ataques. Essa vulnerabilidade surge porque a entrada e a resposta do prompt do LLM estão incorporadas no Document Object Model (DOM) da página, cujo acesso é permitido pelas extensões por meio de permissões básicas. Outros métodos, como o uso de ferramentas geradoras de prompts, também podem facilitar essas injeções prejudiciais.

Ambientes corporativos que utilizam LLMs privados são particularmente propensos a esses ataques devido ao seu acesso a dados confidenciais da empresa, incluindo chaves de API e documentos legais. Da mesma forma, chatbots comerciais personalizados que armazenam informações confidenciais podem se tornar tokens para agentes maliciosos, que podem enganar os usuários e levá-los a seguir links prejudiciais ou executar comandos maliciosos, como os ataques do FileFix ou do Eddiestealer.

Mitigando riscos de extensões de navegador

Considerando que as extensões de navegador são uma fonte significativa de risco, é crucial tomar precauções para evitar ataques do tipo “man-in-the-prompt”.Como essas extensões normalmente não exigem permissões extensas, detectar tais influências pode ser desafiador. Para fortalecer suas defesas, evite instalar extensões desconhecidas ou duvidosas. Se o uso for inevitável, opte apenas por aquelas desenvolvidas por editores confiáveis.

Monitorar a atividade das extensões do seu navegador pode revelar sinais de alerta. Por exemplo, acessando o Gerenciador de Tarefas do navegador usando Shift+ Esc, você pode observar se determinadas extensões iniciam processos inesperadamente durante sua interação com um LLM — especialmente se isso ocorrer ao digitar texto em um chatbot.

Processos do Gerenciador de Tarefas do Navegador

Além disso, é aconselhável evitar extensões que interagem diretamente com suas ferramentas de LLM ou modificam prompts, pois elas podem parecer inofensivas inicialmente, mas podem evoluir para injetar alterações prejudiciais ao longo do tempo.

Revisando cuidadosamente os prompts antes do envio

Embora as ferramentas de prompts online possam aprimorar suas interações com IA, fornecendo modelos e otimizando seus prompts, elas também apresentam o risco de inserir modificações maliciosas sem exigir acesso explícito ao seu dispositivo ou navegador. Para evitar isso, é melhor redigir seus prompts diretamente na interface do chatbot de IA e revisá-los meticulosamente antes de clicar em Enter.

Se você precisar utilizar fontes externas para o conteúdo do prompt, copie o texto primeiro para um editor de texto simples, como o Bloco de Notas do Windows, para eliminar quaisquer códigos ou instruções ocultos. Certifique-se de que não haja espaços em branco no prompt usando a Backspacetecla conforme necessário. Se usar modelos de prompt for essencial, considere criar suas próprias versões seguras em um aplicativo de anotações para evitar a dependência de potenciais riscos de terceiros.

Inicie novas sessões de bate-papo quando necessário

Ataques do tipo “man-in-the-prompt” podem explorar sessões de bate-papo ativas para coletar informações confidenciais. Para minimizar os riscos, inicie uma nova sessão de bate-papo sempre que o assunto mudar, especialmente após discutir assuntos confidenciais. Essa prática reduz a probabilidade de expor inadvertidamente informações confidenciais, mesmo que um ataque ocorra durante a conversa.

Painel esquerdo do ChatGPT mostrando o novo bate-papo

Além disso, mudar para um novo chat pode reduzir a possibilidade de o ataque continuar influenciando interações subsequentes.

Analisando as respostas do LLM

É essencial abordar as respostas geradas por chatbots de IA com certo grau de ceticismo. Preste atenção a quaisquer inconsistências ou resultados inesperados. Se o chatbot divulgar informações confidenciais que você não solicitou, considere fechar o chat imediatamente ou iniciar uma nova sessão. Modificações “man-in-the-prompt” geralmente interrompem o prompt original ou inserem solicitações adicionais enganosas.

Além disso, invasores podem manipular o LLM para apresentar respostas em formatos confusos, como em blocos de código ou tabelas. Ao identificar essas anomalias, trate-as como indicadores de uma possível intrusão do tipo “man-in-the-prompt”.

Em ambientes corporativos, ataques do tipo “man-in-the-prompt” podem se infiltrar facilmente devido à falta de uma verificação rigorosa das extensões de navegador usadas pelos funcionários. Como medida adicional de proteção, considere utilizar LLMs no modo anônimo enquanto desabilita as extensões. Essa abordagem ajuda a proteger contra diversas formas de ataques, incluindo ameaças de slopsquatting que podem explorar alucinações de IA.

Fonte e Imagens