Comprendre les attaques de type « Man-in-the-Prompt

Votre dépendance à l’IA pour suivre vos commandes est essentielle, mais que se passe-t-il si quelqu’un manipule secrètement vos commandes ? Un nouveau type de menace, appelé attaque de type « man-in-the-prompt », permet à des acteurs malveillants de détourner vos instructions, ce qui génère des réponses trompeuses ou nuisibles de la part des grands modèles de langage (LLM), susceptibles d’entraîner le vol de données ou la tromperie des utilisateurs. Dans cet article, nous allons explorer les mécanismes des attaques de type « man-in-the-prompt » et proposer des stratégies pour s’en protéger.

Comprendre les attaques de type « Man-in-the-Prompt »

Tout comme une attaque de l’homme du milieu, une attaque de l’homme dans l’invite intercepte votre communication avec un outil d’IA, tel qu’un chatbot, pour obtenir des réponses inattendues ou dangereuses. Les attaquants peuvent soit introduire des invites visibles, soit modifier discrètement vos instructions initiales pour manipuler le LLM et divulguer des informations confidentielles ou générer du contenu préjudiciable.

Actuellement, les extensions de navigateur constituent un vecteur majeur de ce type d’attaques. Cette vulnérabilité survient car les invites de saisie et de réponse du LLM sont intégrées au modèle d’objet de document (DOM) de la page, auquel les extensions ont accès grâce aux autorisations de base. D’autres méthodes, comme les outils de génération d’invites, peuvent également faciliter ces injections malveillantes.

Les environnements d’entreprise utilisant des LLM privés sont particulièrement vulnérables à ces attaques en raison de leur accès à des données sensibles, notamment des clés API et des documents juridiques. De même, des chatbots commerciaux personnalisés stockant des informations confidentielles peuvent servir de jetons à des acteurs malveillants, capables d’inciter les utilisateurs à suivre des liens malveillants ou à exécuter des commandes malveillantes, à l’instar des attaques FileFix ou Eddiestealer.

Atténuer les risques liés aux extensions de navigateur

Les extensions de navigateur étant une source de risque importante, il est crucial de prendre des précautions pour éviter les attaques de type « man-in-the-prompt ».Ces extensions ne nécessitant généralement pas d’autorisations étendues, la détection de telles influences peut s’avérer complexe. Pour renforcer vos défenses, évitez d’installer des extensions inconnues ou douteuses. Si leur utilisation est inévitable, privilégiez uniquement celles développées par des éditeurs fiables et reconnus.

Surveiller l’activité des extensions de votre navigateur peut révéler des signaux d’alerte. Par exemple, en accédant au Gestionnaire des tâches du navigateur avec Shift+ Esc, vous pouvez observer si certaines extensions lancent des processus de manière inattendue lors de votre interaction avec un LLM, notamment lors de la saisie de texte dans un chatbot.

Processus du gestionnaire de tâches du navigateur

De plus, il est conseillé d’éviter les extensions qui interagissent directement avec vos outils LLM ou modifient les invites, car elles peuvent initialement sembler bénignes mais pourraient évoluer pour injecter des changements nuisibles au fil du temps.

Examen approfondi des invites avant la soumission

Si les outils d’invite en ligne peuvent améliorer vos interactions avec l’IA en fournissant des modèles et en optimisant vos invites, ils comportent également le risque d’insérer des modifications malveillantes sans nécessiter d’accès explicite à votre appareil ou navigateur. Pour éviter cela, il est préférable de rédiger vos invites directement dans l’interface du chatbot IA et de les vérifier attentivement avant d’appuyer sur Enter.

Si vous devez utiliser des sources externes pour le contenu des invites, copiez d’abord le texte dans un éditeur de texte brut, tel que le Bloc-notes de Windows, afin d’éliminer tout code ou instruction caché. Assurez-vous qu’aucun espace ne subsiste dans l’invite en utilisant la Backspacetouche si nécessaire. Si l’utilisation de modèles d’invites est indispensable, pensez à créer vos propres versions sécurisées dans une application de prise de notes afin d’éviter toute dépendance aux risques potentiels de tiers.

Lancer de nouvelles sessions de chat si nécessaire

Les attaques de type « man-in-the-prompt » peuvent exploiter les sessions de chat actives pour obtenir des informations sensibles. Pour minimiser les risques, démarrez une nouvelle session de chat dès que le sujet change, surtout après avoir abordé des sujets confidentiels. Cette pratique réduit le risque d’exposer par inadvertance des informations sensibles, même si une attaque survient pendant votre conversation.

Panneau gauche de ChatGPT affichant une nouvelle discussion

De plus, le passage à une nouvelle discussion peut limiter le risque que l’attaque continue d’influencer les interactions ultérieures.

Examen approfondi des réponses du LLM

Il est essentiel d’aborder les réponses générées par les chatbots IA avec un certain scepticisme. Soyez attentif aux incohérences et aux résultats inattendus. Si le chatbot divulgue des informations sensibles que vous n’avez pas sollicitées, envisagez de fermer immédiatement la conversation ou de démarrer une nouvelle session. Les modifications de type « man-in-the-prompt » perturbent généralement le message initial ou introduisent des requêtes supplémentaires trompeuses.

De plus, les attaquants peuvent manipuler le LLM pour présenter des réponses dans des formats confus, par exemple au sein de blocs de code ou de tableaux. Si ces anomalies sont identifiées, traitez-les comme des indicateurs d’une intrusion potentielle de type « man-in-the-prompt ».

Dans les entreprises, les attaques de type « man-in-the-prompt » peuvent facilement s’infiltrer en raison de l’absence de contrôle rigoureux des extensions de navigateur utilisées par les employés. Pour une protection supplémentaire, envisagez d’utiliser les LLM en mode navigation privée tout en désactivant les extensions. Cette approche permet de se protéger contre diverses formes d’attaques, notamment les menaces de slopsquatting qui peuvent exploiter les hallucinations de l’IA.

Source et images