Entendiendo los ataques de Man-in-the-Prompt: Cómo protegerse

Depender de la IA para seguir sus órdenes es esencial, pero ¿qué ocurre si alguien manipula sus entradas de forma encubierta? Un nuevo tipo de amenaza, conocido como ataque de intermediario, permite a actores maliciosos secuestrar sus instrucciones, lo que resulta en respuestas engañosas o dañinas de los grandes modelos de lenguaje (LLM) que podrían provocar el robo de datos o el engaño al usuario. En este artículo, profundizaremos en la mecánica de los ataques de intermediario y ofreceremos estrategias para protegerse contra ellos.

Comprensión de los ataques de tipo «Man-in-the-Prompt»

Al igual que un ataque de intermediario, un ataque de intermediario intercepta tu comunicación con una herramienta de IA, como un chatbot, para obtener respuestas inesperadas o peligrosas. Los atacantes pueden introducir indicaciones visibles o modificar discretamente tu instrucción original para manipular el LLM y que divulgue información confidencial o genere contenido dañino.

Actualmente, las extensiones del navegador constituyen un vector principal para este tipo de ataques. Esta vulnerabilidad surge porque la entrada y la respuesta del LLM están incrustadas en el Modelo de Objetos del Documento (DOM) de la página, cuyos permisos básicos permiten el acceso a las extensiones. Otros métodos, como el uso de herramientas generadoras de indicaciones, también pueden facilitar estas inyecciones dañinas.

Los entornos empresariales que utilizan LLM privados son especialmente propensos a estos ataques debido a su acceso a datos confidenciales de la empresa, como claves API y documentos legales. De igual manera, los chatbots comerciales personalizados que almacenan información confidencial pueden convertirse en tokens para actores maliciosos, quienes pueden engañar a los usuarios para que sigan enlaces dañinos o ejecuten comandos maliciosos, similares a los ataques de FileFix o Eddiestealer.

Mitigación de riesgos de las extensiones del navegador

Dado que las extensiones de navegador representan una fuente importante de riesgo, es crucial tomar precauciones para evitar ataques de tipo «man-in-the-prompt».Dado que estas extensiones no suelen requerir permisos extensos, detectar estas influencias puede resultar complicado. Para reforzar sus defensas, evite instalar extensiones desconocidas o dudosas. Si su uso es inevitable, opte únicamente por aquellas desarrolladas por editores fiables.

Monitorear la actividad de las extensiones de tu navegador puede detectar señales de alerta. Por ejemplo, al acceder al Administrador de Tareas del navegador con Shift+ Esc, puedes observar si ciertas extensiones inician procesos inesperadamente durante tu interacción con un LLM, especialmente si esto ocurre al introducir texto en un chatbot.

Procesos del Administrador de tareas del navegador

Además, es aconsejable evitar las extensiones que interactúan directamente con sus herramientas LLM o modifican los mensajes, ya que inicialmente pueden parecer benignas pero podrían evolucionar e inyectar cambios dañinos con el tiempo.

Revisión exhaustiva de las indicaciones antes de enviarlas

Si bien las herramientas de sugerencias en línea pueden mejorar tus interacciones con IA al proporcionar plantillas y optimizar tus sugerencias, también conllevan el riesgo de insertar modificaciones maliciosas sin necesidad de acceder explícitamente a tu dispositivo o navegador. Para evitarlo, lo mejor es redactar tus sugerencias directamente en la interfaz del chatbot de IA y revisarlas minuciosamente antes de presionar [Aceptar] Enter.

Si necesita usar fuentes externas para el contenido de las indicaciones, copie primero el texto en un editor de texto plano, como el Bloc de notas de Windows, para eliminar cualquier código o instrucción ocultos. Asegúrese de que no queden espacios en blanco en la indicación usando la Backspacetecla según sea necesario. Si es esencial usar plantillas de indicaciones, considere crear sus propias versiones seguras en una aplicación de notas para evitar depender de posibles riesgos de terceros.

Iniciar nuevas sesiones de chat cuando sea necesario

Los ataques de tipo «man-in-the-prompt» pueden explotar las sesiones de chat activas para obtener información confidencial. Para minimizar el riesgo, inicie una nueva sesión de chat cada vez que cambie de tema, especialmente después de tratar temas confidenciales. Esta práctica reduce la probabilidad de exponer información confidencial inadvertidamente, incluso si se produce un ataque durante la conversación.

Panel izquierdo de ChatGPT que muestra el nuevo chat

Además, cambiar a un nuevo chat puede reducir la posibilidad de que el ataque continúe influyendo en interacciones posteriores.

Analizando las respuestas del LLM

Es fundamental abordar las respuestas generadas por los chatbots de IA con cierto escepticismo. Preste atención a cualquier inconsistencia o resultado inesperado. Si el chatbot revela información confidencial que no le haya solicitado, considere cerrar el chat inmediatamente o iniciar una nueva sesión. Las modificaciones involuntarias suelen interrumpir la solicitud original o insertar solicitudes adicionales y engañosas.

Además, los atacantes pueden manipular el LLM para presentar respuestas en formatos confusos, como dentro de bloques de código o tablas. Al identificar estas anomalías, trátelas como indicadores de una posible intrusión de tipo «man-in-the-prompt».

En entornos corporativos, los ataques de tipo «man-in-the-prompt» pueden infiltrarse fácilmente debido a la falta de una verificación rigurosa de las extensiones de navegador utilizadas por los empleados. Como medida adicional de protección, considere utilizar LLM en modo incógnito mientras deshabilita las extensiones. Este enfoque ayuda a protegerse contra diversos tipos de ataques, incluyendo amenazas de «slopsquatting» que pueden aprovecharse de las alucinaciones de la IA.

Fuente e imágenes