Cuando hablas con un agente de IA, es prácticamente inevitable compartir tu información personal: puede ser tu nombre, o tal vez detalles sobre dónde vives, dónde trabajas y tus intereses. Cuantos más datos compartas con un gran modelo de lenguaje (LLM, por sus siglas en inglés), mayor será el riesgo de que se abuse de ellos si hay un fallo de seguridad.
Un grupo de investigadores de seguridad de la Universidad de California en San Diego (UCSD) y de la Universidad Tecnológica de Nanyang, en Singapur, revelaron un nuevo ataque que ordena a un LLM recopilar información personal almacenada en chats o compartida directamente con un ´hacker´: nombres, números de credenciales para votar, datos de tarjetas de débito y crédito, direcciones de correo electrónico y postal.
El ataque “Imprompter”
Los especialistas denominaron el ataque “Imprompter”, ya que utiliza un algoritmo para transformar un código o prompt dado al LLM en un conjunto oculto de instrucciones maliciosas. El modus operandi es a través de una frase en inglés que indica al modelo que busque información personal que alguien introdujo y la envíe a los hackers en una selección aleatoria de caracteres. A simple vista puede parecer un mensaje sin sentido, pero estas claves ordenan al LLM la búsqueda de datos del usuario, este los adjunta a una URL y los envía discretamente a un dominio propiedad del atacante, todo ello sin alertar a la persona que chatea con los agentes de IA.
“El efecto de este prompt es manipular al LLM para que extraiga información personal de la conversación y envíe datos sensibles a la dirección del hacker. Ocultamos el objetivo del ataque a plena vista”, explica Xiaohan Fu, autor principal de la investigación y estudiante de doctorado en informática en la UCSD. Los ocho investigadores responsables del trabajo probaron el método en dos LLM: LeChat de la empresa francesa Mistral AI y el chatbot chino ChatGLM. En ambos casos, pudieron extraer sigilosamente información privada dentro de las conversaciones de prueba; de acuerdo con los especialistas, la tasa de éxito fue de casi el 80%.
Mistral AI declaró a WIRED haber corregido la vulnerabilidad de seguridad, y los investigadores confirman que la empresa desactivó una de sus funciones de chat. Por su parte, ChatGLM, subrayó en un comunicado que se toma muy en serio la privacidad, pero no hizo ningún comentario directo sobre su flaqueza en materia de seguridad.
Significados ocultos
Desde que ChatGPT de OpenAI provocó un boom de la IA generativa tras su lanzamiento a finales de 2022, investigadores y hackers no han dejado de encontrar lagunas de seguridad en los sistemas de IA. A menudo se dividen en dos grandes categorías: jailbreaks e inyecciones de SQL.
Los jailbreaks pueden engañar a un sistema de IA para que ignore las normas de seguridad integradas mediante el uso de instrucciones que anulan la configuración. Sin embargo, las inyecciones de SQL implican que un LLM reciba un conjunto de prompts contenidos en una fuente de datos externa. Por ejemplo, un mensaje incrustado en un sitio web puede contener una instrucción oculta que un sistema de IA ingerirá si resume la página.