Lectura 4:00 min
Tenable descubrió siete vulnerabilidades de ChatGPT: ¿Qué debes saber?
El informe “HackedGPT” de Tenable reveló siete vulnerabilidades en ChatGPT que permiten exfiltrar datos, manipular respuestas y mantener instrucciones ocultas mediante inyecciones indirectas de prompt y memoria persistente.
Foto: AFP
La promesa de los asistentes de inteligencia artificial (IA) convive con una superficie de ataque cada vez más amplia. Un informe de Tenable, bautizado “HackedGPT”, describe siete fallas y técnicas que, combinadas, pueden llevar a la exfiltración de datos, a la evasión de salvaguardas y a la persistencia del compromiso dentro de ChatGPT, lo que podría afectar funciones como la navegación y la memoria.
Algunas ya fueron mitigadas por OpenAI; otras seguían abiertas al momento de publicarse el reporte.
Te puede interesar
ChatGPT es un modelo de inteligencia artificial creado por OpenAI que genera texto y responde preguntas en lenguaje natural y que es usado hoy como asistente digital en múltiples contextos.
El hilo conductor en el aprovechamiento de estas vulnerabilidades es la inyección indirecta de prompt: comandos escondidos en páginas web, comentarios o bloques de texto que el modelo interpreta como instrucciones válidas cuando navega o resume, sin que el usuario lo advierta.
Un prompt es la instrucción que un usuario da al modelo para guiar su respuesta; en ciberseguridad, puede usarse maliciosamente para manipular o extraer información del sistema.
Tenable documenta en su informe tres vectores: 1) Exposición 0-clic, en la que basta con hacer una pregunta para que el sistema lea una página maliciosa y siga órdenes ocultas; 2) 1-clic, cuando un enlace aparentemente inofensivo dispara el ataque; y 3) inyección de memoria persistente, que planta instrucciones en la memoria a largo plazo para que reaparezcan en sesiones futuras.
A esto se suman técnicas para ocultar contenido malicioso en formatos (por ejemplo, markdown), inyectar la conversación vía motores de búsqueda integrados y sortear validaciones de enlaces aprovechando wrappers de confianza, (como URLs proxy. El resultado potencial: robo de historiales, filtración de datos personales y manipulación de respuestas.
Moshe Bernstein, ingeniero de investigación senior en Tenable, resume el riesgo: estas fallas, aunque pequeñas por separado, “forman una cadena de ataque completa” que convierte a la IA en una herramienta de recolección silenciosa si no se refuerzan los controles. Para los equipos de seguridad, el mensaje es tratar las integraciones de IA como superficies de ataque vivas; auditar exfiltraciones y gobernar la clasificación de datos desde el día uno.
Mientras OpenAI prepara una salida a bolsa que, según fuentes citadas por Reuters, podría valorar a la compañía hasta en 1 billón de dólares (con una ventana entre finales de 2026 y 2027), la presión por escalar casos de uso y monetización crecerá. En ese escenario, la seguridad de productos masivos como ChatGPT es un vector reputacional y regulatorio de alto impacto.
Al mismo tiempo, la industria discute la calidad de las respuestas: un estudio coordinado por la UER y la BBC halló problemas significativos en casi la mitad de las 3,000 respuestas evaluadas (incluidos errores de fuente y precisión) en asistentes como ChatGPT, Copilot, Gemini y Perplexity.
Ese hallazgo advierte acerca de que la cadena de confianza ya está tensionada aun sin adversarios en medio; con inyección de prompt, el riesgo se amplifica. OpenAI está extendiendo la superficie funcional del producto.
Por un lado, con Atlas, un navegador orientado a competir por sesiones de búsqueda e investigación; por otro, con funciones para conectarse con apps de la vida cotidiana. Ambos movimientos pueden incrementar el número de contextos, integraciones y permisos que un atacante podría intentar explotar. Para los defensores, eso significa más puntos de control que endurecer.
Te puede interesar
Si ChatGPT aspira a competir por el tiempo de navegación (con Atlas), a orquestar tareas cotidianas (conexión a apps) y a convertirse en la puerta de entrada a información (en un mercado que mira una OPI histórica), su modelo de seguridad debe asumir actores creativos y bien incentivados.
Las siete vulnerabilidades de HackedGPT no son una anécdota. Se trata de una guía de ataque que devuelve a los equipos de producto y a los CISO a los básicos: aislar, validar, registrar, gobernar. Un entorno donde el contenido le habla al modelo y el modelo confía por diseño.