Buscar
Tecnología

Lectura 4:00 min

Tenable descubrió siete vulnerabilidades de ChatGPT: ¿Qué debes saber?

El informe “HackedGPT” de Tenable reveló siete vulnerabilidades en ChatGPT que permiten exfiltrar datos, manipular respuestas y mantener instrucciones ocultas mediante inyecciones indirectas de prompt y memoria persistente.

main image

Foto: AFPAFP

Rodrigo Riquelme

La promesa de los asistentes de inteligencia artificial (IA) convive con una superficie de ataque cada vez más amplia. Un informe de Tenable, bautizado “HackedGPT”, describe siete fallas y técnicas que, combinadas, pueden llevar a la exfiltración de datos, a la evasión de salvaguardas y a la persistencia del compromiso dentro de ChatGPT, lo que podría afectar funciones como la navegación y la memoria. 

Algunas ya fueron mitigadas por OpenAI; otras seguían abiertas al momento de publicarse el reporte.

ChatGPT es un modelo de inteligencia artificial creado por OpenAI que genera texto y responde preguntas en lenguaje natural y que es usado hoy como asistente digital en múltiples contextos.

El hilo conductor en el aprovechamiento de estas vulnerabilidades es la inyección indirecta de prompt: comandos escondidos en páginas web, comentarios o bloques de texto que el modelo interpreta como instrucciones válidas cuando navega o resume, sin que el usuario lo advierta.

Un prompt es la instrucción que un usuario da al modelo para guiar su respuesta; en ciberseguridad, puede usarse maliciosamente para manipular o extraer información del sistema.

Tenable documenta en su informe tres vectores: 1) Exposición 0-clic, en la que basta con hacer una pregunta para que el sistema lea una página maliciosa y siga órdenes ocultas; 2) 1-clic, cuando un enlace aparentemente inofensivo dispara el ataque; y 3) inyección de memoria persistente, que planta instrucciones en la memoria a largo plazo para que reaparezcan en sesiones futuras.

A esto se suman técnicas para ocultar contenido malicioso en formatos (por ejemplo, markdown), inyectar la conversación vía motores de búsqueda integrados y sortear validaciones de enlaces aprovechando wrappers de confianza, (como URLs proxy. El resultado potencial: robo de historiales, filtración de datos personales y manipulación de respuestas.

Moshe Bernstein, ingeniero de investigación senior en Tenable, resume el riesgo: estas fallas, aunque pequeñas por separado, “forman una cadena de ataque completa” que convierte a la IA en una herramienta de recolección silenciosa si no se refuerzan los controles. Para los equipos de seguridad, el mensaje es tratar las integraciones de IA como superficies de ataque vivas; auditar exfiltraciones y gobernar la clasificación de datos desde el día uno.

Mientras OpenAI prepara una salida a bolsa que, según fuentes citadas por Reuters, podría valorar a la compañía hasta en 1 billón de dólares (con una ventana entre finales de 2026 y 2027), la presión por escalar casos de uso y monetización crecerá. En ese escenario, la seguridad de productos masivos como ChatGPT es un vector reputacional y regulatorio de alto impacto.

Al mismo tiempo, la industria discute la calidad de las respuestas: un estudio coordinado por la UER y la BBC halló problemas significativos en casi la mitad de las 3,000 respuestas evaluadas (incluidos errores de fuente y precisión) en asistentes como ChatGPT, Copilot, Gemini y Perplexity.

Ese hallazgo advierte acerca de que la cadena de confianza ya está tensionada aun sin adversarios en medio; con inyección de prompt, el riesgo se amplifica. OpenAI está extendiendo la superficie funcional del producto.

Por un lado, con Atlas, un navegador orientado a competir por sesiones de búsqueda e investigación; por otro, con funciones para conectarse con apps de la vida cotidiana. Ambos movimientos pueden incrementar el número de contextos, integraciones y permisos que un atacante podría intentar explotar. Para los defensores, eso significa más puntos de control que endurecer.

Si ChatGPT aspira a competir por el tiempo de navegación (con Atlas), a orquestar tareas cotidianas (conexión a apps) y a convertirse en la puerta de entrada a información (en un mercado que mira una OPI histórica), su modelo de seguridad debe asumir actores creativos y bien incentivados.

Las siete vulnerabilidades de HackedGPT no son una anécdota. Se trata de una guía de ataque que devuelve a los equipos de producto y a los CISO a los básicos: aislar, validar, registrar, gobernar. Un entorno donde el contenido le habla al modelo y el modelo confía por diseño.

rodrigo.riquelme@eleconomista.mx

Rodrigo Riquelme

Reportero de Tecnología

Únete infórmate descubre

Suscríbete a nuestros
Newsletters

Ve a nuestros Newslettersregístrate aquí
tracking reference image

Últimas noticias

Noticias Recomendadas

Suscríbete