Lockdown Mode en ChatGPT: el “modo búnker” para frenar la inyección de prompts

A medida que ChatGPT y otros asistentes de IA dejan de ser solo “cajas de texto” y empiezan a navegar, abrir archivos o conversar con aplicaciones conectadas, cambia la escala del riesgo. No es lo mismo pedir una receta que pedirle al sistema que consulte un panel interno, lea un documento confidencial y prepare un informe. Cada nueva puerta que se abre hacia el exterior es una oportunidad para que alguien intente colarse.

OpenAI ha puesto el foco en un problema concreto: la inyección de prompts o prompt injection, una familia de ataques en la que un tercero intenta engañar al modelo para que siga instrucciones maliciosas o termine revelando datos sensibles. Si lo pensamos como una conversación normal, es como cuando alguien se mete en medio y, con tono convincente, intenta que cuentes algo privado “porque es urgente” o “porque lo pide tu jefe”. En IA, esa voz puede venir escondida en una web, en un archivo, en un correo o incluso en el texto que una app conectada le pasa al asistente.

Según explicó OpenAI en un comunicado fechado el 13 de febrero de 2026, su respuesta llega con dos novedades: Lockdown Mode y las etiquetas Elevated Risk para ciertas capacidades que, por su naturaleza, introducen un riesgo adicional.

Qué es Lockdown Mode y por qué apunta a un público muy concreto

Lockdown Mode es un ajuste opcional, pensado para un grupo pequeño de personas con un perfil de amenaza más alto: directivos, equipos de seguridad o personal que trabaja en organizaciones especialmente expuestas a ciberataques. La idea es clara: cuando tu conversación puede incluir secretos corporativos, credenciales o información estratégica, necesitas un cinturón de seguridad más rígido que el estándar.

OpenAI insiste en que no es un modo necesario para la mayoría de usuarios. Es un matiz importante, porque evita venderlo como “la forma correcta” de usar ChatGPT, y lo posiciona como un modo de protección reforzada cuando el contexto lo exige. En términos cotidianos, sería como activar el “modo caja fuerte” de un teléfono: puede limitar funciones que te gustan, pero reduce la superficie de ataque.

Un enfoque “determinista”: menos sorpresas, más garantías

La pieza técnica más interesante es el énfasis en lo determinista. OpenAI describe que Lockdown Mode desactiva de forma determinista ciertas herramientas y capacidades que un atacante podría intentar explotar para sacar información de la conversación o de apps conectadas. ¿Por qué subrayar esa palabra? Porque en seguridad, las zonas grises son un problema: si una función “a veces” deja una rendija abierta, ya es demasiado.

Aquí entra el concepto de exfiltración de datos, que es básicamente sacar información hacia fuera sin permiso. En un ataque de prompt injection, el atacante no necesita romper contraseñas; le basta con manipular la situación para que el propio sistema “se lo lleve puesto”, como cuando alguien te pide una foto de tu tarjeta “solo para verificar” y tú, confiando, la envías.

Navegar sí, pero con una red de seguridad: contenido en caché

El ejemplo más ilustrativo que pone OpenAI es el de la navegación web. En Lockdown Mode, el browsing se limita a contenido en caché, de forma que no salen solicitudes de red en vivo fuera de la red controlada por OpenAI. Traducido a una metáfora doméstica: es como consultar una enciclopedia guardada en casa en lugar de salir a la calle a preguntarle a desconocidos. Sigues obteniendo información, pero reduces la posibilidad de que alguien de fuera te “escuche” o te envíe un mensaje tramposo en tiempo real.

Hay una consecuencia práctica: cuando no se pueden ofrecer garantías fuertes de seguridad, algunas funciones se desactivan por completo. Esto puede ser frustrante para ciertos flujos de trabajo, pero también es coherente con una promesa de protección: si no se puede controlar el riesgo, se corta la vía.

Capas de protección que ya existían y por qué esto suma, no reemplaza

OpenAI enmarca estas novedades como parte de un conjunto más amplio de mitigaciones. Habla de sandboxing, defensas contra exfiltración basada en URLs, monitorización y enforcement, y controles empresariales como control de acceso por roles y registros de auditoría. La lectura aquí es que Lockdown Mode no viene a “arreglarlo todo”, sino a endurecer la postura de seguridad en escenarios donde el coste de un error es muy alto.

Es un enfoque parecido al de un edificio: puedes tener cámaras, portero y cerraduras decentes, pero si vas a guardar documentos especialmente delicados, quizá uses una sala con acceso restringido y reglas más estrictas de entrada y salida.

Cómo se gestiona en empresas: el equilibrio entre seguridad y productividad

Lockdown Mode está disponible en planes de negocio concretos: ChatGPT Enterprise, ChatGPT Edu, ChatGPT for Healthcare y ChatGPT for Teachers, siempre según la descripción del propio OpenAI. La activación queda en manos de administradores, que pueden habilitarlo desde la configuración del espacio de trabajo creando un rol nuevo. Esto es significativo porque encaja con el modelo habitual de TI corporativa: no se trata de una preferencia personal aislada, sino de una política que se puede asignar a perfiles específicos.

Para no romper flujos críticos que dependen de aplicaciones, OpenAI describe controles granulares: los administradores pueden escoger qué apps y qué acciones dentro de esas apps se permiten cuando un usuario está en Lockdown Mode. Es una filosofía “mínimo privilegio” aplicada a asistentes: darle al sistema solo lo que necesita para hacer el trabajo, nada más.

En paralelo, se menciona una plataforma de logs de cumplimiento, la Compliance API Logs Platform, orientada a ofrecer visibilidad detallada sobre uso de apps, datos compartidos y fuentes conectadas. En entornos regulados, la trazabilidad es casi tan importante como la protección: no basta con creer que todo fue seguro; hace falta poder demostrar qué pasó y cuándo.

Etiquetas Elevated Risk: señales de tráfico para funciones potentes

La segunda novedad son las etiquetas Elevated Risk para ciertas capacidades existentes en ChatGPT, ChatGPT Atlas y Codex. El mensaje es pragmático: conectar la IA con la web y con apps puede ser muy útil, pero algunas funciones de red introducen riesgos que todavía no están completamente resueltos por las mitigaciones habituales del sector.

Estas etiquetas buscan estandarizar la advertencia para que el usuario reciba la misma señal en productos distintos. Piensa en esas etiquetas de “frágil” en una caja: no impiden el envío, pero te recuerdan que hay que manipularla con más cuidado. Aquí la idea es parecida: no se prohíbe automáticamente, se informa de manera consistente, con una explicación clara de qué cambia y cuándo conviene usarlo.

El caso de Codex: cuando dar internet a un agente se parece a darle llaves

OpenAI pone un ejemplo con Codex, su asistente de programación. Algunos desarrolladores habilitan acceso a internet para que el agente consulte documentación o realice acciones en la web. Eso puede acelerar tareas reales, como buscar la versión exacta de una API o comprobar un changelog, pero también abre una vía de entrada a contenido malicioso.

En la configuración descrita se contemplan controles como una allowlist de dominios, dominios adicionales permitidos y métodos HTTP autorizados. Es como darle llaves a alguien, pero limitadas: puede entrar a ciertas habitaciones, por ciertas puertas, en ciertos horarios. La etiqueta Elevated Risk funciona como recordatorio de que, aunque haya reglas, el riesgo sube cuando el agente puede interactuar con la red.

Lo que viene: etiquetas que desaparecen y un modo búnker para consumidores

OpenAI plantea este esquema como algo vivo: si la empresa considera que los avances en seguridad han mitigado suficientemente el riesgo de una capacidad, la etiqueta Elevated Risk se retirará. También se actualizará, con el tiempo, qué funciones llevan esa marca para comunicar mejor el nivel de riesgo.

Sobre Lockdown Mode, se indica la intención de llevarlo a consumidores “en los próximos meses”. La lectura práctica es que esta capa de protección, hoy enfocada a entornos empresariales y sectores específicos, podría terminar siendo relevante también para particulares que gestionan información delicada, como profesionales autónomos, periodistas o personas con alta exposición pública.