Etiqueta: red teaming

OpenAI acuerda la compra de Promptfoo: más pruebas de seguridad para agentes en Frontier

Publicado el 10 marzo, 2026

OpenAI ha anunciado un acuerdo para adquirir Promptfoo, una plataforma de seguridad de IA pensada para que las empresas detecten y corrijan vulnerabilidades mientras desarrollan sus sistemas. La idea es clara: cuando los agentes de IA dejan de ser demos y empiezan a operar en procesos con datos, herramientas y permisos, la pregunta ya no es solo “¿funciona?”, sino “¿se comporta bien cuando alguien intenta forzarlo?”. Según explicó OpenAI en su comunicado del 9 de marzo de 2026, la tecnología de Promptfoo se integrará directamente en OpenAI Frontier, su plataforma para construir y operar “AI coworkers”, una forma de referirse a asistentes que ejecutan tareas dentro de flujos de trabajo empresariales. Fuentes: OpenAI, TechCrunch y Bloomberg.

El anuncio llega con una coletilla habitual en este tipo de operaciones: el cierre está sujeto a condiciones de cierre “customary”, sin detallar plazos ni términos económicos. Aun así, el mensaje práctico es que OpenAI quiere convertir la evaluación, la seguridad y el cumplimiento en piezas nativas del producto, no en accesorios que se acoplan después. Continúa leyendo «OpenAI acuerda la compra de Promptfoo: más pruebas de seguridad para agentes en Frontier»

Anthropic pone números al riesgo de la inyección de prompts: lo que cambia cuando la seguridad deja de ser un eslogan

Publicado el 13 febrero, 2026

por Natalia Polo

Durante años, la inyección de prompts ha sido ese problema incómodo que todo el mundo conoce y casi nadie cuantifica. Para los equipos de seguridad, era como hablar de goteras sin poder medir cuánta agua entra: se intuía el riesgo, se aplicaban parches, se revisaban buenas prácticas, pero faltaba una métrica que permitiera comparar proveedores con algo más que promesas.

Eso es lo que Anthropic intenta cambiar con la publicación de una system card extensa (212 páginas, fechada el 5 de febrero) en la que desglosa tasas de éxito de ataques de inyección de prompts según el “tipo de superficie” del agente, el número de intentos y si se activan o no salvaguardas. La idea clave es simple y potente: si un ataque escala con persistencia, el riesgo real no se entiende mirando un único intento, igual que no se evalúa la resistencia de una cerradura probándola una sola vez. Continúa leyendo «Anthropic pone números al riesgo de la inyección de prompts: lo que cambia cuando la seguridad deja de ser un eslogan»

OpenAI advierte: la prompt injection podría no tener “cura” definitiva en agentes de navegador como ChatGPT Atlas

Publicado el 31 diciembre, 2025

por Natalia Polo

OpenAI está poniendo el foco en un riesgo que, para los agentes de IA dentro del navegador, no es un detalle técnico sino un problema estructural: la prompt injection. Hablamos de instrucciones maliciosas escondidas dentro de contenido aparentemente normal, como un correo, una página web o un documento, que intentan “mandar” sobre el agente. La diferencia con los chatbots clásicos es clave: un chatbot responde, pero un agente de navegador actúa. Si puede leer tu correo, abrir documentos, navegar por servicios web y escribir con tus permisos, se convierte en un objetivo mucho más atractivo.

OpenAI describe que, en modo agente, ChatGPT Atlas “ve” las páginas y usa clics y pulsaciones de teclado igual que una persona. Esa comodidad también amplía la superficie de ataque: el agente trabaja dentro del mismo contexto que tú, con acceso a señales, sesiones y datos que un atacante querría secuestrar. Es como darle a alguien las llaves del coche para que te haga recados; si un tercero logra colarse en el asiento del copiloto y susurrarle direcciones falsas, el coche puede acabar en un destino inesperado. Continúa leyendo «OpenAI advierte: la prompt injection podría no tener “cura” definitiva en agentes de navegador como ChatGPT Atlas»

La batalla silenciosa de la seguridad en la IA: Anthropic y OpenAI muestran filosofías opuestas en red teaming

Publicado el 6 diciembre, 2025

por Natalia Polo

El desarrollo de modelos de inteligencia artificial ha evolucionado a un ritmo vertiginoso, pero con esa velocidad llega una preocupación inevitable: ¿qué tan seguros son realmente estos sistemas frente a usos maliciosos? Anthropic y OpenAI, dos de los laboratorios más influyentes en el campo, han optado por estrategias claramente diferentes al enfrentar esta pregunta, y sus «system cards» revelan mucho más que simples cifras: muestran filosofías de seguridad completamente distintas. Continúa leyendo «La batalla silenciosa de la seguridad en la IA: Anthropic y OpenAI muestran filosofías opuestas en red teaming»

OpenAI mejora GPT-4o: Redacción creativa más fluida y avances en seguridad con red teaming automatizado

Publicado el 26 noviembre, 2024

por Juan Diego Polo

OpenAI, líder en inteligencia artificial (IA), ha anunciado una importante actualización de su modelo GPT-4o, diseñado para mejorar su capacidad de redacción creativa, fluidez en respuestas y procesamiento de archivos. Además, la compañía compartió avances en red teaming automatizado, un método innovador para identificar vulnerabilidades en sistemas de IA. Estas novedades prometen llevar la interacción con inteligencia artificial a un nuevo nivel de precisión, seguridad y utilidad.

Continúa leyendo «OpenAI mejora GPT-4o: Redacción creativa más fluida y avances en seguridad con red teaming automatizado»