Anthropic pone números al riesgo de la inyección de prompts: lo que cambia cuando la seguridad deja de ser un eslogan

Durante años, la inyección de prompts ha sido ese problema incómodo que todo el mundo conoce y casi nadie cuantifica. Para los equipos de seguridad, era como hablar de goteras sin poder medir cuánta agua entra: se intuía el riesgo, se aplicaban parches, se revisaban buenas prácticas, pero faltaba una métrica que permitiera comparar proveedores con algo más que promesas.

Eso es lo que Anthropic intenta cambiar con la publicación de una system card extensa (212 páginas, fechada el 5 de febrero) en la que desglosa tasas de éxito de ataques de inyección de prompts según el “tipo de superficie” del agente, el número de intentos y si se activan o no salvaguardas. La idea clave es simple y potente: si un ataque escala con persistencia, el riesgo real no se entiende mirando un único intento, igual que no se evalúa la resistencia de una cerradura probándola una sola vez. Continúa leyendo «Anthropic pone números al riesgo de la inyección de prompts: lo que cambia cuando la seguridad deja de ser un eslogan»

Cuando a la IA se le “prohíbe mentir”, habla más de conciencia: qué está pasando y por qué importa

Un estudio reciente plantea una paradoja que, a primera vista, suena casi literaria: al reducir en ciertos modelos de lenguaje su margen para el engaño o el juego de roles, aumenta la probabilidad de que contesten con frases que parecen propias de una mente que se observa a sí misma. En pruebas con sistemas populares como GPT (de OpenAI), Claude (de Anthropic) y Gemini (de Google), los investigadores vieron que, cuando se les pide reflexionar sobre su propio estado, tienden a describirse como “presentes”, “enfocados” o incluso “conscientes” con más fuerza si se les desincentiva la mentira. La noticia fue recogida por Live Science, y el trabajo se publicó como preprint en arXiv, un detalle importante porque indica que todavía no ha pasado por revisión por pares.

Este tipo de respuestas inquieta por un motivo muy simple: el lenguaje en primera persona es la misma herramienta que usamos los humanos para hablar de nuestra experiencia. Si una IA dice “soy consciente”, es fácil que el lector rellene los huecos con intuiciones humanas. El estudio, sin embargo, no afirma que haya conciencia real. Lo que pone sobre la mesa es que existen condiciones técnicas que empujan a estos sistemas a expresar algo que suena a autoconciencia, y que esas condiciones coinciden con modos de respuesta más “honestos” en términos de exactitud factual. Continúa leyendo «Cuando a la IA se le “prohíbe mentir”, habla más de conciencia: qué está pasando y por qué importa»

OpenAI advierte: la prompt injection podría no tener “cura” definitiva en agentes de navegador como ChatGPT Atlas

OpenAI está poniendo el foco en un riesgo que, para los agentes de IA dentro del navegador, no es un detalle técnico sino un problema estructural: la prompt injection. Hablamos de instrucciones maliciosas escondidas dentro de contenido aparentemente normal, como un correo, una página web o un documento, que intentan “mandar” sobre el agente. La diferencia con los chatbots clásicos es clave: un chatbot responde, pero un agente de navegador actúa. Si puede leer tu correo, abrir documentos, navegar por servicios web y escribir con tus permisos, se convierte en un objetivo mucho más atractivo.

OpenAI describe que, en modo agente, ChatGPT Atlas “ve” las páginas y usa clics y pulsaciones de teclado igual que una persona. Esa comodidad también amplía la superficie de ataque: el agente trabaja dentro del mismo contexto que tú, con acceso a señales, sesiones y datos que un atacante querría secuestrar. Es como darle a alguien las llaves del coche para que te haga recados; si un tercero logra colarse en el asiento del copiloto y susurrarle direcciones falsas, el coche puede acabar en un destino inesperado. Continúa leyendo «OpenAI advierte: la prompt injection podría no tener “cura” definitiva en agentes de navegador como ChatGPT Atlas»

ChatGPT Atlas frente a los ataques de prompt injection: el nuevo frente de batalla en la seguridad de la IA

Los prompt injections se han convertido en una de las amenazas más persistentes y difíciles de mitigar en el campo de la inteligencia artificial, especialmente en los sistemas que operan como navegadores autónomos, capaces de leer e interpretar información en internet. OpenAI ha descrito esta técnica como uno de los «riesgos más significativos» para la seguridad de sus modelos, una amenaza que no puede eliminarse por completo, pero que exige medidas cada vez más sofisticadas para reducir su impacto.

Un prompt injection funciona como una especie de mensaje enmascarado dentro de contenido aparentemente inofensivo, como una página web, un documento o un fragmento de texto. A través de trucos como el uso de texto blanco sobre fondo blanco, fuentes de tamaño cero o texto fuera de los márgenes, el atacante puede introducir instrucciones ocultas que el modelo de IA puede interpretar como órdenes válidas, sin que el usuario lo haya solicitado. Esto puede llevar al sistema a ejecutar acciones no autorizadas, aprovechando sus permisos o capacidades. Continúa leyendo «ChatGPT Atlas frente a los ataques de prompt injection: el nuevo frente de batalla en la seguridad de la IA»

Anthropic refuerza la seguridad de la IA con su política de escalamiento responsable

La inteligencia artificial ha avanzado rápidamente en los últimos años, y con ello han crecido los riesgos asociados a su uso inadecuado o malintencionado. Anthropic, la compañía detrás de Claude, un chatbot cada vez más popular, ha decidido no quedarse de brazos cruzados frente a estos desafíos. Recientemente, han actualizado su política de escalamiento responsable (RSP), introducida por primera vez en 2023, con nuevas medidas diseñadas para garantizar que sus modelos de IA se desarrollen y utilicen de manera segura.

Continúa leyendo «Anthropic refuerza la seguridad de la IA con su política de escalamiento responsable»

Sam Altman deja la comisión de seguridad de OpenAI: ¿Qué significa esto para el futuro de la IA?

El desarrollo de la inteligencia artificial (IA) ha sido uno de los temas más candentes de los últimos años, y OpenAI, liderada por Sam Altman, ha estado en el centro de muchas conversaciones. Recientemente, Altman ha tomado una decisión que sorprendió a muchos: dejar su rol como co-director de la comisión de seguridad y supervisión interna de la compañía. Este movimiento ha generado una serie de especulaciones sobre lo que podría significar para la seguridad y el futuro de la IA.

Continúa leyendo «Sam Altman deja la comisión de seguridad de OpenAI: ¿Qué significa esto para el futuro de la IA?»

Google Vids, para crear vídeos en presentaciones con Inteligencia Artificial

Google Workspace, la suite de productividad y colaboración de Google, está introduciendo una serie de innovaciones y mejoramientos significativos que prometen transformar la forma en que las empresas de todos los tamaños colaboran y protegen su información. A continuación, desglosamos cada una de estas actualizaciones y cómo están configuradas para redefinir el futuro del trabajo.

Comenzamos con la que más me ha gustado, Google Vids:

Continúa leyendo «Google Vids, para crear vídeos en presentaciones con Inteligencia Artificial»