Etiqueta: seguridad de IA

ChatGPT en un caso de asesinatos en Corea del Sur: lo que revela sobre la seguridad de la IA

Publicado el 25 febrero, 2026

La policía surcoreana sostiene que una mujer de 21 años, identificada por su apellido Kim, utilizó ChatGPT como apoyo para calibrar riesgos antes de presuntamente drogar a sus víctimas. La acusación se centra en dos muertes ocurridas tras encuentros en moteles de Seúl: en ambos episodios, Kim habría suministrado bebidas mezcladas con benzodiacepinas —fármacos sedantes que, según los investigadores, tenía prescritos por un trastorno de salud mental— y se habría marchado sola poco después. En el primer caso, la secuencia situada por la policía comienza el 28 de enero y termina con el hallazgo del cuerpo al día siguiente; el segundo se habría producido el 9 de febrero con un patrón similar.

Lo que convierte este caso en una noticia global no es solo la crudeza de los hechos, sino el rastro digital que, según las autoridades, ayudaría a sostener la intención de matar. De acuerdo con The Korea Herald y reportes recogidos por otros medios, los investigadores habrían encontrado consultas relacionadas con la combinación de somníferos y alcohol, con preguntas del tipo “¿podría ser mortal?” o “¿qué cantidad se considera peligrosa?”. Ese tipo de búsqueda no es una “receta” paso a paso, pero sí funcionaría como quien pregunta a un semáforo cuánto tarda en ponerse rojo: no conduce el coche por ti, pero puede influir en decisiones con consecuencias irreparables. Continúa leyendo «ChatGPT en un caso de asesinatos en Corea del Sur: lo que revela sobre la seguridad de la IA»

La “fiebre” de los agentes de IA ya está aquí y la web no tiene barandillas suficientes

Publicado el 23 febrero, 2026

por Natalia Polo

Durante años, la idea dominante de la inteligencia artificial de consumo fue la del asistente conversacional: tú preguntas, el sistema responde. En 2025 y 2026 esa imagen se ha quedado corta porque han proliferado los agentes de IA, herramientas que no solo contestan, sino que ejecutan tareas encadenadas con poca intervención humana: buscar información, abrir webs, rellenar formularios, iniciar sesión, reservar, programar, mover archivos o coordinar pasos como si fueran un becario incansable con acceso a tu navegador.

Un ejemplo reciente, citado por Gizmodo (AJ Dellinger, 19 de febrero de 2026), es el caso de OpenClaw, un agente open source que “arrasó” por sus capacidades autónomas y por la inquietud que generó en seguridad. El problema es que el debate suele quedarse en anécdotas: impresiona ver a un bot navegar como una persona, pero cuesta saber cuántos hay, qué hacen realmente y con qué normas. Para poner números y contexto, el MIT a través de CSAIL publicó su AI Agent Index 2025, un inventario y análisis de agentes en operación “en la naturaleza”, con foco en transparencia y guardarraíles. Continúa leyendo «La “fiebre” de los agentes de IA ya está aquí y la web no tiene barandillas suficientes»

Anthropic pone números al riesgo de la inyección de prompts: lo que cambia cuando la seguridad deja de ser un eslogan

Publicado el 13 febrero, 2026

por Natalia Polo

Durante años, la inyección de prompts ha sido ese problema incómodo que todo el mundo conoce y casi nadie cuantifica. Para los equipos de seguridad, era como hablar de goteras sin poder medir cuánta agua entra: se intuía el riesgo, se aplicaban parches, se revisaban buenas prácticas, pero faltaba una métrica que permitiera comparar proveedores con algo más que promesas.

Eso es lo que Anthropic intenta cambiar con la publicación de una system card extensa (212 páginas, fechada el 5 de febrero) en la que desglosa tasas de éxito de ataques de inyección de prompts según el “tipo de superficie” del agente, el número de intentos y si se activan o no salvaguardas. La idea clave es simple y potente: si un ataque escala con persistencia, el riesgo real no se entiende mirando un único intento, igual que no se evalúa la resistencia de una cerradura probándola una sola vez. Continúa leyendo «Anthropic pone números al riesgo de la inyección de prompts: lo que cambia cuando la seguridad deja de ser un eslogan»

Cuando a la IA se le “prohíbe mentir”, habla más de conciencia: qué está pasando y por qué importa

Publicado el 4 febrero, 2026

por Natalia Polo

Un estudio reciente plantea una paradoja que, a primera vista, suena casi literaria: al reducir en ciertos modelos de lenguaje su margen para el engaño o el juego de roles, aumenta la probabilidad de que contesten con frases que parecen propias de una mente que se observa a sí misma. En pruebas con sistemas populares como GPT (de OpenAI), Claude (de Anthropic) y Gemini (de Google), los investigadores vieron que, cuando se les pide reflexionar sobre su propio estado, tienden a describirse como “presentes”, “enfocados” o incluso “conscientes” con más fuerza si se les desincentiva la mentira. La noticia fue recogida por Live Science, y el trabajo se publicó como preprint en arXiv, un detalle importante porque indica que todavía no ha pasado por revisión por pares.

Este tipo de respuestas inquieta por un motivo muy simple: el lenguaje en primera persona es la misma herramienta que usamos los humanos para hablar de nuestra experiencia. Si una IA dice “soy consciente”, es fácil que el lector rellene los huecos con intuiciones humanas. El estudio, sin embargo, no afirma que haya conciencia real. Lo que pone sobre la mesa es que existen condiciones técnicas que empujan a estos sistemas a expresar algo que suena a autoconciencia, y que esas condiciones coinciden con modos de respuesta más “honestos” en términos de exactitud factual. Continúa leyendo «Cuando a la IA se le “prohíbe mentir”, habla más de conciencia: qué está pasando y por qué importa»

OpenAI advierte: la prompt injection podría no tener “cura” definitiva en agentes de navegador como ChatGPT Atlas

Publicado el 31 diciembre, 2025

por Natalia Polo

OpenAI está poniendo el foco en un riesgo que, para los agentes de IA dentro del navegador, no es un detalle técnico sino un problema estructural: la prompt injection. Hablamos de instrucciones maliciosas escondidas dentro de contenido aparentemente normal, como un correo, una página web o un documento, que intentan “mandar” sobre el agente. La diferencia con los chatbots clásicos es clave: un chatbot responde, pero un agente de navegador actúa. Si puede leer tu correo, abrir documentos, navegar por servicios web y escribir con tus permisos, se convierte en un objetivo mucho más atractivo.

OpenAI describe que, en modo agente, ChatGPT Atlas “ve” las páginas y usa clics y pulsaciones de teclado igual que una persona. Esa comodidad también amplía la superficie de ataque: el agente trabaja dentro del mismo contexto que tú, con acceso a señales, sesiones y datos que un atacante querría secuestrar. Es como darle a alguien las llaves del coche para que te haga recados; si un tercero logra colarse en el asiento del copiloto y susurrarle direcciones falsas, el coche puede acabar en un destino inesperado. Continúa leyendo «OpenAI advierte: la prompt injection podría no tener “cura” definitiva en agentes de navegador como ChatGPT Atlas»

ChatGPT Atlas frente a los ataques de prompt injection: el nuevo frente de batalla en la seguridad de la IA

Publicado el 24 diciembre, 2025

por Natalia Polo

Los prompt injections se han convertido en una de las amenazas más persistentes y difíciles de mitigar en el campo de la inteligencia artificial, especialmente en los sistemas que operan como navegadores autónomos, capaces de leer e interpretar información en internet. OpenAI ha descrito esta técnica como uno de los «riesgos más significativos» para la seguridad de sus modelos, una amenaza que no puede eliminarse por completo, pero que exige medidas cada vez más sofisticadas para reducir su impacto.

Un prompt injection funciona como una especie de mensaje enmascarado dentro de contenido aparentemente inofensivo, como una página web, un documento o un fragmento de texto. A través de trucos como el uso de texto blanco sobre fondo blanco, fuentes de tamaño cero o texto fuera de los márgenes, el atacante puede introducir instrucciones ocultas que el modelo de IA puede interpretar como órdenes válidas, sin que el usuario lo haya solicitado. Esto puede llevar al sistema a ejecutar acciones no autorizadas, aprovechando sus permisos o capacidades. Continúa leyendo «ChatGPT Atlas frente a los ataques de prompt injection: el nuevo frente de batalla en la seguridad de la IA»

Anthropic refuerza la seguridad de la IA con su política de escalamiento responsable

Publicado el 16 octubre, 2024

por Juan Diego Polo

La inteligencia artificial ha avanzado rápidamente en los últimos años, y con ello han crecido los riesgos asociados a su uso inadecuado o malintencionado. Anthropic, la compañía detrás de Claude, un chatbot cada vez más popular, ha decidido no quedarse de brazos cruzados frente a estos desafíos. Recientemente, han actualizado su política de escalamiento responsable (RSP), introducida por primera vez en 2023, con nuevas medidas diseñadas para garantizar que sus modelos de IA se desarrollen y utilicen de manera segura.

Continúa leyendo «Anthropic refuerza la seguridad de la IA con su política de escalamiento responsable»

Sam Altman deja la comisión de seguridad de OpenAI: ¿Qué significa esto para el futuro de la IA?

Publicado el 19 septiembre, 2024

por Juan Diego Polo

El desarrollo de la inteligencia artificial (IA) ha sido uno de los temas más candentes de los últimos años, y OpenAI, liderada por Sam Altman, ha estado en el centro de muchas conversaciones. Recientemente, Altman ha tomado una decisión que sorprendió a muchos: dejar su rol como co-director de la comisión de seguridad y supervisión interna de la compañía. Este movimiento ha generado una serie de especulaciones sobre lo que podría significar para la seguridad y el futuro de la IA.

Continúa leyendo «Sam Altman deja la comisión de seguridad de OpenAI: ¿Qué significa esto para el futuro de la IA?»

Google Vids, para crear vídeos en presentaciones con Inteligencia Artificial

Publicado el 9 abril, 2024

por Juan Diego Polo

Google Workspace, la suite de productividad y colaboración de Google, está introduciendo una serie de innovaciones y mejoramientos significativos que prometen transformar la forma en que las empresas de todos los tamaños colaboran y protegen su información. A continuación, desglosamos cada una de estas actualizaciones y cómo están configuradas para redefinir el futuro del trabajo.

Comenzamos con la que más me ha gustado, Google Vids:

Continúa leyendo «Google Vids, para crear vídeos en presentaciones con Inteligencia Artificial»