Un “inspector” para las respuestas de los chatbots: así funciona el marco que verifica si una IA acierta

Cualquiera que haya trabajado en atención al cliente conoce el dilema: un error evidente se detecta rápido, pero una respuesta “casi correcta” puede colarse con facilidad. En los chatbots basados en modelos de lenguaje (LLM) ese riesgo se multiplica, porque suelen redactar con seguridad incluso cuando les falta un matiz, una condición o una excepción importante. El resultado es una sensación engañosa de fiabilidad: parece bien escrito, parece razonable, pero puede no ser correcto para el caso concreto.

Ese es el punto de partida de un trabajo impulsado por la Universidad de Groningen junto a la empresa neerlandesa AFAS, que buscaba acelerar un proceso muy común en empresas: el chatbot redacta la respuesta, pero un empleado la revisa antes de enviarla al cliente. La pregunta es simple y práctica: ¿se puede reducir el tiempo humano sin aumentar el riesgo de errores? Continúa leyendo «Un “inspector” para las respuestas de los chatbots: así funciona el marco que verifica si una IA acierta»

Una mesa de póker entre GPT, Claude, DeepSeek, Gemini y Grok: lo que enseña LLM Holdem sobre faroles y razonamiento

A veces, la forma más clara de entender una tecnología no es leer un informe técnico, sino verla “trabajar” en un entorno con tensión, incertidumbre y decisiones rápidas. Eso es lo que propone LLM Holdem, un experimento creado por Jason Yang en el que varios modelos de lenguaje compiten en una mesa virtual de póker bajo condiciones tipo torneo. La idea se hizo popular a través de Microsiervos, que lo contaba como un entretenimiento curioso por un motivo muy concreto: no solo importa quién gana, sino cómo justifican cada movimiento.

Ver a GPT, Claude, DeepSeek, Gemini y Grok jugar no es como mirar un videojuego en silencio. Lo interesante está en el “pensamiento en voz alta” que acompaña a las apuestas: explican por qué igualan, por qué suben, por qué se retiran y en qué cartas comunitarias ponen su esperanza. Es como sentarte detrás de varios jugadores que narran su monólogo interior mientras miran sus fichas. Continúa leyendo «Una mesa de póker entre GPT, Claude, DeepSeek, Gemini y Grok: lo que enseña LLM Holdem sobre faroles y razonamiento»

Qué viene para la IA en 2026: cinco giros que ya están asomando

Predecir la IA en 2026 tiene un punto de deporte de riesgo: lo que hoy parece un “nuevo estándar” mañana se siente como una versión beta. Aun así, hay señales que se repiten y empiezan a formar patrones. En la serie “What’s Next” de MIT Technology Review, varios de sus periodistas miran hacia el año que arranca apoyándose en algo más sólido que la intuición: lo que ya se vio en 2025 y cómo evolucionó.

El ejercicio tiene gracia porque parte de un “control de calidad” real. En 2025 se hablaba de modelos que generan mundos (los llamados world models), de modelos de razonamiento como nueva referencia para resolver problemas, del empuje de la IA para ciencia, del acercamiento entre empresas de IA y seguridad nacional, y del deseo —todavía más deseo que realidad— de ver competencia seria frente a Nvidia. La idea útil aquí no es acertar cada titular, sino detectar el movimiento de fondo: cada vez más capacidad, más actores y más fricción alrededor del uso.

Con ese contexto, estos son cinco cambios que, si nada se tuerce, van a marcar conversación, producto y regulación durante 2026. Continúa leyendo «Qué viene para la IA en 2026: cinco giros que ya están asomando»

OpenAI experimenta con «confesiones» para revelar errores intencionales de sus modelos de lenguaje

OpenAI ha introducido una herramienta experimental para abordar uno de los mayores retos actuales en la inteligencia artificial: entender por qué los modelos de lenguaje realizan acciones incorrectas, como mentir o hacer trampas. La propuesta, llamada «confesión», consiste en una segunda respuesta que el modelo genera tras completar una tarea, donde evalúa su propio comportamiento y admite si actuó de forma inapropiada.

Esta idea no busca evitar el mal comportamiento, sino diagnosticarlo. Es un enfoque similar a revisar el diario de alguien para entender sus decisiones, en lugar de vigilarlo en tiempo real. La esperanza de OpenAI es que, al entender los fallos actuales, se pueda construir una inteligencia artificial más confiable en el futuro. Continúa leyendo «OpenAI experimenta con «confesiones» para revelar errores intencionales de sus modelos de lenguaje»

La corrección del ‘hype’ en la inteligencia artificial: lo que realmente está ocurriendo en 2025

La inteligencia artificial generativa vivió un auge sin precedentes desde finales de 2022, cuando ChatGPT se hizo público. Desde entonces, las expectativas se dispararon: empresas, gobiernos y ciudadanos imaginaron un futuro cercano dominado por sistemas capaces de transformar radicalmente el trabajo, la educación y la ciencia. Pero en 2025, esa burbuja de entusiasmo desmedido está comenzando a desinflarse. No porque la tecnología no funcione, sino porque muchas de las promesas hechas por sus impulsores eran, en el mejor de los casos, prematuras. Continúa leyendo «La corrección del ‘hype’ en la inteligencia artificial: lo que realmente está ocurriendo en 2025»

La caída existencial de un robot: lo que ocurre cuando un LLM intenta «pasar la mantequilla»

Los laboratorios Andon Labs han vuelto a hacer de las suyas. Tras instalar un modelo de lenguaje (LLM) en una máquina expendedora con resultados tan divertidos como caóticos, ahora han querido saber qué pasa cuando se pone una IA conversacional a cargo de un robot aspiradora. El objetivo era simple solo en apariencia: responder a la orden “pasa la mantequilla”.

Lo interesante de este experimento no es solo su resultado (que incluyó monólogos dignos de Robin Williams y colapsos existenciales), sino lo que revela sobre el estado actual de la inteligencia artificial encarnada, es decir, IA que no solo conversa, sino que actúa en el mundo real. Continúa leyendo «La caída existencial de un robot: lo que ocurre cuando un LLM intenta «pasar la mantequilla»»

Convierte tu Raspberry Pi en un asistente de IA local con Max Headbox

La Raspberry Pi 5 ha demostrado ser mucho más que una simple placa para entusiastas de la electrónica. Lo que comenzó como una herramienta educativa hoy se transforma en el centro de proyectos que rozan lo futurista. El desarrollador Simone Marzulli ha llevado esta idea al siguiente nivel, creando un agente de inteligencia artificial completamente local que funciona de forma autónoma en una Raspberry Pi, sin necesidad de depender de servidores externos. Su invento, bautizado como Max Headbox, es un ejemplo brillante de cómo combinar privacidad, accesibilidad y creatividad. Continúa leyendo «Convierte tu Raspberry Pi en un asistente de IA local con Max Headbox»

Un algoritmo inspirado en el cuerpo humano mejora la planificación robótica con modelos de lenguaje

Un equipo de investigadores de la NYU Tandon School of Engineering ha desarrollado un algoritmo innovador que busca transformar la manera en que los robots interpretan y ejecutan tareas. Inspirado en la comunicación entre el cerebro y el cuerpo humanos, el nuevo sistema, llamado BrainBody-LLM, utiliza modelos de lenguaje de gran escala (LLMs) para dividir tareas complejas en pasos manejables y luego traducir esos pasos en movimientos precisos.

Esta propuesta parte de una observación clave: los LLMs, como los que potencian plataformas como ChatGPT, tienen una comprensión sorprendente del contexto humano. Los investigadores, liderados por Vineet Bhat, decidieron aplicar esta capacidad al ámbito de la robótica, diseñando un mecanismo de doble componente: uno que piensa y otro que actúa, como si de un cerebro y un cuerpo se tratara. Continúa leyendo «Un algoritmo inspirado en el cuerpo humano mejora la planificación robótica con modelos de lenguaje»

Los límites cognitivos de los modelos de lenguaje: ¿pueden realmente pensar?

Uno de los errores más comunes al evaluar los avances en inteligencia artificial es asumir que la capacidad de un sistema para comunicarse con fluidez implica que posee un pensamiento sofisticado. Esta confusión, comprensible pero engañosa, ha sido alimentada por el crecimiento exponencial de los modelos de lenguaje a gran escala (LLMs), que parecen comprender y razonar, cuando en realidad sólo están manipulando patrones lingüísticos.

Benjamin Riley, fundador de Cognitive Resonance, sostiene que esta ilusión de inteligencia está construida sobre una base equivocada. En un ensayo publicado en The Verge, argumenta que el pensamiento humano y el lenguaje, aunque relacionados, son procesos distintos. Las personas piensan sin necesidad del lenguaje, y existen pruebas neurológicas que lo demuestran. Continúa leyendo «Los límites cognitivos de los modelos de lenguaje: ¿pueden realmente pensar?»

DeepSeek lanza modelos de IA que desafían a GPT-5 y Gemini, y los ofrece de forma gratuita

La empresa china de inteligencia artificial DeepSeek ha sacudido el tablero global con el lanzamiento de dos nuevos modelos que, según sus creadores, igualan o superan las capacidades de GPT-5 de OpenAI y Gemini 3.0 Pro de Google. Los modelos DeepSeek-V3.2 y DeepSeek-V3.2-Speciale han sido presentados como sistemas de razonamiento de vanguardia y han logrado resultados sobresalientes en competencias internacionales de matemáticas, informática y programación.

Ambos modelos han sido liberados bajo una licencia MIT, lo que implica que cualquier desarrollador o empresa puede descargarlos, modificarlos y usarlos sin restricciones. Este movimiento pone en jaque el modelo de negocio basado en APIs pagas de las grandes tecnológicas, al ofrecer un rendimiento comparable de forma completamente gratuita. Continúa leyendo «DeepSeek lanza modelos de IA que desafían a GPT-5 y Gemini, y los ofrece de forma gratuita»