Cuando un “:-P” se cuela en el código: el riesgo de los fallos silenciosos en los LLM

Si alguna vez has pedido ayuda de programación por chat, es probable que hayas escrito como lo harías con una persona: con un tono informal, algún “gracias :)” o una carita para suavizar una petición. El problema es que, para un modelo de lenguaje (un LLM), esa carita no siempre es “solo” una carita. Un estudio reciente describe una vulnerabilidad a la que llama confusión semántica de emoticonos: ciertos emoticonos ASCII pueden interpretarse como parte de la instrucción y desviar la respuesta hacia acciones no deseadas, incluso potencialmente destructivas.

La idea resulta inquietante por lo cotidiana. Es como dejar una nota en la nevera que dice “Compra pan” y dibujar al lado un guiño “;)”. Para ti es un gesto simpático; para alguien que lee con reglas raras, ese guiño podría parecerle un símbolo de “hazlo de otra manera” o “cambia el plan”. En programación, esa “otra manera” puede acabar en un script que toca rutas equivocadas, borra un directorio que no debía o altera permisos sin que te des cuenta a primera vista. Continúa leyendo «Cuando un “:-P” se cuela en el código: el riesgo de los fallos silenciosos en los LLM»

Repetir el prompt: una forma sorprendentemente simple de mejorar la precisión de los LLM en tareas directas

Durante estos años, optimizar respuestas de un modelo de lenguaje se ha convertido en una especie de cocina experimental: cambias el tono, ajustas instrucciones, añades ejemplos, vuelves a probar. En ese contexto, resulta casi cómico que una técnica tan literal como duplicar la petición —es decir, escribir el mismo texto dos veces seguidas— pueda mejorar el rendimiento en tareas donde no hace falta un razonamiento largo.

La idea es muy simple: el input que normalmente sería <PETICIÓN> pasa a ser <PETICIÓN><PETICIÓN>. No es una reformulación elegante ni un “prompt engineering” sofisticado. Es repetir, tal cual. Y, según los experimentos descritos por investigadores de Google Research, esta repetición puede aumentar de manera notable la precisión en tareas “no razonadoras”, que son justo las que más abundan en producto: extracción de datos, clasificación, respuestas cortas, cumplimiento de instrucciones concretas, recuperación fiel de un detalle dentro de un texto. Continúa leyendo «Repetir el prompt: una forma sorprendentemente simple de mejorar la precisión de los LLM en tareas directas»

Google mejora su modelo de IA con Gemini 2.5 Pro: más coherencia, mejor código y respuesta estable

Google acaba de presentar una nueva versión de su modelo de inteligencia artificial Gemini 2.5 Pro, que promete ser más estable, creativa y efectiva que sus predecesoras. Esta actualización no solo corrige errores de versiones anteriores, sino que también incluye mejoras sustanciales en tareas de programación y en la calidad de las respuestas que entrega. A continuación te explicamos qué ha cambiado, qué significa eso para los usuarios y por qué este lanzamiento marca un nuevo paso firme para Google en el competitivo mundo de los modelos de lenguaje. Continúa leyendo «Google mejora su modelo de IA con Gemini 2.5 Pro: más coherencia, mejor código y respuesta estable»

Alibaba lleva los Agentes LLM a otro nivel con Qwen Agent

Alibaba Cloud ha dado un gran paso en el desarrollo de aplicaciones basadas en modelos de lenguaje con el lanzamiento de Qwen Agent, un marco diseñado para potenciar el desarrollo de aplicaciones que aprovechan las capacidades avanzadas de modelos de lenguaje grande (LLM). Este lanzamiento llega tras el éxito de Qwen 2.5, una serie que ha captado la atención de los desarrolladores por su capacidad de manejo autónomo de tareas y su flexibilidad en hardware de rango medio.

Continúa leyendo «Alibaba lleva los Agentes LLM a otro nivel con Qwen Agent»

Vertex AI Prompt Optimizer: cómo optimizar tus prompts en Google Cloud

En el mundo del desarrollo de aplicaciones basadas en modelos de lenguaje (LLM), diseñar un buen prompt es esencial para obtener resultados precisos y coherentes. Pero, ¿alguna vez has sentido que encontrar el prompt perfecto es un proceso agotador y tedioso? Google ha lanzado Vertex AI Prompt Optimizer en su fase de vista previa pública para facilitar el proceso de creación de prompts y asegurarse de que siempre obtienes el mejor rendimiento de tus aplicaciones de inteligencia artificial.

Continúa leyendo «Vertex AI Prompt Optimizer: cómo optimizar tus prompts en Google Cloud»

Groq revoluciona con su nuevo motor de LLM

La empresa Groq ha presentado un motor de modelos de lenguaje grande (LLM) que permite realizar consultas y otras tareas de manera extremadamente rápida directamente en su sitio web. Esta tecnología ha sido un avance significativo, demostrando velocidades que las GPU de empresas como Nvidia no pueden igualar. Groq ha incrementado la velocidad de respuesta de 800 a 1256.54 tokens por segundo en solo unos meses.

Continúa leyendo «Groq revoluciona con su nuevo motor de LLM»

Qué es DSPy y para qué sirve

DSPy (Declarative Self-improving Language Programs in Python) es un marco de trabajo desarrollado por investigadores de Stanford NLP que introduce un enfoque innovador para el desarrollo de aplicaciones que utilizan modelos de lenguaje grande (LLM, por sus siglas en inglés). Este enfoque se centra en la programación más que en la creación manual de prompts, lo que permite una optimización más específica y efectiva de las pipelines de desarrollo.

Continúa leyendo «Qué es DSPy y para qué sirve»

Una página que muestra por qué ChatGPT funciona como funciona

Varias veces os he explicado cómo funciona ChatGPT, os he comentado el sistema de estadísticas de los modelos de IA generativa y el cómo vomita palabras con sentido en función de las frases con las que ha sido entrenado.

El caso es que hay una página que muestra de forma gráfica todo esto.

Continúa leyendo «Una página que muestra por qué ChatGPT funciona como funciona»

Opinión sobre la promesa de un ChatGPT español hecha por Pedro Sánchez

En el pistoletazo de salida del MWC 2024, Pedro Sánchez anunció que se desarrollará un sistema «a lo ChatGPT» en España, entrenado con textos en español y lenguas cooficiales para que pueda tener un mejor rendimiento que los entrenados en inglés y que solo traducen el resultado.

No ha dado números relacionados con la inversión que se deberá hacer, ni ha dado detalles sobre para qué servirá este LLM que van a desarrollar. Solo ha comentado que quiere que España sea un centro importante de IA en el mundo, que la IA cambiará mucho el día a día de los españoles y que no quieren estar sentados mientras todo ocurre a nuestro alrededor.

Continúa leyendo «Opinión sobre la promesa de un ChatGPT español hecha por Pedro Sánchez»

MIT presenta un sistema innovador para conversaciones infinitas con IA

Acabo de conocer los detalles de una reciente investigación que promete revolucionar la manera en que interactuamos con los chatbots, esos asistentes virtuales que han pasado a formar parte de nuestro día a día, ayudándonos desde la redacción de textos hasta la generación de código.

El estudio, liderado por un equipo de la MIT junto a colaboradores de instituciones tan prestigiosas como NVIDIA y Meta AI, se centra en un problema bastante curioso pero significativo: la tendencia de los modelos de lenguaje grande, como ChatGPT, a degradarse o incluso colapsar tras largos períodos de conversación continua. Esta situación, que podría compararse a un atleta de maratón que se desvanece en la recta final, no solo es frustrante para los usuarios sino que limita seriamente la aplicabilidad de estas tecnologías.

Continúa leyendo «MIT presenta un sistema innovador para conversaciones infinitas con IA»