Repetir el prompt: una forma sorprendentemente simple de mejorar la precisión de los LLM en tareas directas

Publicado el

crear prompts

Durante estos años, optimizar respuestas de un modelo de lenguaje se ha convertido en una especie de cocina experimental: cambias el tono, ajustas instrucciones, añades ejemplos, vuelves a probar. En ese contexto, resulta casi cómico que una técnica tan literal como duplicar la petición —es decir, escribir el mismo texto dos veces seguidas— pueda mejorar el rendimiento en tareas donde no hace falta un razonamiento largo.

La idea es muy simple: el input que normalmente sería <PETICIÓN> pasa a ser <PETICIÓN><PETICIÓN>. No es una reformulación elegante ni un “prompt engineering” sofisticado. Es repetir, tal cual. Y, según los experimentos descritos por investigadores de Google Research, esta repetición puede aumentar de manera notable la precisión en tareas “no razonadoras”, que son justo las que más abundan en producto: extracción de datos, clasificación, respuestas cortas, cumplimiento de instrucciones concretas, recuperación fiel de un detalle dentro de un texto.

El “punto ciego” de la atención causal explicado sin tecnicismos innecesarios

Para que la técnica tenga sentido, conviene entender una limitación típica de muchos LLM basados en arquitectura Transformer entrenados como modelos “causales”. “Causal” aquí no significa “causa-efecto” en plan filosófico; significa que el modelo procesa el texto de izquierda a derecha. Cuando va leyendo, puede prestar atención a lo que ya vio, pero no puede apoyarse en lo que todavía no ha procesado.

Esto crea una situación muy humana: imagina que te dictan una instrucción larguísima y, al final, te dicen el detalle crucial. Si lo importante llega tarde, tu primera interpretación puede estar sesgada. Con los modelos pasa algo parecido: el orden en que colocas contexto e instrucción cambia lo que el sistema “tiene en mente” cuando empieza a decidir su salida.

Aquí entra la repetición como una segunda lectura obligatoria. La primera copia de la petición funciona como “preparación”. Cuando el modelo está procesando la segunda copia, ya ha “visto” toda la primera, y eso le permite anclar mejor los detalles, resolver ambigüedades y no perder piezas pequeñas por el camino. Es como leer dos veces un mensaje de WhatsApp con varias condiciones: en la primera pasada entiendes la idea general; en la segunda, detectas el matiz que evita el error.

Por qué mejora sobre todo en tareas de recuperación fiel

En tareas de recuperación, el fallo típico no es “no sabe”, sino “se distrajo”. Cuando el prompt incluye listas de elementos, instrucciones con varias condiciones o una pregunta que exige localizar un dato exacto, el modelo puede contestar con algo plausible pero incorrecto, como quien recuerda “más o menos” un número de teléfono.

La repetición reduce precisamente ese tipo de error. En el trabajo descrito, se menciona un benchmark diseñado para poner a prueba esta fragilidad: se entrega una lista larga de nombres y se pregunta por uno en una posición concreta (por ejemplo, el número 25). En una sola lectura, el modelo puede perder la cuenta o saltarse un fragmento. Con la petición repetida, ese mismo modelo se comporta como si tuviera una libreta al lado: la información ya está “asentada” cuando llega el momento de responder.

Esta metáfora ayuda: si le pides a alguien que encuentre “el nombre 25” en un texto, lo normal es que primero recorra la lista, y luego vuelva a recorrerla contando con más seguridad. La repetición automatiza ese doble recorrido.

La parte que suena a truco: el impacto en latencia suele ser pequeño

Duplicar el texto de entrada parecería sinónimo de más coste y más espera. En la práctica, el efecto puede ser menor de lo que imaginas, por cómo funciona la inferencia en muchos sistemas.

A grandes rasgos, hay una fase en la que el modelo “procesa” el prompt de golpe y prepara estructuras internas, y otra fase en la que genera la respuesta token a token. La segunda suele ser la que se siente lenta, porque es secuencial. La primera suele aprovechar bien el paralelismo de GPU. Si duplicas el prompt, aumentas el trabajo de la fase paralelizable. Si la respuesta sigue siendo corta, el usuario puede notar poco cambio.

Este detalle es clave para producto: la técnica busca mejorar precisión sin convertir cada consulta en una pausa larga. Eso sí, no conviene interpretarlo como una promesa universal. Cuando los prompts son muy largos o el sistema está cerca de límites de contexto y rendimiento, la fase inicial también puede pesar, y ahí sí podría sentirse una penalización.

Cuándo no merece la pena: Chain-of-Thought y tareas de razonamiento

Hay un matiz importante: la repetición funciona mejor cuando no estás pidiendo un razonamiento paso a paso. Si activas un estilo de respuesta tipo Chain-of-Thought (o su equivalente: “explica tu razonamiento”), parte del beneficio desaparece.

Tiene lógica. Cuando un modelo razona en voz alta, muchas veces reescribe el problema o lo resume antes de resolverlo. Esa reescritura cumple una función parecida a la segunda lectura: vuelve a poner el enunciado en primer plano. Si el propio proceso de generación ya incluye esa “revisita”, repetir el prompt puede volverse redundante y aportar poco.

Dicho de forma cotidiana: si ya le pides a alguien que repita el encargo con sus palabras antes de ejecutarlo, repetirle el encargo dos veces no cambia gran cosa.

Consecuencias prácticas para equipos: exprimir modelos ligeros sin cambiar de proveedor

Para un equipo que está ajustando costes, esto es especialmente atractivo. Muchas organizaciones usan modelos ligeros para tareas rutinarias porque son más baratos y rápidos. El problema aparece cuando, por pequeños despistes, la precisión se queda corta y el equipo se plantea saltar a un modelo más caro.

La repetición ofrece un camino intermedio: antes de “subir de categoría”, se puede probar si duplicar el prompt reduce los errores de recuperación y seguimiento de instrucciones. Es una de esas optimizaciones que encajan bien en una capa de orquestación: no depende del usuario final, puede aplicarse de forma automática cuando el sistema detecta una tarea de respuesta directa, y se desactiva cuando el caso exige razonamiento complejo.

La clave está en no aplicarlo a ciegas. Lo sensato es tratarlo como una herramienta más: útil para extracción, clasificación, respuesta corta y fidelidad a un texto; menos relevante para problemas donde el rendimiento depende de planificación, cálculo multi-paso o deducción.

Seguridad: repetir también refuerza intenciones, para bien y para mal

Si repetir hace que el modelo entienda mejor una intención, eso incluye intenciones maliciosas. Para equipos de seguridad y pruebas de resistencia, tiene sentido evaluar escenarios donde un intento de inyección de prompt aparezca duplicado. A veces, la diferencia entre un jailbreak fallido y uno exitoso no es la “idea”, sino la claridad con la que el modelo la incorpora a su atención.

El giro interesante es defensivo: repetir directrices internas o políticas de seguridad en el contexto del sistema podría actuar como recordatorio reforzado, reduciendo fallos por “despiste” del modelo. No sustituye una estrategia completa de seguridad, pero puede ser un refuerzo barato para mejorar el cumplimiento en casos grises.

Fuentes y contexto

Los resultados y explicaciones que sustentan esta técnica se han difundido a partir de un artículo de VentureBeat publicado el 13 de enero de 2026 y del paper de Google Research titulado “Prompt Repetition Improves Non-Reasoning LLMs”, atribuido a Yaniv Leviathan, Matan Kalman y Yossi Matias. También se mencionan pruebas sobre modelos comerciales y abiertos ampliamente conocidos, como Gemini, GPT-4o, Claude y DeepSeek, dentro del marco experimental descrito en ese trabajo.