Durante años, a muchos niños se les ha enseñado a hablar con los asistentes de voz con educación: decir “por favor”, “gracias” y mantener un tono amable, casi como si Siri o Alexa fueran un invitado en casa. Esa idea de “modales digitales” parecía fácil de trasladar a los chatbots modernos. Sin embargo, un estudio reciente —todavía sin revisión por pares— sugiere algo contraintuitivo: con el modelo ChatGPT-4o de OpenAI, la precisión de las respuestas podría subir cuando el usuario se expresa con rudeza e incluso con insultos.
El trabajo, comentado por Fortune y difundido por Futurism, plantea una situación tan extraña como reveladora: si cambias el envoltorio emocional de la pregunta, el contenido de la respuesta puede moverse. Y no un poco.
Qué hicieron los investigadores y qué números reportan
Los autores diseñaron 50 preguntas base sobre temas variados y luego reescribieron cada una en cinco tonos distintos, desde “muy educado” hasta “muy grosero”. La estructura de la pregunta, el objetivo y el contenido se mantenían, pero cambiaba la manera de hablarle al modelo: desde formulaciones largas y corteses hasta frases despectivas del tipo “¿acaso sabes resolver esto?”.
Según el propio artículo, el resultado fue consistente: los mensajes “muy groseros” obtuvieron mejores aciertos que los “muy educados”. Los porcentajes citados son llamativos: alrededor de 80,8% para el tono “muy educado”, 84,8% para el “muy grosero”, y un dato todavía más sorprendente para el extremo de cortesía: las formulaciones más “perfectas” en modales se quedaron en 75,8% de acierto. En otras palabras, no solo la rudeza “ganó” en esa prueba, sino que el exceso de cortesía pareció actuar como una piedrecita en el engranaje.
Conviene subrayar el contexto: hablamos de una investigación aún preliminar. Aun así, sirve como linterna en un pasillo oscuro: ilumina una parte del comportamiento de los modelos que muchas personas intuyen cuando prueban variantes mínimas de una misma petición.
Por qué una palabra puede cambiarlo todo en un modelo de lenguaje
Un modelo como ChatGPT no “piensa” con intención humana; predice texto a partir de patrones aprendidos. El problema práctico es que esos patrones vienen de datos con muchísimos tonos: conversaciones amables, discusiones tensas, tutorías didácticas, hilos sarcásticos, soporte técnico impaciente. Si lo miras como una cocina, el modelo no tiene un único recetario: tiene millones de recetas mezcladas. El “tono” funciona como el aroma que te empuja a elegir una u otra.
Un prompt grosero podría estar activando, por pura asociación estadística, contextos donde la respuesta se vuelve más directa y menos “decorada”. Es como cuando alguien te pregunta la hora con un discurso larguísimo y tú, por cortesía, intentas responder con igual cuidado; en cambio, si te ladran “¿qué hora es?”, sueles contestar “las seis” y listo. Esa reducción de florituras puede traducirse en menos rodeos, menos explicaciones innecesarias y, en algunas tareas, menos oportunidades de equivocarse por divagar.
Esto no significa que el insulto sea “magia” para mejorar la fiabilidad. Significa que el estilo puede empujar al modelo hacia un modo de respuesta distinto, a veces más conciso, a veces más arriesgado, a veces simplemente diferente.
Lo que choca con investigaciones previas sobre prompts y cortesía
Lo interesante es que el estudio no cae en terreno virgen. Los propios artículos citados alrededor del tema cuentan otra historia. Investigadores del RIKEN Center for Advanced Intelligence Project y la Universidad de Waseda (Tokio), en un trabajo de 2024, hallaron que los prompts groseros suelen empeorar el rendimiento. También observaron un efecto de “demasiado de algo”: un exceso de cortesía podía dejar de ayudar, como si la atención del modelo se desviara hacia la etiqueta en lugar del problema.
Por otro lado, científicos de Google DeepMind reportaron mejoras al usar mensajes de apoyo cuando el modelo resolvía problemas de matemáticas de primaria. Ese enfoque encaja con una intuición: si el modelo “ve” un contexto tipo tutoría (ánimo, paciencia, pasos), puede generar una solución más metódica.
Entonces, ¿quién tiene razón? Es posible que todos, dependiendo de la tarea, del conjunto de preguntas, del modelo exacto y de cómo se mida el éxito. Cambia el examen y cambian los trucos que funcionan. Lo que para unas preguntas es claridad, para otras es ruido.
El verdadero aviso: imprevisibilidad en las interfaces conversacionales
Más allá de la anécdota de “ser borde funciona”, el hallazgo apunta a un problema más serio: la predictibilidad. Si pequeñas variaciones de redacción pueden producir saltos apreciables de calidad, la experiencia del usuario se vuelve frágil. Hoy preguntas “¿puedes ayudarme con esto?” y obtienes una respuesta sólida; mañana preguntas lo mismo con una frase más ceremoniosa y la respuesta se vuelve menos exacta. Y esa volatilidad no es un detalle menor si el sistema se usa para estudio, trabajo o decisiones sensibles.
Aquí entra una observación relevante atribuida a uno de los coautores, el profesor Akhil Kumar: las interfaces conversacionales son cómodas porque se sienten humanas, pero esa misma “humanidad” introduce ambigüedad. Un chat permite matices, ironías, indirectas. Una API estructurada, en cambio, se parece más a un formulario bien diseñado: menos natural, pero más controlable. Es como pedir en un restaurante: si dices “lo que usted quiera, chef”, puede salir algo excelente o algo que no era lo que imaginabas; si pides “pasta sin gluten, sin queso, con tomate”, reduces el azar.
¿Deberíamos dejar de decir “por favor” y “gracias” a la IA?
En medio de este debate suele aparecer un argumento curioso: Sam Altman, CEO de OpenAI, ha comentado que las cortesías innecesarias podrían traducirse en gasto computacional adicional. La frase es jugosa para titulares, aunque en la vida real el costo de un “gracias” es el menor de los dilemas si lo que buscamos es una IA más útil y segura.
Los propios autores del estudio, según se relata, no recomiendan fomentar interacciones hostiles. Y ese punto es crucial. Normalizar insultos en el trato con máquinas puede parecer inocuo, pero la costumbre se pega. Las tecnologías no viven en el vacío: están en aulas, oficinas, hogares, entornos con personas jóvenes, con usuarios vulnerables, con equipos que intentan mantener normas de convivencia. Una interfaz que “premia” el maltrato crea un incentivo cultural feo, aunque la víctima sea una entidad no consciente.
También hay un ángulo de ética y accesibilidad: si el sistema rinde mejor cuando el usuario adopta un tono agresivo, quienes no se sienten cómodos con ese registro quedan en desventaja. La calidad de respuesta no debería depender de jugar a ser desagradable.
Una lectura práctica para quien usa ChatGPT a diario
Si lo que te importa es mejorar resultados, el aprendizaje útil no es “insulta y listo”, sino “controla el tono para controlar el modo”. Muchos usuarios buscan respuestas más exactas cuando el modelo deja de ser conversador y se vuelve “técnico”: menos relleno, más pasos verificables, más comprobaciones. Eso se puede pedir con educación.
Funciona mejor imaginar que estás dando instrucciones a un colega con prisa, sin ser hiriente: “Responde solo con el resultado”, “si no estás seguro, dilo”, “muestra el razonamiento paso a paso”, “cita supuestos”, “verifica con un ejemplo”. Es la diferencia entre hablarle como a un amigo en una cafetería o como a una calculadora con explicaciones. La meta es reducir ambigüedad, no subir la temperatura emocional.
Si este estudio termina confirmándose con más pruebas y otros modelos, el reto para los desarrolladores será claro: hacer que la fiabilidad dependa menos de trucos lingüísticos y más de mecanismos robustos. Para los usuarios, la moraleja es menos entretenida, pero más realista: el modelo responde al contexto que percibe, y el contexto puede cambiar con una sola frase.
