Si alguna vez has intentado usar ChatGPT como una calculadora, probablemente hayas notado que no es precisamente el mejor en matemáticas. Y no es el único; otras IA como Claude de Anthropic, Gemini y el modelo Llama de Meta también tienen dificultades para resolver problemas matemáticos básicos. Entonces, ¿cómo es posible que estos modelos puedan escribir complejas narrativas, pero se tropiecen con problemas aritméticos de nivel escolar?
Tokenización: un obstáculo para las matemáticas
Uno de los problemas que enfrentan los modelos como ChatGPT con las matemáticas tiene que ver con la tokenización. Este es el proceso en el que la IA divide la información en “trozos” más pequeños o “tokens”. Por ejemplo, la palabra «fantástico» se puede dividir en los tokens «fan», «tas» y «tico». Lo mismo ocurre con los números. Un número como «380» puede ser representado como un solo token, mientras que «381» podría ser dividido en dos tokens, «38» y «1». Este tipo de tokenización tiende a destruir las relaciones entre los dígitos y, en consecuencia, afecta la capacidad del modelo para procesar cálculos matemáticos de manera precisa.
IA y sus límites: máquinas estadísticas
Otra razón por la que los modelos de IA luchan con las matemáticas es porque son máquinas estadísticas. Estos modelos no resuelven los problemas como lo haría un humano o una calculadora; en lugar de eso, predicen lo que vendría a continuación basándose en patrones que han aprendido de una gran cantidad de ejemplos. Si les das un problema como «5,7897 x 1,2832», la IA intentará inferir el patrón. Como resultado, puede que acierte con algunos dígitos, pero es muy probable que cometa errores en otros, especialmente si la operación tiene varios pasos intermedios. De hecho, un estudio realizado por el profesor Yuntian Deng mostró que modelos como GPT-4o apenas logran el 30% de precisión en problemas de multiplicación que involucran números de más de cuatro dígitos.
Progresos en el razonamiento: ¿es posible una mejora?
A pesar de estas limitaciones, no todo está perdido para las IA y las matemáticas. En el mismo estudio, el equipo de Yuntian Deng probó un nuevo modelo llamado o1, un modelo de razonamiento de OpenAI que recientemente fue incorporado a ChatGPT. Este modelo tiene la capacidad de “pensar” paso a paso antes de ofrecer una respuesta, y ha mostrado un rendimiento significativamente mejor en problemas matemáticos, logrando acertar en problemas de multiplicación de hasta nueve dígitos el 50% de las veces.
¿Podrá ChatGPT ser tan bueno como una calculadora?
Para Deng, hay esperanza. Cree que algunos tipos de problemas matemáticos —como la multiplicación— eventualmente serán “resueltos por completo” por sistemas como ChatGPT. Este tipo de operaciones tiene algoritmos bien definidos que permiten mejoras claras, y ya estamos viendo avances en las capacidades de razonamiento de estos modelos. Sin embargo, por el momento, parece prudente seguir teniendo una calculadora a mano.
El desafío de enseñar matemáticas a la IA
El problema con las matemáticas es una buena ilustración de los límites actuales de la inteligencia artificial. Aunque ChatGPT y modelos similares están haciendo progresos significativos en muchas áreas, las matemáticas siguen siendo un desafío. La naturaleza estadística de estos modelos y los problemas inherentes a la tokenización hacen que la aritmética sea más difícil para ellos de lo que parece a primera vista.
Mientras que los humanos podemos descomponer un problema matemático y resolverlo paso a paso, la IA, por ahora, sigue intentando encontrar patrones estadísticos en lugar de “razonar” como lo haríamos nosotros. Con modelos como o1, se están haciendo esfuerzos por cambiar eso, y los resultados hasta ahora son prometedores. Pero, como diría cualquier buen matemático, “mejor no tires tu calculadora todavía”.