La IA se está quedando sin “combustible”: por qué faltan datos y cómo China quiere adelantarse

Durante años, entrenar modelos de inteligencia artificial se parecía a llenar un depósito en una gasolinera infinita: bastaba con extraer más y más contenido de la web. Esa idea empieza a resquebrajarse. Investigadores de Epoch AI han advertido que el texto de alta calidad disponible públicamente podría agotarse en algún punto entre 2026 y 2032, con un grado alto de probabilidad según sus estimaciones.

Lo importante aquí no es solo la fecha exacta, sino el fenómeno. Los grandes laboratorios llevan tiempo “raspando” internet, comprando colecciones de datos y refinando filtros para separar ruido de material útil. El resultado es que los conjuntos de datos de entrenamiento actuales ya se acercan a un límite práctico: cada nueva tanda aporta menos valor que la anterior, como exprimir una bolsa de té por cuarta vez. Puede salir líquido, sí, pero ya no sabe igual.

Por qué la escasez preocupa justo ahora

La sensación de escasez no significa que falten palabras en internet. Significa que falta material fiable, variado y legalmente reutilizable que sirva para enseñar a un sistema a razonar, programar, resumir con precisión, evitar alucinaciones y moverse con soltura por temas especializados.

Hay un detalle que suele pasar desapercibido: cuando un modelo aprende con datos mediocres, no solo aprende “cosas falsas”, también aprende hábitos malos. Es como estudiar para un examen con apuntes desordenados y fotocopias borrosas: al final memorizas errores, mezclas conceptos y te cuesta distinguir lo importante de lo accesorio. En IA, esa degradación se nota en respuestas menos consistentes, peor capacidad de generalización y más riesgo de replicar sesgos.

China mueve ficha: un ecosistema de datos validados para 2028

En este contexto, China plantea una estrategia distinta: crear una infraestructura nacional para producir, certificar y organizar datos de alta calidad. Según un borrador publicado por la Administración Nacional de Datos de China, el objetivo es tener antes de 2028 un ecosistema de datos validados que alimente la siguiente generación de modelos. La propuesta menciona sectores clásicos como investigación científica, manufactura, agricultura, energía, transporte, finanzas, sanidad, educación y comercio electrónico.

La palabra clave es “validados”. No se trata solo de acumular información, sino de establecer mecanismos para verificarla, clasificarla y hacerla utilizable a escala. Si internet era una biblioteca gigantesca con estanterías caóticas, lo que se busca es un archivo con catálogo, sello y trazabilidad.

Este enfoque también tiene un componente político-industrial. Una base de datos certificada, construida con participación institucional, permite orientar el desarrollo tecnológico hacia prioridades del país, facilitar el acceso a empresas locales y reducir dependencia de fuentes externas.

El dato que no está en la web: sensores, fábricas y mundo físico

Hay otro giro significativo: el plan no se limita a texto y páginas web. Incluye áreas de vanguardia donde los datos no nacen en internet, sino en el mundo físico: robótica, conducción autónoma, aviación de baja altitud y biomanufactura, entre otras.

Aquí China parte con una ventaja estructural difícil de copiar: capacidad industrial, despliegue de sensores, cadenas de fabricación masivas y ecosistemas donde robots, cámaras, maquinaria y logística generan flujos de información continuos. Para entrenar un sistema que controle un brazo robótico o que conduzca con seguridad, no basta con leer textos; hace falta ver miles de situaciones reales, registrar errores, medir fuerzas, tiempos, fricción, ruido. Es un aprendizaje parecido al de un conductor novel: puedes estudiar el manual, pero aprendes de verdad con horas de carretera, lluvia, rotondas y peatones impredecibles.

Este tipo de datos es caro y requiere infraestructura. Por eso, en la carrera por la IA aplicada a robots o a vehículos, el país con más “gimnasios” para entrenar (fábricas, ciudades instrumentadas, flotas de prueba) puede progresar más rápido.

Modelos multimodales y agentes: el apetito crece

La propuesta china también habla de expandir la oferta de texto, código, imágenes, audio y vídeo para entrenar sistemas con razonamiento complejo, comportamiento “agéntico” y control de robots inteligentes. En la práctica, esto apunta a modelos multimodales capaces de comprender y actuar, no solo de responder.

Para entenderlo con una metáfora cotidiana: un asistente que solo lee es como alguien que te aconseja recetas sin haber cocinado nunca. Un asistente multimodal “ve” la cocina, “oye” el chisporroteo, “entiende” que falta sal y “actúa” ajustando el fuego. Ese salto exige datos que conecten percepción y acción: vídeos etiquetados con decisiones, audio asociado a eventos, telemetría de sensores sincronizada con resultados.

Si la industria quiere IA que planifique, ejecute tareas y verifique su propio trabajo, el entrenamiento necesita ejemplos completos de proceso, no solo de resultado. No basta con mostrar la respuesta correcta: hay que enseñar el camino, el contexto y las comprobaciones.

Datos frente a chips: la geopolítica del combustible digital

El debate sobre IA suele centrarse en la potencia de cálculo: chips, centros de datos, GPUs y consumo energético. Pero cuando la obtención de hardware avanzado se complica por restricciones comerciales y controles de exportación, los datos se convierten en un factor estratégico todavía más visible.

Visto así, hay dos “cuellos de botella” que se alternan. Si tienes chips pero no datos de calidad, entrenas rápido… sistemas mediocres. Si tienes datos pero no chips, tardas más… pero puedes construir capacidades diferenciadoras, sobre todo en áreas donde el dato es único y difícil de replicar. La apuesta china parece intentar ganar por la vía del combustible: crear una reserva de datos industriales y certificados que otros no puedan obtener con facilidad.

Qué opciones tiene el resto del mundo

Si el texto público se vuelve insuficiente, las alternativas pasan por rutas que ya se están explorando en distintos grados. Una es producir más datos “propios”: acuerdos con editoriales, plataformas y empresas para licenciar contenido de calidad. Otra es exprimir mejor lo existente con técnicas de curación de datos, eliminación de duplicados y selección más fina, para que cada token cuente. También está el uso de datos sintéticos, generados por modelos, que puede ayudar en tareas específicas pero que requiere mucho control para no crear una cámara de eco de errores.

En paralelo, cobra importancia el acceso a datos procedentes de dominios cerrados: historiales clínicos anonimizados, datos industriales, registros de mantenimiento, telemetría de flotas, experimentos científicos. Son tesoros para entrenar sistemas especializados, aunque vienen acompañados de desafíos enormes en privacidad, propiedad, seguridad y gobernanza.

Lo que significa para empresas y usuarios

Para empresas, el mensaje es claro: el valor ya no está solo en “tener IA”, sino en tener datos propios de calidad y capacidad para gestionarlos. Quien disponga de procesos limpios de recopilación, etiquetado y validación tendrá una ventaja comparable a tener mejores máquinas. En sectores como salud, industria, logística o finanzas, la ventaja competitiva puede nacer de pequeños detalles: registros consistentes, sensores bien calibrados, protocolos de anotación, auditorías y controles de sesgo.

Para usuarios, la escasez de datos no implica que la IA vaya a “pararse”, pero sí puede cambiar el ritmo y el foco. En vez de mejoras espectaculares solo por escalar tamaño, veremos más énfasis en calidad, especialización y acceso privilegiado a fuentes. También es razonable esperar más debate público sobre qué datos se usan, quién los controla y cómo se reparten beneficios.

La carrera de la IA generativa entra en una fase menos visible y más determinante: la de la materia prima. Y como ocurre con la energía o el agua, cuando un recurso se vuelve estratégico, el juego deja de ser únicamente tecnológico y pasa a ser industrial, legal y geopolítico.