Por qué las startups de IA están tomando el control directo de sus datos

Publicado el

ai_data_image

Durante mucho tiempo, entrenar modelos de inteligencia artificial implicaba recolectar grandes volúmenes de datos desde internet o mediante plataformas de microtareas mal remuneradas. Pero este enfoque está cambiando rápidamente. Un número creciente de startups de IA está invirtiendo en la generación y curación manual de datos propios, entendiendo que la calidad de estos insumos es determinante para lograr modelos más precisos, fiables y competitivos.

Un ejemplo claro es Turing, una empresa centrada en modelos de visión artificial. Su estrategia pasa por recolectar vídeos directamente de personas realizando tareas cotidianas y oficios manuales. En lugar de depender de registros ya existentes, Turing contrata a personas como artistas, cocineros o electricistas para grabarse usando cámaras GoPro durante varias horas al día mientras trabajan. Esta metodología, aunque intensiva y costosa, les permite obtener datos con una riqueza y variedad que sería muy difícil de replicar con enfoques tradicionales.

Datos hechos a medida para tareas complejas

Lo que busca Turing no es simplemente que la IA aprenda a «ver», sino que entienda cómo se resuelven tareas paso a paso en escenarios reales. Es decir, que adquiera capacidades de razonamiento visual secuencial. Para ello, no basta con fotografías aisladas o grabaciones al azar: se necesita un registro continuo, coherente y desde diferentes perspectivas. De ahí que artistas como Taylor, una de las participantes en el proyecto, se graben desde distintos ángulos mientras cocinan, pintan o limpian.

El uso de este material permite a Turing crear una base de datos robusta a partir de la cual generar datos sintéticos mediante técnicas de ampliación o simulación digital. De hecho, estiman que entre un 75% y un 80% del total de sus datos son sintéticos, pero todos derivan de un núcleo inicial de grabaciones reales cuidadosamente producidas. Si ese núcleo es defectuoso, los datos generados también lo serán, y con ellos, el rendimiento del modelo.

De modelos masivos a soluciones especializadas

Otro caso interesante es Fyxer, una startup que desarrolla modelos para gestión inteligente del correo electrónico. En lugar de optar por grandes modelos generalistas, su enfoque consiste en usar varios modelos pequeños entrenados con conjuntos de datos específicos y curados con mucho cuidado. Este tipo de estrategias apunta a resolver problemas concretos con mayor precisión, apostando por la especialización más que por la escala.

En el caso de Fyxer, los datos no se generan mediante sensores o cámaras, sino a partir del trabajo de asistentes ejecutivos experimentados, quienes ayudan a definir cuándo un correo requiere respuesta y cuál es la mejor manera de hacerlo. Este tipo de conocimiento práctico, profundamente humano, es difícil de sustituir con datos públicos. Por eso, durante su fase inicial, los ingenieros de Fyxer trabajaban rodeados por un número muy superior de asistentes, cuyo rol era formar la base del sistema con sus decisiones y criterios profesionales.

Ventaja competitiva basada en los datos

Detrás de este giro hacia la producción propia de datos hay una razón muy clara: la ventaja competitiva. En un ecosistema donde muchos modelos base están disponibles como código abierto, lo que marca la diferencia ya no es la arquitectura del modelo, sino los datos con los que se entrena. Quien tiene acceso a un corpus de datos de alta calidad, bien anotado y relevante para el problema que quiere resolver, puede construir soluciones que sean difíciles de replicar por sus competidores.

Esto convierte la recolección y curación de datos en un activo estratégico. Para startups como Fyxer o Turing, invertir en esta etapa del proceso no solo mejora la eficacia de sus productos, sino que crea un «moat» (foso defensivo) que protege su modelo de negocio frente a la competencia. Es como si cada empresa cultivara su propio viñedo para producir un vino único: aunque otros tengan acceso a las mismas herramientas de vinificación, no podrán copiar el sabor característico de su cosecha.

El futuro de la IA pasa por la personalización

Este cambio de paradigma está señalando un futuro donde los modelos personalizados y los datos de calidad dominarán el desarrollo de la inteligencia artificial. La era de entrenar modelos solo con datos masivos y desestructurados parece haber tocado techo. Ahora, la tendencia es construir inteligencias más ajustadas al contexto, que comprendan mejor las necesidades humanas porque han sido alimentadas con ejemplos cuidadosamente seleccionados.

Esto no significa que los grandes modelos generalistas desaparezcan, pero sí que su protagonismo podría verse reducido frente a soluciones de nicho, alimentadas por datos valiosos y diseñadas con un enfoque artesanal. Un cambio que, en definitiva, acerca más la IA al mundo real y a las personas que pretende ayudar.