Nvidia quiere el centro de datos de IA completo: del chip al rack y del token a la caja

En la conferencia GTC de Nvidia en San José, la imagen que la compañía empujó hacia los medios no fue una GPU brillante ni un robot simpático, sino una especie de “muro” de rectángulos: filas y filas de racks de centro de datos sin etiquetas, alineados como un estante interminable de libros o como una formación militar. La metáfora funciona porque el mensaje es igual de contundente: Nvidia quiere que el centro de datos de IA se parezca cada vez más a un sistema integral diseñado por un único proveedor, de principio a fin.

Esa idea no es nueva en tecnología: Apple lleva años defendiendo la integración vertical en el móvil. Lo llamativo es verla aplicada a la fábrica moderna de tokens, donde cada milisegundo cuenta y cada vatio se factura. En su keynote, Jensen Huang dibujó un futuro en el que comprar piezas sueltas deja de ser “lo normal” y pasa a ser “lo ineficiente”. Y su argumento central, recogido por ZDNET, es que la economía de la IA mejora cuando todo encaja como un engranaje hecho en casa: chips, red, almacenamiento especializado y software.

LPX: un rack diseñado para la inferencia ultrarrápida

La novedad más llamativa es el LPX, un rack orientado específicamente a inferencia de IA con latencias muy bajas. Nvidia lo coloca como una pieza nueva en su catálogo de plataformas junto a sus líneas de CPU y GPU, y lo presenta como una respuesta a una realidad incómoda: entrenar modelos es caro, pero servir respuestas a escala puede ser todavía más determinante para el negocio.

Según explicó Ian Buck, responsable de hiperescaladores y HPC en Nvidia, la clave del LPX es combinar GPUs Rubin con una nueva clase de chip centrado en el procesamiento de lenguaje: una LPU (Language Processing Unit) llamada Groq 3 LPU. Nvidia sostiene que esta LPU hereda ideas de propiedad intelectual licenciada tras un acuerdo con la startup Groq, y que se ha adaptado para encajar en su enfoque de sistemas. La promesa es una especie de “mejor de dos mundos”: la fuerza bruta de cómputo de una GPU y la agilidad de memoria y movimiento de datos de una LPU, todo dentro de un rack pensado para responder rápido, como si fuera la barra de una cafetería que ya tiene tu pedido medio preparado antes de que lo pidas.

La SRAM y el KV cache explicado como si fuera tu cocina

Para entender por qué Nvidia insiste tanto en la LPU, conviene imaginar una cocina. Una GPU, por potente que sea, pierde tiempo si cada ingrediente está en un armario al otro lado del pasillo. En los modelos grandes, esos “ingredientes” son los pesos del modelo y, durante la inferencia, una parte crítica llamada KV cache (la memoria de claves y valores que guarda resultados intermedios y acelera los siguientes pasos). Si esa información vive lejos, el sistema va y viene constantemente, y esa caminata se paga en latencia.

La LPU, tal como la describe Nvidia, trae una despensa enorme pegada a los fogones: alrededor de 500 MB de SRAM en chip, una memoria ultrarrápida mucho más grande de lo habitual para este tipo de componentes. Con esa SRAM, el chip puede tener más “a mano” pesos y KV cache, reduciendo la dependencia de la DRAM externa. Traducido al día a día, es como cocinar con los ingredientes sobre la encimera en vez de bajar al trastero cada dos minutos. Buck llegó a sugerir que ciertos procesos que antes se alargaban durante jornadas podrían comprimirse a menos de una hora gracias a este enfoque, poniendo el foco en el impacto práctico, no solo en el titular técnico.

La economía de los tokens: energía, velocidad y facturación

Donde Nvidia intenta rematar el argumento es en la hoja de cálculo. No basta con “ir más rápido”; hay que hacerlo gastando menos o ingresando más. Aquí entra TechInsights, que según el relato recogido por ZDNET comparó el coste energético del acceso a memoria en silicio de Groq frente a un enfoque típico con GPU y DRAM: la “energía por bit” para acceder a memoria sería muy inferior, con una diferencia de orden de magnitud frente a accesos a DRAM. Ese dato importa porque el tráfico de memoria se ha convertido en el cuello de botella silencioso de la inferencia: cuando el modelo crece, mover datos cuesta casi tanto como calcular.

Nvidia puso números de negocio sobre la mesa. En el ejemplo que compartió Buck, con un precio de referencia de 45 dólares por millón de tokens y una carga de 500.000 tokens por segundo, la configuración con LPUs en el LPX podría entregar decenas de veces más tokens por segundo por megavatio que un planteamiento equivalente basado solo en GPU. Y, como consecuencia, la compañía afirma que un proveedor de IA podría multiplicar por diez los dólares de ingresos generados por segundo y por megavatio. Es el tipo de afirmación que busca hablarle directamente al CFO: no se trata únicamente de rendimiento, se trata de cuántos euros salen por cada enchufe del rack.

Este discurso llega en un momento en el que el coste de la memoria no ayuda. Cuando la DRAM sube de precio y, al mismo tiempo, el apetito de contexto de los modelos aumenta, reducir viajes a memoria externa se vuelve un ahorro doble: menos latencia y menos presión sobre un componente caro.

“Mejor si lo compras todo aquí”: el argumento del sistema completo

Con el LPX, Nvidia no solo presenta un producto; presenta una forma de comprar. Su tesis es que el centro de datos de IA se parece cada vez más a una “tarta de capas” en la que cada nivel influye en el siguiente: energía, chips, infraestructura, modelos y aplicaciones. Si cada capa viene de un proveedor distinto, la coordinación se vuelve un rompecabezas. Si todo viene de uno, el vendedor puede prometer que encaja perfecto.

La parte delicada es lo que no se dice en voz alta: esta integración también es una estrategia de dependencia de proveedor. Para un cliente, el sueño es una instalación más simple y predecible. La pesadilla potencial es quedar atado a una sola hoja de ruta, a un solo ecosistema de software y a unas condiciones comerciales que cambian con el tiempo. Nvidia lo presenta como eficiencia; los compradores lo evaluarán como equilibrio entre optimización y libertad.

Las otras piezas: CPU, almacenamiento de KV cache y red como autopistas

El mensaje “extremo a extremo” se apoya en cuatro racks adicionales que Nvidia mostró como parte de su propuesta integral. En la misma narrativa aparecieron configuraciones basadas en Vera y Rubin, un rack centrado solo en CPU con una cifra llamativa de memoria (256 CPUs Vera y 400 TB de DRAM, según lo descrito), una propuesta de almacenamiento especializada con BlueField 4 STX para servir como capa compartida de KV cache, y una actualización de red Ethernet con Spectrum-6 SPX.

Aquí hay un punto interesante: Nvidia intenta convertir el KV cache en una “primera clase ciudadana” del centro de datos. No sería solo algo que vive dentro de cada GPU, sino un recurso compartido de alta velocidad, como si en lugar de que cada cocina tenga su mini nevera, el edificio tuviera una cámara frigorífica ultrarrápida a la que todas acceden sin atasco. Buck describió el STX como una arquitectura de referencia que construirían socios, un matiz que sugiere pragmatismo: Nvidia quiere definir el plano, pero no necesariamente fabricar cada tornillo.

La pieza de CPU también busca atacar un talón de Aquiles de los despliegues actuales. Buck remarcó que tareas típicas de IA agéntica —llamadas a herramientas, consultas SQL, compilación, ejecución en sandbox— siguen recayendo en CPU, y que esas CPU tienen que ser rápidas para no frenar a la GPU. Nvidia sostiene que sus CPUs Vera pueden superar en torno a 1,5 veces el rendimiento monohilo de CPUs x86 existentes en ciertas tareas, y atribuye a la combinación de racks mejoras fuertes en rendimiento por vatio y en manejo de contexto en flujos de trabajo que describen como “fábricas de IA”.

Ambición que se estira hacia robots y hasta el espacio

El despliegue de racks no fue la única señal de ambición. En la misma keynote, Huang amplió el foco hacia robótica y lo que Nvidia llama IA física, y también deslizó ideas sobre IA en el espacio, aunque con detalles todavía difusos, según la cobertura citada por ZDNET. La lectura es clara: si Nvidia consigue ser el “sistema operativo” del centro de datos de IA, el siguiente paso natural es colonizar los bordes donde esa IA se materializa, desde robots industriales hasta infraestructuras remotas.

Qué cambia para el mercado: competencia, presión y decisiones de compra

Este movimiento también es una jugada defensiva. Si Nvidia ofrece un catálogo que cubre CPU, GPU, red, almacenamiento especializado y software, reduce el espacio para combinaciones híbridas con alternativas de AMD, con CPUs x86 de Intel y AMD, o con propuestas “exóticas” de startups de aceleradores. La promesa de “todo optimizado junto” es tentadora cuando los modelos crecen y la complejidad se dispara.

Hay un giro histórico interesante: Huang lleva décadas intentando romper los feudos del cómputo tradicional. En el pasado, Nvidia tanteó el terreno de las CPUs de servidor y se topó con la inercia de los grandes incumbentes. Hoy el tablero es distinto: la IA ha cambiado las prioridades del centro de datos y ha abierto una ventana en la que el diseño de sistemas, no solo el chip, puede ser el producto principal. El comprador, por su parte, tendrá que decidir si prefiere un proveedor que le entregue un “electrodoméstico” listo para enchufar o una cocina modular donde cada pieza se elige con más libertad, aunque cueste más coordinarlo.