Los chips que mueven la IA de Google: TPU 8t para entrenar y TPU 8i para razonar a escala

Publicado el

Los chips que mueven la IA de Google: TPU 8t para entrenar y TPU 8i para razonar a escala

Una década después de que Google anunciara su primera unidad de procesamiento de tensor (TPU) en el escenario del I/O, la octava generación de estos chips llega con una novedad de fondo: por primera vez, Google diseña dos chips con arquitecturas especializadas para dos tareas distintas. TPU 8t está optimizado para entrenamiento masivo de modelos. TPU 8i está diseñado para inferencia de alta velocidad y latencia mínima. La división no es un capricho de ingeniería: responde a una realidad operativa concreta. Entrenar un modelo de frontera y desplegarlo para millones de consultas simultáneas tienen requisitos de hardware radicalmente diferentes, y un chip comodín deja dinero sobre la mesa en ambas tareas. Lo anuncia Amin Vahdat, SVP e Chief Technologist de AI e Infraestructura de Google, en el blog oficial. Ambos chips estarán disponibles en general antes de finales de año como parte del AI Hypercomputer de Google Cloud.

TPU 8t: acortar el ciclo de entrenamiento de meses a semanas

El objetivo declarado de TPU 8t es reducir el tiempo de desarrollo de modelos de frontera de meses a semanas. Los números que Google publica son los siguientes:

  • 9.600 chips por superpod, con dos petabytes de memoria compartida de alta anchura de banda
  • 121 ExaFlops de cómputo por pod
  • 3x el rendimiento de cómputo respecto a la generación anterior
  • Doble anchura de banda interchip respecto a la generación anterior
  • 97% de «goodput» (tiempo de cómputo productivo real): el sistema detecta y rodea fallos de hardware en tiempo real sin interrumpir el entrenamiento
  • Almacenamiento 10x más rápido y acceso directo a TPU sin pasar por CPU

La clave de escalabilidad está en la red Virgo, combinada con JAX y Pathways: TPU 8t puede escalar a hasta un millón de chips en un clúster lógico único, eliminando los límites que antes forzaban a fragmentar entrenamientos entre múltiples centros de datos. Un millón de TPUs procesando en paralelo es el mayor clúster de entrenamiento que existe.

Google lleva años usando TPUs propias para entrenar Gemini mientras el resto de la industria dependía de GPUs de Nvidia. La octava generación consolida esa ventaja y la extiende: la misma arquitectura que entrena los modelos de Google ahora está disponible para clientes de Cloud.

TPU 8i: matar la latencia en la era de los agentes

Mientras TPU 8t es puro músculo para el entrenamiento, TPU 8i ataca el problema de la latencia en inferencia. En la era agéntica, cuando un agente lanza decenas de consultas encadenadas en tiempo real para completar una tarea, cada milisegundo de latencia se multiplica. Los números clave:

  • 288 GB de memoria HBM por chip más 384 MB de SRAM on-chip (3x más que la generación anterior): el modelo activo cabe entero en chip, sin esperar transferencias de memoria
  • 19,2 Tb/s de anchura de banda ICI (doble que antes), optimizado para modelos MoE (Mixture of Experts)
  • Topología Boardfly: reduce el diámetro máximo de red en más del 50%, el sistema funciona como una unidad cohesionada de baja latencia
  • Collectives Acceleration Engine (CAE): latencia on-chip reducida hasta 5x
  • Resultado: 80% mejor rendimiento por dólar respecto a la generación anterior; las empresas pueden servir casi el doble de volumen de clientes al mismo coste

La comparación con los competidores es directa. Nvidia lanzó Vera Rubin a principios de 2026 como respuesta a la presión creciente de los chips propios de las grandes tecnológicas. Meta también tiene su hoja de ruta con los chips MTIA para reducir dependencia de Nvidia. Google, con la ventaja de diseñar tanto el chip como el software que corre sobre él, puede optimizar toda la pila de una manera que las soluciones de terceros no pueden igualar.

Co-diseño y eficiencia energética

Ambos chips corren sobre Axion, el CPU ARM propio de Google, lo que permite optimizar el sistema completo, no solo el acelerador. La refrigeración líquida de cuarta generación sostiene densidades de rendimiento que el aire no puede alcanzar.

El resultado en eficiencia: hasta 2x mejor rendimiento por vatio respecto a la generación anterior (Ironwood). En el contexto de centros de datos donde la energía —no los chips— se convierte en el recurso escaso, ese factor puede ser tan importante como el rendimiento absoluto.

Mi valoración

Dividir el chip en dos arquitecturas especializadas es la decisión de ingeniería más honesta que Google podría tomar. Los chips comodín existen para vender más fácil, no para rendir mejor. Que Google decida sacrificar la simplicidad del catálogo a cambio de eficiencia real dice algo sobre su confianza en que los clientes de Cloud serán capaces de entender qué chip necesitan para qué tarea.

Lo que más me convence es la arquitectura del TPU 8i para la era agéntica: el Boardfly con topología de diámetro reducido y el CAE que mueve operaciones colectivas fuera del chip principal son exactamente el tipo de innovación que acelera sistemas de múltiples agentes con latencia crítica. No es marketing; es una respuesta de ingeniería a un problema operativo real.

Lo que me preocupa es el acceso. Ambos chips estarán disponibles «antes de finales de año» como parte del AI Hypercomputer. No hay precio público ni indicación del mínimo de acceso. Para la mayoría de empresas, la ruta es consumir estos chips como servicio gestionado de Google Cloud, no comprarlos directamente, lo que hace que la disponibilidad real dependa de los acuerdos comerciales.

Preguntas frecuentes

¿Cuándo están disponibles TPU 8t y TPU 8i?

Ambos chips estarán en disponibilidad general antes de finales de 2026. Clientes interesados pueden solicitar más información directamente a Google Cloud.

¿Necesito usar uno u otro según mi caso de uso?

TPU 8t es el chip para entrenar modelos grandes (semanas, no meses). TPU 8i es para servir inferencia a escala con latencia mínima. Si entrenas y sirves, probablemente necesitas acceso a los dos. Ambos soportan JAX, MaxText, PyTorch, SGLang y vLLM.

¿Compiten con Nvidia?

Sí y no. Google no vende chips a terceros de manera independiente; los TPU son exclusivos de Google Cloud. Nvidia vende sus chips a cualquier empresa. Pero para quienes construyen sobre Google Cloud, los TPU son una alternativa real a alquilar GPUs A100/H100/B200 de Nvidia, y los números de rendimiento por dólar del 8i son directamente competitivos.