Google limitó en marzo de 2026 el acceso de Meta a sus modelos Gemini después de que la empresa de Zuckerberg pidiera más capacidad de cómputo de la que Google podía suministrar. La restricción, reportada por el Financial Times y confirmada por Bloomberg, Engadget y CNBC, obligó a Meta a ordenar internamente que sus empleados optimizaran el uso de tokens de IA. Varios otros clientes de Google también se vieron afectados, aunque en menor medida. Este no es un incidente aislado entre dos gigantes: es la señal más clara hasta la fecha de que la IA de 2026 tiene un techo físico que ni el dinero resuelve.
El ángulo que importa aquí no es el desacuerdo empresarial. Es que el racionamiento de IA ha subido de las startups a las empresas del billón de dólares en menos de 18 meses. Meta tiene un capex comprometido de entre 115.000 y 135.000 millones de dólares (entre 101.000 y 119.000 millones de euros) en 2026 solo en infraestructura de IA, ha despedido a 8.000 empleados en mayo y ha reasignado a 7.000 trabajadores hacia roles de IA. Y aun así, se quedó sin tokens.
Por qué Meta dependía de Gemini para sus operaciones más críticas
Meta usaba los modelos Gemini de Google para automatizar procesos de seguridad internos, específicamente para detectar y eliminar contenido dañino y estafas a escala. Su propia familia de modelos Llama, de código abierto, resultó insuficiente para esas tareas de moderación a la escala de plataformas que combinan casi 4.000 millones de usuarios activos mensuales entre Instagram, Facebook y WhatsApp.
La paradoja es mayúscula: Meta es simultáneamente uno de los competidores más activos de Google en IA, con su propia división de investigación y modelos Llama, y un cliente dependiente de la infraestructura de su rival para hacer funcionar sus sistemas de seguridad. El Financial Times cita a tres personas familiarizadas con el asunto para confirmar que Meta ya está migrando esas cargas de trabajo hacia Muse Spark, un nuevo modelo interno desarrollado bajo los Superintelligence Labs de la empresa.
La transición era inevitable, pero la escasez la ha acelerado. Meta, que también ha lanzado suscripciones de Meta One a 7,99 y 19,99 dólares al mes para monetizar su IA entre sus miles de millones de usuarios, necesita rentabilizar su infraestructura de IA — y eso requiere no depender de un proveedor rival para las operaciones más críticas.
El problema de Google tampoco es de dinero: es de física
Google está gastando más de 180.000 millones de dólares (≈ 158.400 millones de euros) en capex este año. Y aun así no tiene suficiente capacidad. La razón está en la cadena de suministro de hardware: los chips de IA, especialmente los de memoria de alto ancho de banda (HBM) que necesitan las GPU de NVIDIA, se fabrican en una cantidad fija que la demanda global supera con creces.
La solución que Google ha encontrado revela mejor que cualquier comunicado la gravedad del problema: la empresa ha llegado a un acuerdo con SpaceX para pagar 920 millones de dólares al mes (≈ 810 millones de euros) por acceso a 110.000 GPU NVIDIA como «capacidad puente» mientras construye sus propios centros de datos. Google, que tiene una de las mayores infraestructuras de IA privada del planeta, está alquilando capacidad a una empresa de cohetes.
El despliegue masivo de Gemini que Google ejecutó en sus servicios en marzo de 2026 — desde Search Live hasta Personal Intelligence y Google Meet — explica en parte por qué la demanda interna de cómputo ha crecido tan rápido: cada función nueva es cómputo adicional que compite con los clientes externos.
Lo que esto significa para las empresas que construyen sobre APIs de terceros
Durante años la narrativa dominante ha sido que el cómputo en la nube es infinitamente escalable. Pagas más y obtienes más. La historia de Meta y Google rompe ese axioma de forma visible. Cuando el mayor proveedor del mundo le dice al mayor cliente del mundo que no puede suministrarle lo que ha pedido, la asunción de escala ilimitada deja de ser sostenible.
Para las empresas que construyen sobre APIs de IA de terceros — desde chatbots internos hasta sistemas de atención al cliente — el mensaje es claro: la diversificación de proveedores ya no es solo una práctica recomendable de arquitectura, es una necesidad de continuidad operativa. El racionamiento que golpeó a Meta afectó también a otros clientes de Google, aunque con menor intensidad. Los siguientes podrían ser empresas que todavía creen que su contrato las protege.
La decisión de Microsoft y OpenAI de romper su exclusividad en la API para que los modelos puedan servirse desde cualquier nube es la respuesta del mercado a exactamente este tipo de concentración: si los clientes pueden elegir desde qué proveedor acceden a los modelos, la palanca de racionamiento se reduce.
Mi valoración
Llevo cubriendo el sector tecnológico desde 2008 y el racionamiento de tokens de IA entre empresas del billón de dólares es algo que no había registrado antes de este año. Lo que más me convence de este episodio es que lo que revela es estructuralmente más importante que el incidente en sí: la IA generativa a escala masiva tiene una demanda de hardware que supera la capacidad de fabricación global, y eso no se resuelve con dinero — se resuelve con tiempo y ciclos de litografía.
Lo que más me preocupa es la concentración del problema. Las tres o cuatro empresas con mayores recursos (Google, AWS, Microsoft, Meta) están acaparando los chips disponibles antes de que lleguen al mercado. Las empresas más pequeñas, las universidades y los desarrolladores independientes están en la cola, sin contratos estratégicos con los fabricantes y sin la capacidad de pagar a SpaceX 920 millones de dólares al mes para suplir la escasez.
Lo más estructuralmente significativo es que Meta estaba usando Gemini para la moderación de contenido — no para experimentos, sino para la función de seguridad más crítica de sus plataformas. Que Llama no fuera suficiente para eso, y que Google no pudiera suministrar lo que Meta necesitaba, indica que hay un gap entre la retórica de «modelos propios de frontera» y la realidad operativa.
Mi predicción: la escasez de cómputo generará acuerdos de acceso garantizado a largo plazo (contratos de dos o tres años con cuotas fijas de GPU) que empezarán a aparecer en los próximos seis meses. Quien no los cierre ahora, pagará la penalización en 2027 con restricciones más severas.
Preguntas frecuentes
¿Por qué Meta usaba Gemini de Google si tiene sus propios modelos Llama?
Meta desarrolla Llama como modelos de propósito general de código abierto, pero para la moderación de contenido a escala — detectar estafas, eliminar contenido dañino en miles de millones de publicaciones diarias — necesitaba un modelo con capacidades específicas que Llama, al menos en sus versiones disponibles, no cubría con el rendimiento requerido. Gemini ofrecía mejor rendimiento en esas tareas concretas, lo que llevó a Meta a comprarlo como servicio externo.
¿Qué es un «token» en este contexto y por qué hay escasez de ellos?
Un token es la unidad que miden los proveedores de IA para facturar el uso de sus modelos: cada palabra o fragmento de texto que procesa el modelo consume tokens. Cuando hablamos de «escasez de tokens», en realidad nos referimos a escasez de capacidad de cómputo física — chips, servidores, energía — para atender todas las peticiones de todos los clientes simultáneamente. Google no tiene tokens infinitos porque no tiene chips infinitos.
¿Esto afecta a cualquier empresa que use APIs de IA?
Potencialmente sí. La restricción de tokens puede ocurrir en cualquier proveedor, aunque los contratos enterprise incluyen garantías de disponibilidad. El caso de Meta es excepcional por su escala — pocos clientes consumen a ese volumen — pero los tiempos de respuesta degradados y los límites de uso que ya ven muchas empresas son síntomas del mismo problema estructural.
