Nvidia se prepara para la era de la inferencia: la nueva batalla por ejecutar IA rápido y barato

Nvidia construyó buena parte del auge moderno de la IA con sus GPU, chips muy versátiles que sirven tanto para entrenar como para ejecutar modelos. Esa versatilidad fue una ventaja cuando el sector necesitaba una herramienta “para todo”. El problema es que la inferencia premia la especialización: baja latencia, alto rendimiento por vatio, buen precio por token y capacidad para mantener conversaciones largas sin que el sistema se ahogue.

Con el mercado girando hacia servicios en tiempo real, han crecido los rivales que ofrecen rutas alternativas. Algunos gigantes tecnológicos empujan sus propios aceleradores, como las TPU de Google, mientras que compañías especializadas presumen de chips hechos para “hablar” con modelos de lenguaje de forma más eficiente. Este contexto explica por qué Nvidia, aun estando en una posición de fuerza, está tratando el momento actual como una defensa activa de su liderazgo, no como una simple vuelta de victoria. Continúa leyendo «Nvidia se prepara para la era de la inferencia: la nueva batalla por ejecutar IA rápido y barato»

Meta prepara una nueva hornada de chips MTIA para IA: qué son y por qué importan

Meta lleva tiempo comprando “electrodomésticos” de alta gama para su infraestructura de inteligencia artificial, sobre todo aceleradores de compañías como Nvidia y también AMD. Lo nuevo es que la empresa ha presentado una hoja de ruta con cuatro chips propios, pensados para dos tareas que hoy le consumen cantidades gigantescas de cómputo: las funciones de IA generativa dentro de sus apps y los sistemas de ranking y recomendación que deciden qué ves primero en Instagram, Facebook o Threads. La noticia se conoció el 11 de marzo de 2026 y sitúa a Meta en la misma carrera que otros gigantes tecnológicos: diseñar parte del “motor” en casa para no depender al 100% de proveedores externos.

La lógica es fácil de entender con un ejemplo cotidiano. Si cada día cocinas para millones de personas, te interesa que los hornos estén ajustados a tu menú, no a una carta genérica. Un chip generalista es como un horno industrial que sirve para casi todo; un chip propio puede ser un horno afinado para tu receta concreta, con mejor consumo energético y, con suerte, menor coste por plato. Reuters subraya justo ese punto: chips diseñados para los cálculos específicos de Meta pueden reducir energía y mejorar la relación coste/eficiencia. Continúa leyendo «Meta prepara una nueva hornada de chips MTIA para IA: qué son y por qué importan»

Microsoft estrena Maia 200 y mantiene su apuesta por Nvidia y AMD: qué cambia en la carrera de los chips de IA

Microsoft ha empezado a desplegar en uno de sus centros de datos su primera hornada de chips de IA diseñados en casa. El nombre elegido, Maia 200, ya deja claro que la compañía quiere que se hable de él como una pieza de primera línea. Según contó TechCrunch, Microsoft lo describe como un “motor” para inferencia, que es la parte del trabajo de la IA que sucede cuando el modelo ya está entrenado y toca ponerlo a producir respuestas, clasificar información, generar texto o resumir documentos a escala.

Si el entrenamiento se parece a “enseñar” a un estudiante durante meses, la inferencia es el momento de usar ese aprendizaje para resolver ejercicios en un examen… millones de veces al día. En la nube, ese examen se llama chat corporativo, copilotos de productividad, análisis de seguridad, atención al cliente o traducción automática. Es la fase donde cada milisegundo importa y donde el coste por consulta determina si un servicio es rentable o se convierte en un pozo sin fondo.

Microsoft también compartió cifras de rendimiento y afirmó que Maia 200 supera a chips recientes de la competencia de hiperescaladores, como Trainium de Amazon y las TPU de Google. Ese tipo de comparaciones se han vuelto casi obligatorias en cada lanzamiento de hardware, porque el mensaje de fondo es uno: quien controle el silicio, controla el margen. Continúa leyendo «Microsoft estrena Maia 200 y mantiene su apuesta por Nvidia y AMD: qué cambia en la carrera de los chips de IA»

Maia 200: el nuevo chip de IA de Microsoft se mide con Amazon y Google

Microsoft vuelve a mover ficha en el tablero del hardware para inteligencia artificial con Maia 200, el sucesor de su primer acelerador interno, Maia 100. Según ha contado Tom Warren en The Verge y confirma la propia compañía, el despliegue empieza hoy, 26 de enero de 2026, en los centros de datos de Microsoft. El contexto es claro: entrenar y ejecutar modelos cada vez más grandes exige una potencia que ya no se puede “comprar en el supermercado” con la misma facilidad de hace unos años. Tener un chip propio no es solo una cuestión de orgullo tecnológico; es como tener cocina industrial en un restaurante con mucha demanda: te permite controlar mejor costes, tiempos y capacidad, en lugar de depender siempre del proveedor de fuera. Continúa leyendo «Maia 200: el nuevo chip de IA de Microsoft se mide con Amazon y Google»

DeepSeek reduce un 75% el coste de inferencia con su nuevo modelo de IA

La startup china DeepSeek AI vuelve a dar que hablar con su nuevo modelo DeepSeek-V3.2-Exp, que promete reducir drásticamente los costos de inferencia en modelos de inteligencia artificial generativa. Según su propio blog corporativo, la nueva versión disminuye el coste por millón de tokens de 1,68 dólares a tan solo 42 centavos, lo que representa una caída del 75% en el consumo computacional necesario para generar predicciones.

Esta mejora no se basa en una revolución técnica radical, sino en una optimización continua de un principio conocido desde hace tiempo en el ámbito de la inteligencia artificial: la esparsidad. En términos sencillos, se trata de usar solo las partes más relevantes del modelo y los datos para hacer predicciones, dejando inactivos los componentes que no aportan valor directo a una tarea específica. Continúa leyendo «DeepSeek reduce un 75% el coste de inferencia con su nuevo modelo de IA»

DeepSeek presenta modelo con atención dispersa para reducir a la mitad los costos de inferencia

La compañía china DeepSeek ha lanzado un modelo experimental llamado V3.2-exp, orientado a optimizar el rendimiento de operaciones en contextos largos, uno de los grandes desafíos técnicos en los modelos de lenguaje actuales. Esta versión introduce un sistema innovador llamado DeepSeek Sparse Attention, cuyo objetivo es minimizar la carga computacional y, con ello, reducir significativamente los costos de inferencia.

Cuando hablamos de inferencia, nos referimos al proceso por el cual un modelo ya entrenado genera resultados en base a una entrada dada. Este proceso, aunque menos costoso que el entrenamiento inicial, representa un gasto constante para quienes operan modelos en la nube o a través de API. Por eso, cualquier avance que reduzca el consumo de recursos en esta etapa tiene implicaciones económicas directas. Continúa leyendo «DeepSeek presenta modelo con atención dispersa para reducir a la mitad los costos de inferencia»

Alibaba impulsa su independencia tecnológica con un nuevo chip de inteligencia artificial

Alibaba ha anunciado el desarrollo de un nuevo chip de inteligencia artificial, una iniciativa que refuerza la carrera por la autonomía tecnológica en China. A diferencia de los chips diseñados para entrenar modelos de IA, esta nueva propuesta se enfoca exclusivamente en la fase de inferencia, es decir, en la ejecución de tareas y predicciones una vez que el modelo ha sido entrenado. Este matiz es clave, ya que permite reducir considerablemente el consumo energético y optimizar la eficiencia en los entornos de despliegue de soluciones de IA. Continúa leyendo «Alibaba impulsa su independencia tecnológica con un nuevo chip de inteligencia artificial»

TensorFlow Lite y la inferencia en dispositivos con XNNPack

Si alguna vez has intentado ejecutar modelos de aprendizaje automático en dispositivos móviles o embebidos, seguramente te has encontrado con el desafío de lograr un rendimiento aceptable sin agotar los recursos del dispositivo. TensorFlow Lite (TFLite) ha sido una herramienta crucial en este campo, permitiendo llevar modelos de machine learning a estos dispositivos. Sin embargo, la reciente integración de XNNPack como el motor de inferencia por defecto para la CPU en TFLite ha llevado esta capacidad al siguiente nivel. Aquí te cuento cómo y por qué es tan importante.

Continúa leyendo «TensorFlow Lite y la inferencia en dispositivos con XNNPack»