Etiqueta: inferencia

Microsoft estrena Maia 200 y mantiene su apuesta por Nvidia y AMD: qué cambia en la carrera de los chips de IA

Publicado el 31 enero, 2026

Microsoft ha empezado a desplegar en uno de sus centros de datos su primera hornada de chips de IA diseñados en casa. El nombre elegido, Maia 200, ya deja claro que la compañía quiere que se hable de él como una pieza de primera línea. Según contó TechCrunch, Microsoft lo describe como un “motor” para inferencia, que es la parte del trabajo de la IA que sucede cuando el modelo ya está entrenado y toca ponerlo a producir respuestas, clasificar información, generar texto o resumir documentos a escala.

Si el entrenamiento se parece a “enseñar” a un estudiante durante meses, la inferencia es el momento de usar ese aprendizaje para resolver ejercicios en un examen… millones de veces al día. En la nube, ese examen se llama chat corporativo, copilotos de productividad, análisis de seguridad, atención al cliente o traducción automática. Es la fase donde cada milisegundo importa y donde el coste por consulta determina si un servicio es rentable o se convierte en un pozo sin fondo.

Microsoft también compartió cifras de rendimiento y afirmó que Maia 200 supera a chips recientes de la competencia de hiperescaladores, como Trainium de Amazon y las TPU de Google. Ese tipo de comparaciones se han vuelto casi obligatorias en cada lanzamiento de hardware, porque el mensaje de fondo es uno: quien controle el silicio, controla el margen. Continúa leyendo «Microsoft estrena Maia 200 y mantiene su apuesta por Nvidia y AMD: qué cambia en la carrera de los chips de IA»

Maia 200: el nuevo chip de IA de Microsoft se mide con Amazon y Google

Publicado el 27 enero, 2026

por Natalia Polo

Microsoft vuelve a mover ficha en el tablero del hardware para inteligencia artificial con Maia 200, el sucesor de su primer acelerador interno, Maia 100. Según ha contado Tom Warren en The Verge y confirma la propia compañía, el despliegue empieza hoy, 26 de enero de 2026, en los centros de datos de Microsoft. El contexto es claro: entrenar y ejecutar modelos cada vez más grandes exige una potencia que ya no se puede “comprar en el supermercado” con la misma facilidad de hace unos años. Tener un chip propio no es solo una cuestión de orgullo tecnológico; es como tener cocina industrial en un restaurante con mucha demanda: te permite controlar mejor costes, tiempos y capacidad, en lugar de depender siempre del proveedor de fuera. Continúa leyendo «Maia 200: el nuevo chip de IA de Microsoft se mide con Amazon y Google»

DeepSeek reduce un 75% el coste de inferencia con su nuevo modelo de IA

Publicado el 9 octubre, 2025

por Natalia Polo

La startup china DeepSeek AI vuelve a dar que hablar con su nuevo modelo DeepSeek-V3.2-Exp, que promete reducir drásticamente los costos de inferencia en modelos de inteligencia artificial generativa. Según su propio blog corporativo, la nueva versión disminuye el coste por millón de tokens de 1,68 dólares a tan solo 42 centavos, lo que representa una caída del 75% en el consumo computacional necesario para generar predicciones.

Esta mejora no se basa en una revolución técnica radical, sino en una optimización continua de un principio conocido desde hace tiempo en el ámbito de la inteligencia artificial: la esparsidad. En términos sencillos, se trata de usar solo las partes más relevantes del modelo y los datos para hacer predicciones, dejando inactivos los componentes que no aportan valor directo a una tarea específica. Continúa leyendo «DeepSeek reduce un 75% el coste de inferencia con su nuevo modelo de IA»

DeepSeek presenta modelo con atención dispersa para reducir a la mitad los costos de inferencia

Publicado el 1 octubre, 2025

por Natalia Polo

La compañía china DeepSeek ha lanzado un modelo experimental llamado V3.2-exp, orientado a optimizar el rendimiento de operaciones en contextos largos, uno de los grandes desafíos técnicos en los modelos de lenguaje actuales. Esta versión introduce un sistema innovador llamado DeepSeek Sparse Attention, cuyo objetivo es minimizar la carga computacional y, con ello, reducir significativamente los costos de inferencia.

Cuando hablamos de inferencia, nos referimos al proceso por el cual un modelo ya entrenado genera resultados en base a una entrada dada. Este proceso, aunque menos costoso que el entrenamiento inicial, representa un gasto constante para quienes operan modelos en la nube o a través de API. Por eso, cualquier avance que reduzca el consumo de recursos en esta etapa tiene implicaciones económicas directas. Continúa leyendo «DeepSeek presenta modelo con atención dispersa para reducir a la mitad los costos de inferencia»

Alibaba impulsa su independencia tecnológica con un nuevo chip de inteligencia artificial

Publicado el 4 septiembre, 2025

por Natalia Polo

Alibaba ha anunciado el desarrollo de un nuevo chip de inteligencia artificial, una iniciativa que refuerza la carrera por la autonomía tecnológica en China. A diferencia de los chips diseñados para entrenar modelos de IA, esta nueva propuesta se enfoca exclusivamente en la fase de inferencia, es decir, en la ejecución de tareas y predicciones una vez que el modelo ha sido entrenado. Este matiz es clave, ya que permite reducir considerablemente el consumo energético y optimizar la eficiencia en los entornos de despliegue de soluciones de IA. Continúa leyendo «Alibaba impulsa su independencia tecnológica con un nuevo chip de inteligencia artificial»

TensorFlow Lite y la inferencia en dispositivos con XNNPack

Publicado el 16 agosto, 2024

por Juan Diego Polo

Si alguna vez has intentado ejecutar modelos de aprendizaje automático en dispositivos móviles o embebidos, seguramente te has encontrado con el desafío de lograr un rendimiento aceptable sin agotar los recursos del dispositivo. TensorFlow Lite (TFLite) ha sido una herramienta crucial en este campo, permitiendo llevar modelos de machine learning a estos dispositivos. Sin embargo, la reciente integración de XNNPack como el motor de inferencia por defecto para la CPU en TFLite ha llevado esta capacidad al siguiente nivel. Aquí te cuento cómo y por qué es tan importante.

Continúa leyendo «TensorFlow Lite y la inferencia en dispositivos con XNNPack»