DeepSeek reduce un 75% el coste de inferencia con su nuevo modelo de IA

La startup china DeepSeek AI vuelve a dar que hablar con su nuevo modelo DeepSeek-V3.2-Exp, que promete reducir drásticamente los costos de inferencia en modelos de inteligencia artificial generativa. Según su propio blog corporativo, la nueva versión disminuye el coste por millón de tokens de 1,68 dólares a tan solo 42 centavos, lo que representa una caída del 75% en el consumo computacional necesario para generar predicciones.

Esta mejora no se basa en una revolución técnica radical, sino en una optimización continua de un principio conocido desde hace tiempo en el ámbito de la inteligencia artificial: la esparsidad. En términos sencillos, se trata de usar solo las partes más relevantes del modelo y los datos para hacer predicciones, dejando inactivos los componentes que no aportan valor directo a una tarea específica. Continúa leyendo «DeepSeek reduce un 75% el coste de inferencia con su nuevo modelo de IA»

DeepSeek presenta modelo con atención dispersa para reducir a la mitad los costos de inferencia

La compañía china DeepSeek ha lanzado un modelo experimental llamado V3.2-exp, orientado a optimizar el rendimiento de operaciones en contextos largos, uno de los grandes desafíos técnicos en los modelos de lenguaje actuales. Esta versión introduce un sistema innovador llamado DeepSeek Sparse Attention, cuyo objetivo es minimizar la carga computacional y, con ello, reducir significativamente los costos de inferencia.

Cuando hablamos de inferencia, nos referimos al proceso por el cual un modelo ya entrenado genera resultados en base a una entrada dada. Este proceso, aunque menos costoso que el entrenamiento inicial, representa un gasto constante para quienes operan modelos en la nube o a través de API. Por eso, cualquier avance que reduzca el consumo de recursos en esta etapa tiene implicaciones económicas directas. Continúa leyendo «DeepSeek presenta modelo con atención dispersa para reducir a la mitad los costos de inferencia»

Alibaba impulsa su independencia tecnológica con un nuevo chip de inteligencia artificial

Alibaba ha anunciado el desarrollo de un nuevo chip de inteligencia artificial, una iniciativa que refuerza la carrera por la autonomía tecnológica en China. A diferencia de los chips diseñados para entrenar modelos de IA, esta nueva propuesta se enfoca exclusivamente en la fase de inferencia, es decir, en la ejecución de tareas y predicciones una vez que el modelo ha sido entrenado. Este matiz es clave, ya que permite reducir considerablemente el consumo energético y optimizar la eficiencia en los entornos de despliegue de soluciones de IA. Continúa leyendo «Alibaba impulsa su independencia tecnológica con un nuevo chip de inteligencia artificial»

TensorFlow Lite y la inferencia en dispositivos con XNNPack

Si alguna vez has intentado ejecutar modelos de aprendizaje automático en dispositivos móviles o embebidos, seguramente te has encontrado con el desafío de lograr un rendimiento aceptable sin agotar los recursos del dispositivo. TensorFlow Lite (TFLite) ha sido una herramienta crucial en este campo, permitiendo llevar modelos de machine learning a estos dispositivos. Sin embargo, la reciente integración de XNNPack como el motor de inferencia por defecto para la CPU en TFLite ha llevado esta capacidad al siguiente nivel. Aquí te cuento cómo y por qué es tan importante.

Continúa leyendo «TensorFlow Lite y la inferencia en dispositivos con XNNPack»