La compañía china DeepSeek ha lanzado un modelo experimental llamado V3.2-exp, orientado a optimizar el rendimiento de operaciones en contextos largos, uno de los grandes desafíos técnicos en los modelos de lenguaje actuales. Esta versión introduce un sistema innovador llamado DeepSeek Sparse Attention, cuyo objetivo es minimizar la carga computacional y, con ello, reducir significativamente los costos de inferencia.
Cuando hablamos de inferencia, nos referimos al proceso por el cual un modelo ya entrenado genera resultados en base a una entrada dada. Este proceso, aunque menos costoso que el entrenamiento inicial, representa un gasto constante para quienes operan modelos en la nube o a través de API. Por eso, cualquier avance que reduzca el consumo de recursos en esta etapa tiene implicaciones económicas directas. Continúa leyendo «DeepSeek presenta modelo con atención dispersa para reducir a la mitad los costos de inferencia»