Expansión de memoria para GPUs: Un cambio revolucionario en la IA y HPC

En el mundo de la inteligencia artificial (IA) y la computación de alto rendimiento (HPC), uno de los desafíos más grandes es la capacidad de memoria de las GPUs. Las demandas de procesamiento de datos avanzados pueden sobrepasar rápidamente la memoria incorporada en una GPU. Frente a este reto, una startup en Daejeon, Corea del Sur, ha desarrollado una tecnología innovadora que promete solucionar este problema: memoria adjunta a PCIe.

Panmnesia y su Innovación Tecnológica

Panmnesia, respaldada por el instituto de investigación KAIST, ha presentado una solución que permite a las GPUs acceder a la memoria del sistema directamente a través de una interfaz Compute Express Link (CXL). Esta tecnología, llamada CXL GPU Image, usa memoria adjunta a PCIe con una latencia de nanosegundos de dos dígitos, considerablemente más rápida que los SSD tradicionales.

Los Retos Técnicos

Desarrollar esta tecnología no fue sencillo. Panmnesia tuvo que superar varios desafíos técnicos:

Protocolo CXL: El protocolo CXL funciona sobre un enlace PCIe, pero necesita ser reconocido por un ASIC y su subsistema. No basta con añadir un controlador CXL a la pila tecnológica, ya que no existe un tejido lógico CXL ni subsistemas que soporten puntos finales DRAM y/o SSD en las GPUs.
Memoria Virtual Unificada (UVM): Los subsistemas de caché y memoria de las GPUs no reconocen ninguna expansión excepto UVM, que no es lo suficientemente rápida para la IA o HPC. En las pruebas de Panmnesia, UVM tuvo el peor rendimiento entre todos los núcleos de GPU probados. El CXL, en cambio, proporcionó acceso directo a almacenamiento expandido mediante instrucciones de carga/almacenamiento, eliminando los problemas que afectan a UVM como la intervención del tiempo de ejecución del host durante los fallos de página y la transferencia de datos a nivel de página.

¿Cómo Funciona el CXL GPU Image?

Panmnesia ha desarrollado una serie de capas de hardware que soportan todos los protocolos clave de CXL, consolidándolos en un controlador unificado. El complejo raíz compatible con CXL 3.1 tiene múltiples puertos raíz que soportan memoria externa sobre PCIe y un puente anfitrión con un decodificador de memoria de dispositivo gestionado por el anfitrión que se conecta al bus del sistema de la GPU y gestiona la memoria del sistema.

Retos en la Industria

Panmnesia enfrenta desafíos más allá de su control directo. Un gran reto es que AMD y Nvidia deben añadir soporte CXL a sus GPUs. Es posible que los actores de la industria decidan que les gusta el enfoque de usar memoria adjunta a PCIe para GPUs y desarrollen su propia tecnología.

Impacto Potencial

El uso de memoria adjunta a PCIe para expandir la capacidad de las GPUs puede tener un impacto significativo en el rendimiento de aplicaciones de IA y HPC. Este avance podría llevar a un mejor aprovechamiento de los recursos de hardware y permitir el procesamiento de conjuntos de datos mucho más grandes sin los costos asociados a la memoria de alta capacidad y ancho de banda.

Como ya hemos mencionado en WWWhatsnew.com, la tecnología está en constante evolución y es crucial estar al día con las últimas innovaciones. Esta nueva solución de Panmnesia podría ser un gran avance para muchos sectores que dependen del procesamiento intensivo de datos.