Intel Gaudi 2 vs H100 de NVIDIA, parece que Intel gana a la hora de entrenar modelos de IA

La reciente revelación de Stability AI sobre la comparación de rendimiento entre los aceleradores Intel Gaudi 2 y las GPUs de NVIDIA, especialmente la H100, es algo que vale la pena leer con calma.

Lo publicaron hace pocas horas en stability.ai, donde dan detalles que indican que Intel Gaudi 2 puede superar a la NVIDIA H100 en ciertas configuraciones, pero no necesariamente con optimizaciones TensorRT, lo que introduce una discusión crítica sobre cómo se evalúan y comparan las tecnologías de hardware en la inteligencia artificial.

Primero, es notable que en pruebas de entrenamiento sin optimizaciones específicas de TensorRT, el Gaudi 2 de Intel procesó imágenes a una velocidad significativamente más alta que la NVIDIA H100, con un rendimiento 1.5 veces más rápido en una configuración de 2 nodos. Esta ventaja se amplía aún más en configuraciones de 32 nodos, donde Gaudi 2 procesa más de 3 veces la cantidad de imágenes por segundo en comparación con las GPUs NVIDIA A100-80GB. Sin embargo, es esencial reconocer que las optimizaciones de TensorRT pueden inclinar la balanza a favor de NVIDIA, como se demostró en las pruebas de inferencia donde los chips A100, con TensorRT, produjeron imágenes un 40% más rápido que Gaudi 2.

La competencia entre Intel y NVIDIA se vuelve aún más intrigante con el lanzamiento del Gaudi 3 de Intel y los próximos procesadores GH200 que podrían anunciarse pronto. Estos desarrollos sugieren que Intel no solo está alcanzando a NVIDIA en términos de rendimiento de hardware de IA, sino que también está presionando para superarla.

AMD también entró en esta discusión de rendimiento al afirmar que había superado a la H100 de NVIDIA en varias métricas de rendimiento, aunque estas afirmaciones fueron refutadas por NVIDIA, destacando la importancia de las optimizaciones específicas del hardware, como TensorRT, en las evaluaciones de rendimiento.

Por otro lado, la utilización de Gaudi 2 en el modelo de lenguaje Stable Beluga 2.5 70B de Stability AI, que es una versión afinada de LLaMA 2 70B, demuestra el potencial del hardware de Intel en tareas de procesamiento de lenguaje natural a gran escala, con un rendimiento significativamente más rápido en comparación con las GPUs NVIDIA A100 en pruebas de inferencia.

Esta competencia entre Intel y NVIDIA, con AMD también en la mezcla, es fundamental para el avance de la tecnología de inteligencia artificial. La capacidad de procesar y entrenar modelos de IA más grandes y complejos de manera más eficiente acelera la investigación y el desarrollo en el campo, y hace que la tecnología de IA sea más accesible y viable para una gama más amplia de aplicaciones y usuarios.

NVIDIA está subiendo como la espuma con este tema de la IA, pero está claro que ni Intel ni AMD quieren quedarse atrás.