MEGALODON, lo nuevo de Meta en Inteligencia Artificial

Publicado el

megalodon

La demanda de procesamiento de datos, principalmente por causa de la inteligencia artificial, continúa creciendo exponencialmente. Es por eso que las grandes compañías trabajan para ayudar a solucionar los problemas con los que se enfrentan en el día a día.

En este contexto, Meta ha lanzado MEGALODON, un modelo revolucionario destinado a superar las limitaciones arquitectónicas de los modelos Transformer tradicionales, que luchan con secuencias largas y complejidad computacional creciente.

La principal ventaja de MEGALODON reside en su capacidad para manejar una longitud de contexto prácticamente ilimitada sin sacrificar la eficiencia. Con 7 mil millones de parámetros y 2 trillones de tokens de entrenamiento, el modelo promete alcanzar un costo de entrenamiento de 1.70, destacándose entre sus contemporáneos como LLAMA2.

MEGALODON incorpora innovaciones significativas como el promedio móvil exponencial complejo (CEMA), que extiende las capacidades del modelo en el dominio complejo. Por otro lado, la capa de normalización por paso de tiempo permite una gestión más eficiente de secuencias en tareas autoregresivas, un paso crucial para modelos que procesan grandes volúmenes de datos.

Uno de los logros más significativos de MEGALODON es su metodología para manejar la complejidad computacional y de memoria a través de la segmentación de secuencias de entrada en bloques fijos, conocido como MEGA-chunk. Esta técnica optimiza el entrenamiento y la inferencia, y mejora la eficiencia de los datos, permitiendo que el modelo aprenda de manera más efectiva.

Desde la modelización del lenguaje hasta tareas específicas del dominio, MEGALODON ha demostrado capacidades superiores, comparables a modelos bien establecidos en el mercado, como los ofrecidos por Google y OpenAI. En pruebas específicas como la clasificación de imágenes en ImageNet-1K, MEGALODON ha superado a modelos anteriores como DeiT-B y MEGA, estableciendo un nuevo estándar en la precisión de clasificación de imágenes.

Se abren así nuevas posibilidades para el procesamiento de secuencias extensas, el mismo día que Google presentó su propuesta en este sentido. Tenéis el estudio en arxiv.org, y el código en github.