GPT-4 desvela sus secretos, es una combinación de ocho modelos más pequeños

Por lo visto se han desvelado los secretos detrás de GPT-4, y los resultados han dejado a muchos sorprendidos. Aunque la compañía había mantenido en secreto los detalles clave sobre la estructura interna y la arquitectura de GPT-4, recientes rumores indican que el modelo no es una gran innovación técnica, sino más bien una combinación de ocho modelos más pequeños. A pesar de ello, GPT-4 sigue siendo considerado como el mejor modelo de lenguaje existente en la actualidad.

Una revelación sorprendente

George Hotz, fundador de la startup de conducción autónoma Comma.ai, fue el primero en filtrar esta información. Según Hotz, GPT-4 no es un modelo monolítico masivo como sus predecesores GPT-3 y GPT-3.5. En cambio, se trata de una combinación de ocho modelos más pequeños, cada uno con 220 mil millones de parámetros. Esta filtración fue respaldada más tarde por Soumith Chintala, cofundador de PyTorch en Meta, y Mikhail Parakhin, líder de IA de Microsoft Bing.

Los detalles detrás del modelo

Aunque aún no se ha confirmado oficialmente, esta filtración revela información clave sobre el modelo GPT-4 y plantea interrogantes sobre el estado actual y el futuro de la inteligencia artificial. La estrategia utilizada por OpenAI al combinar ocho modelos más pequeños dentro de GPT-4 se conoce como «mezcla de expertos» y no es algo nuevo ni inventado por OpenAI. De hecho, ingenieros de Google, como William Fedus y Trevor Cai, habían implementado esta técnica con éxito en 2021.

El misterio detrás de GPT-4

La decisión de OpenAI de mantener en secreto los detalles de GPT-4 ha sido objeto de elogio y controversia. Por un lado, la falta de información ha generado expectativas desmedidas y ha alimentado la conversación en torno al modelo. Por otro lado, ha permitido que OpenAI mantenga su reputación y aura de misterio. La compañía ya había consolidado su estatus en el campo de la IA con el éxito de su modelo ChatGPT, lo que les llevó a ocultar los aspectos menos impresionantes de GPT-4 y a sugerir que era un avance revolucionario.

Los objetivos ocultos de OpenAI

El ocultamiento de los detalles de GPT-4 ha permitido a OpenAI lograr tres objetivos clave. En primer lugar, ha estimulado la imaginación de las personas y ha fomentado la especulación sobre el poder del modelo. Esto ha reforzado la narrativa de OpenAI sobre la necesidad de planificar y regular la inteligencia artificial general (AGI). En segundo lugar, ha evitado que iniciativas de código abierto y competidores como Google copien las técnicas que supuestamente habían inventado o descubierto. Sin embargo, esta filtración revela que GPT-4 no es tan revolucionario como se creía, sino más bien una combinación de modelos más pequeños.

¿Un freno en el avance de la IA?

Esta filtración plantea la pregunta de si OpenAI y la industria en general se están quedando sin ideas en el campo de la IA, como sugiere Hotz. También cuestiona si el progreso en el campo de la IA está siendo tan rápido como se hace parecer. Aunque GPT-4 sigue siendo un modelo impresionante en términos de rendimiento y habilidad para tareas de escritura y programación, la revelación de que es una combinación de modelos más pequeños puede afectar la percepción de su avance tecnológico.

En el artículo de The Algorithmic Bridge ya tenemos las primeras impresiones sobre el tema:

Dave Hitz señala que el rendimiento de GPT-4 es lo que importa y que la arquitectura no es relevante siempre y cuando funcione bien.
Alberto Romero explica que importa cómo se logró el rendimiento de GPT-4 y critica la forma en que OpenAI ha manejado la situación.
Pouria Mistani sugiere que el enfoque de combinar modelos no es evidencia de un avance hacia la inteligencia artificial general (AGI).
Pär Winzell destaca la aceleración del campo de la IA y plantea preocupaciones sobre el desarrollo no controlado de modelos de nivel GPT-4 en manos equivocadas.
Alberto Romero comparte la preocupación sobre el desarrollo acelerado del campo y enfatiza que los avances en IA pueden estar siendo exagerados.

Veamos cómo se desarrollará la historia durante las próximas semanas.