Microsoft ha dado un paso importante en el ámbito de la inteligencia artificial con el lanzamiento de Phi-3 Mini, un modelo de IA notablemente compacto y eficiente.
Se presenta como una solución accesible para dispositivos personales y aplicaciones empresariales, ya que puede ejecutarse en pequeños dispositivos, incluyendo un móvil.
Phi-3 Mini es un modelo de lenguaje de 3.8 mil millones de parámetros diseñado para ejecutarse eficientemente en dispositivos menos potentes como teléfonos y laptops. A diferencia de modelos más grandes, como GPT-4, este modelo fue entrenado con un conjunto de datos creado a partir de «cuentos infantiles» generados por otros modelos de lenguaje. Este enfoque busca simplificar temas complejos a través de un lenguaje más accesible y estructuras de oraciones más simples, ideal para la enseñanza y aprendizaje automático en contextos restringidos.
La optimización del modelo permite que Phi-3 Mini opere de manera local en dispositivos móviles, como demostró Microsoft al ejecutarlo en un iPhone 14 con chip A16 Bionic. Esto es posible gracias a una técnica conocida como cuantificación a 4 bits, que reduce significativamente la memoria necesaria para su funcionamiento, ocupando solo 1.8 GB.
En términos de rendimiento, Phi-3 Mini se compara favorablemente con modelos de mayor tamaño, alcanzando un 69% en el benchmark MMLU y 8.38 en MT-bench, lo que lo hace adecuado para ejecutarse en teléfonos móviles. Estos resultados son comparables a modelos más grandes como Mixtral 8x7B y GPT-3.5, lo que destaca la eficacia de Phi-3 Mini a pesar de su tamaño reducido.
En contraste con Phi-3 Mini, otras compañías han desarrollado modelos similares enfocados en aplicaciones específicas. Por ejemplo, Google lanzó Gemma 2B y 7B, diseñados para tareas sencillas de chatbot y trabajos relacionados con el lenguaje. Anthropic introdujo Claude 3 Haiku, capaz de leer y resumir documentos de investigación complejos, mientras que Meta presentó Llama 3 8B, adecuado también para chatbots y asistencia en codificación.
Aunque Phi-3 Mini es altamente capaz en contextos específicos, tiene limitaciones en tareas que requieren un amplio conocimiento factual, como TriviaQA, debido a su tamaño reducido. Para abordar esto, Microsoft sugiere la posibilidad de complementar el modelo con un motor de búsqueda que permita acceder a información externa cuando sea necesario.
El modelo también se centra principalmente en el inglés, lo que plantea la necesidad de explorar capacidades multilingües para modelos de IA de tamaño reducido, con el fin de ampliar su aplicabilidad global.
Pese a estas limitaciones, Phi-3 Mini representa un avance significativo en la creación de modelos de IA que no solo son potentes y capaces, sino también accesibles y prácticos para su uso diario.
Tenéis el estudio en arxiv.org