La competencia en el mundo de la inteligencia artificial está más candente que nunca. Si bien OpenAI ha acaparado la mayoría de los titulares últimamente, Google y Meta también están moviéndose rápido para no quedarse atrás. Esta semana ha sido especialmente intensa, con el lanzamiento de nuevas versiones de sus modelos de inteligencia artificial, así como el anuncio de innovaciones en el diseño de chips. Vamos a echar un vistazo a las novedades más importantes de Google y Meta en este campo.
Gemini de Google: mejor rendimiento y menor costo
Google ha lanzado una actualización importante de su modelo Gemini, anunciando las versiones Gemini-1.5-Pro-002 y Gemini-1.5-Flash-002. Estas iteraciones traen mejoras significativas en áreas como el manejo de contexto extenso y las tareas matemáticas, con un incremento del 7% en el rendimiento general del modelo y un 20% en tareas relacionadas con matemáticas. Puede que estos números no te impresionen mucho a simple vista, pero para los que trabajamos con IA, esto se traduce en una mejora real en precisión y capacidad de procesamiento.
Lo más destacado de esta actualización es la reducción de costos. Google ha recortado el precio de las entradas de tokens en un 64% y los costos de salida en un 52% para aquellos prompts que utilicen menos de 128,000 tokens. Esto hace que Gemini-1.5 Pro sea no solo el más económico en comparación con modelos como GPT-4 o Claude 3.5 Sonnet, sino también uno de los más eficientes.
¿Qué significa esto para los desarrolladores?
Estas mejoras no solo benefician a los gigantes de la tecnología, sino también a desarrolladores independientes que desean utilizar IA para crear sus propias aplicaciones. Gemini ahora permite 2,000 solicitudes por minuto en la versión Flash y 1,000 en la versión Pro, lo que se traduce en un rendimiento superior y tiempos de respuesta más rápidos. Si alguna vez has trabajado con modelos que requieren mucho procesamiento, entenderás el valor de esta reducción en la latencia.
Por ejemplo, para aquellos que utilizan modelos de lenguaje para tareas como generación de código o análisis de datos, Gemini ahora puede procesar más solicitudes simultáneamente, abriendo la puerta a aplicaciones en tiempo real mucho más eficientes. Un cambio significativo si consideramos que muchos desarrolladores solían enfrentarse a restricciones de tasa que limitaban el uso efectivo de los modelos.
Meta y Llama 3.2: llevando la IA a la siguiente generación
Meta, por su parte, no se ha quedado de brazos cruzados. La compañía ha lanzado Llama 3.2, una actualización considerable que incluye modelos de lenguaje visual con capacidades mejoradas de reconocimiento de imágenes y comprensión visual. Los nuevos modelos están disponibles en tamaños que van desde 11 mil millones de parámetros hasta 90 mil millones, con versiones más ligeras diseñadas específicamente para dispositivos móviles.
¿Qué trae de nuevo Llama 3.2?
Una de las novedades más interesantes es la introducción de un contexto extendido de hasta 128,000 tokens. Esto significa que Llama 3.2 puede mantener el contexto de conversaciones mucho más largas o procesar documentos extensos sin perder la coherencia. Piensa en esas largas reuniones de trabajo donde se discuten múltiples puntos durante horas. Con esta actualización, Llama 3.2 podría ayudar a resumir toda la conversación sin problemas, manteniendo el hilo de cada tema.
Además, Meta ha lanzado la primera distribución oficial de «Llama Stack», un conjunto de herramientas que simplifica el desarrollo y la implementación de estos modelos en diferentes entornos. Esto es especialmente útil para investigadores y desarrolladores que buscan una forma más fácil de trabajar con modelos de IA complejos sin tener que preocuparse por la compatibilidad o las configuraciones técnicas.
IA en dispositivos móviles
Meta también ha pensado en aquellos que quieren utilizar la IA en dispositivos móviles. Los modelos de 1B y 3B parámetros están diseñados para funcionar en entornos con recursos limitados, como smartphones o tablets. Esto abre nuevas posibilidades para aplicaciones que buscan integrar IA directamente en el dispositivo, reduciendo la dependencia del procesamiento en la nube y mejorando la velocidad de respuesta.
Un investigador de IA llamado Ethan Mollick ha demostrado cómo Llama 3.2 puede funcionar de manera fluida en un iPhone a través de la aplicación PocketPal. ¿Te imaginas tener un modelo de lenguaje de última generación corriendo en tu teléfono sin necesidad de conectarte a servidores externos? Esto podría ser el inicio de una nueva era para las aplicaciones móviles basadas en inteligencia artificial.
AlphaChip: la revolución de Google en el diseño de chips
Google también ha sacudido el mundo del diseño de chips con el anuncio de AlphaChip, una tecnología desarrollada por Google DeepMind que utiliza aprendizaje por refuerzo para crear diseños de chips de alto rendimiento en cuestión de horas. AlphaChip ya se ha utilizado para diseñar las últimas tres generaciones de los TPUs de Google, que son procesadores especializados en tareas de inteligencia artificial, similares a los GPUs de Nvidia.
¿Por qué es importante AlphaChip?
El diseño de chips es un proceso complejo que tradicionalmente puede llevar semanas o incluso meses de trabajo humano. AlphaChip reduce este tiempo a horas, generando diseños que Google describe como «superhumanos». Esto no solo acelera la creación de hardware más potente, sino que también permite a las compañías experimentar con nuevas arquitecturas de manera mucho más ágil.
Además, Google ha publicado un checkpoint preentrenado de AlphaChip en GitHub, lo que significa que la comunidad de desarrolladores puede ahora experimentar con la tecnología y adaptarla a sus propios proyectos. Empresas como MediaTek ya están utilizando AlphaChip para desarrollar sus propios procesadores, lo que indica el impacto que esta tecnología podría tener en el futuro del diseño de chips.
¿Qué podemos esperar en el futuro?
Con estas actualizaciones, queda claro que Google y Meta no están dispuestos a dejar que OpenAI se lleve todo el protagonismo. Las mejoras en Gemini y Llama 3.2 no solo suben el estándar en términos de rendimiento y accesibilidad, sino que también abren nuevas posibilidades para desarrolladores y empresas que desean integrar IA en sus productos.
En WWWhatsnew.com, siempre estamos atentos a cómo estas tecnologías pueden impactar tanto a desarrolladores como a usuarios finales. Con el ritmo de innovación que estamos viendo, es probable que en los próximos meses se anuncien aún más avances, especialmente en cómo estos modelos de IA pueden ser utilizados de manera práctica en la vida cotidiana.