Así es Gemini, el nuevo modelo de IA de Google que supera a los de su competencia

Fco. José Hidalgo

hace 1 año

Gracias a la competición que se está dando entre algunas grandes tecnológicas en el ámbito de la Inteligencia Artificial, al objeto de desarrollar y lanzar al mercado el modelo de Inteligencia Artificial definitivo que más y mejores prestaciones pueda llegar a ofrecer tanto a usuarios como a desarrolladores, el equipo de Google DeepMind, la división de IA de Google, se encuentra ahora presentando el lanzamiento oficial de Gemini, considerado como su «modelo de IA más grande y capaz».

Consideran que Gemini es un importante avance en cuanto la IA puede ayudar a las personas en la mejora de su vida diaria, siendo una plataforma intermoda, es decir, capaz de trabajar con distintos tipos de información, ya sean textos, imágenes, códigos de programación, entre otros, así como el más flexible, hasta el punto de lanzar la primera versión de este modelo en tres variantes diferentes:

Variantes Gemini

– Gemini Ultra – el más potente y de mayor tamaño, enfocado para tareas más complejas
– Gemini Pro – el modelo dedicado a una gama amplia de tareas
– Gemini Nano – el modelo más eficiente capaz de funcionar en dispositivos

Llegando a los usuarios

Sin ir más lejos, Google Bard desde hoy ya se encuentra utilizando una versión optimizada de Gemini Pro, que según la compañía, le permitirá ofrecer a los usuarios «razonamientos más avanzados, planificación, comprensión y mucho más», pudiéndose hacer uso desde hoy mismo en más de 170 países en inglés, aunque ya se está trabajando para que en un futuro sea capaz de ofrecer distintas modalidades y llegar a más lugares y soportar otros idiomas.

Con idea de llegar a millones de usuarios, Google también se encuentra trabajando para que Gemini Pro se encuentre en otros productos, anunciando que en los próximos meses llegará también a. Buscador, Ads, Chrome y Duet AI.

Mientras tanto, la compañía ya se encuentra trabajando también para el lanzamiento de una versión avanzada de Bard, que estará basada en la variante Gemini Ultra, que se puede ver como el qeuivalente al GPT-4 Ultra, aunque acorde a Google, Gemini supera a GPT-4 de OpenAI en muchos aspectos.

Pero antes, Gemini Ultra se pondrá a disposición de «determinados clientes, desarrolladores, socios y expertos en seguridad y responsabilidad» para que lleguen a ser los primeros en probarlos y ofrecer sus opiniones de manera que, con algunos ajustes más, pueda llevarse a cabo el lanzamiento oficial.

Pero hablando de variantes, fijémonos en la variante Nano, que será el modelo que se integre en los móviles Pixel 8 Pro para impulsar el funcionamiento de funciones como «Resumir en la Grabadora o utilizar la Respuesta inteligente de Gboard desde WhatsApp», avanzando además de que esta última función se expandirá a otras plataformas de mensajería para el próximo año.

Del lado de los desarrolladores

De cara a los desarrolladores, Google señala que a partir del próximo 13 de diciembre, Gemini Pro se pondrá a disposición de desarrolladores y clientes empresariales a través de la API Gemini en Google AI Studio o Vertex AI.

Sobre Google AI Studio señalan que es una herramienta gratuita basada en la web que permite a desarrolladores y clientes empresariales crear prototipos y lanzar aplicaciones rápidamente a través de una clave API.

Esto sin duda acelerará muchos desarrollos y ya habrá quienes estén contando las horas para ser los primeros en lanzar sus aplicaciones al mercado. Sobre Vertex AI señala que es una plataforma de IA totalmente gestionada que permite la personalización de Gemini con un control total de los datos y beneficiándose de funciones adicionales de Google Cloud para aspectos como «la seguridad, la protección, la privacidad y la gobernanza y el cumplimiento de los datos por parte de las empresas».

Para los desarrolladores de aplicaciones en Android, Google apunta a AICore como una nueva capacidad del sistema, disponible en Android 14, que les permitirá desarrollar aplicaciones en base a Gemini Nano.

Más adelante, Google expandirá Gemini Nano para que se pueda ejecutar también móviles bajo plataformas Qualcomm, MediaTek y Samsung. Los interesados ya pueden solicitar un avance y disponer inicialmente de dispositivos Pixel 8 Pro para acceder a esta capacidad del sistema.

Un rendimiento sin igual

A niveles de rendimiento, Google ha querido sacar pecho señalando que dispone de capacidades de razonamiento multimondal sofisticadas hasta el punto de ser «excepcionalmente hábil para extraer conocimientos difíciles de identificar entre ingentes cantidades de datos».

Gemini 1.0 ha sido capacitado para conocer y entender contenidos como textos, imágenes y otros tipos de contenidos, pero además es bastante eficaz en la gestión de los detalles disponibles en las informaciones hasta el punto de ser capaz de responder a preguntas complejas.

Con respecto, a la competencia, exponen a Gemini Ultra como el modelo capaz de supera los resultados más avanzados en 30 de las 32 cotas académicas de uso generalizado, empleadas en la investigación y el desarrollo de grandes modelos lingüísticos (LLM), y obtiene una puntuación del 90,0% en comprensión masiva del lenguaje multitarea, siendo el primer modelo que supera a los expertos humanos en materias como matemáticas, física, historia, derecho, entre otras.

Y añaden:

Nuestro nuevo enfoque de referencia para MMLU permite a Gemini utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder a preguntas difíciles, lo que se traduce en mejoras significativas con respecto a la primera impresión.

Y por último, Google dice que Gemini Ultra obtiene un 9,4% de puntuación en la nueva cota de referencia MMMU, consistente en realizar tareas multimodales en diferentes ámbitos para los que requieren un razonamiento deliberado.

Google ha preparado un informe más técnico para quienes quieran conocer todos los detalles.

Con las medidas de seguridad más exhaustivas

Aspectos también a tener en consideración. Google dice que en base a sus Principios de IA de Google y sus sólidas políticas de seguridad, ha estado agregando protecciones adaptadas a las capacidades multimodales de Gemini en cada capa de desarrollo con el fin de mitigar los riesgos potenciales.

Además, cuenta con las evaluaciones de seguridad más exhaustivas de todos los llevados en los modelos de IA de Google hasta la fecha, incluyendo medidas ontra sesgos y toxicidad.

Y añaden:

Hemos realizado investigaciones novedosas en posibles áreas de riesgo, como la ciberdelincuencia, la persuasión y la autonomía, y hemos aplicado las mejores técnicas de pruebas de adversarios de Google Research para identificar problemas de seguridad críticos antes del despliegue de Gemini.

Más información/Créditos de imagen: Google