PaliGemma y Gemma 2: Qué son y para qué las ha creado Google

Google ha lanzado dos nuevas propuestas que están captando la atención de desarrolladores y científicos por igual: PaliGemma y Gemma 2. Estos modelos prometen elevar la barra en términos de rendimiento y accesibilidad, y reflejan un compromiso continuo con el desarrollo responsable de la inteligencia artificial. Vamos a desgranar qué hacen especial a cada uno de estos lanzamientos y cómo podrían transformar el campo de la IA.

PaliGemma: Un modelo híbrido para conquistar la visión y el lenguaje

El nuevo modelo de Google, PaliGemma, es una propuesta abierta de modelo de visión-lenguaje (VLM) que integra capacidades avanzadas para entender y describir contenido visual. Inspirado en el éxito de su predecesor PaLI-3, PaliGemma combina lo mejor de dos mundos: el modelo de visión SigLIP y el modelo de lenguaje Gemma, ofreciendo una solución robusta para tareas que requieren una comprensión integrada de imágenes y texto.

Este modelo no solo es capaz de generar descripciones precisas de imágenes y videos cortos, sino que también responde preguntas visuales con una precisión impresionante y realiza detección y segmentación de objetos de forma eficaz. Lo mejor de todo es que Google ha hecho este modelo accesible para todos, con opciones de preentrenamiento y ajuste fino disponibles en plataformas como GitHub, Kaggle y Hugging Face models. La inclusión de PaliGemma en estos espacios fomenta una investigación abierta y colaborativa, permitiendo que investigadores y desarrolladores exploren sus capacidades sin restricciones.

Podéis probarlo en huggingface.co

Gemma 2: Definiendo el futuro con eficiencia y rendimiento

Por otro lado, la anticipación crece alrededor de Gemma 2, la próxima generación del modelo Gemma. Este modelo está configurado para ser un gigante en términos de rendimiento, con 27 mil millones de parámetros que prometen una eficacia comparativa a modelos mucho mayores. Gemma 2 no solo destaca por su potencia, sino también por su diseño eficiente que reduce significativamente los costos de despliegue.

El modelo ha sido optimizado para funcionar tanto en GPUs de NVIDIA como en TPUs de Vertex AI, facilitando su adopción en una variedad de entornos de desarrollo. La flexibilidad de Gemma 2 se extiende a su compatibilidad con múltiples herramientas y plataformas, asegurando que los desarrolladores puedan afinar y desplegar el modelo con facilidad y eficiencia.

Compromiso con la IA responsable

Mientras que la potencia y la accesibilidad de estos modelos son impresionantes, Google también está reforzando su compromiso con el desarrollo responsable de la IA. El lanzamiento de una versión ampliada de su Toolkit Generativo de IA Responsable es testimonio de ello. Esta herramienta, especialmente el LLM Comparator, permite a los desarrolladores evaluar de manera efectiva y visual la calidad y la seguridad de las respuestas de los modelos.

Este tipo de herramientas son esenciales para garantizar que los avances en IA sean seguros y éticos. La capacidad de comparar modelos lado a lado, tal y como lo vemos en el blog de Google, ayuda a identificar rápidamente áreas de mejora y asegura que las aplicaciones desarrolladas no solo sean potentes, sino también confiables.