Etiqueta: Google inferencia diferida baja latencia 2026

Google lanza Flex y Priority: dos modos de inferencia para su API que permiten elegir entre ahorrar hasta un 75% o ejecutar 2x más rápido con los mismos modelos

Google ha introducido dos nuevos modos de inferencia para su API de Gemini: Flex (procesamiento diferido con hasta un 75% de descuento) y Priority (ejecución con la latencia más baja posible, a 2x del precio estándar). Ambos modos usan exactamente los mismos modelos —Gemini 2.5 Flash, Pro y Gemma 4— sin diferencia en calidad de respuesta; la diferencia es cuándo y con qué prioridad se procesan las solicitudes. Continúa leyendo «Google lanza Flex y Priority: dos modos de inferencia para su API que permiten elegir entre ahorrar hasta un 75% o ejecutar 2x más rápido con los mismos modelos»