En aplicaciones de empresa, la diferencia entre una IA que “parece viva” y otra que se siente torpe suele estar en un detalle que no sale en los anuncios: el tiempo hasta el primer token. Es ese instante inicial en el que el sistema todavía no ha empezado a contestar. Si tarda dos segundos en arrancar, la conversación se rompe como cuando llamas por teléfono y la otra persona tarda demasiado en responder: no es que no sepa, es que la sensación de fluidez desaparece.
Con Gemini 3.1 Flash-Lite, Google pone el foco precisamente ahí. Según datos compartidos por la compañía y recogidos por VentureBeat, este modelo mejora frente a su antecesor Gemini 2.5 Flash con un “arranque” 2,5 veces más rápido, y sube la velocidad de generación total un 45%, hasta 363 tokens por segundo frente a 249. La idea es sencilla: que la IA no solo sea correcta, sino que llegue a tiempo, como un compañero de equipo que te contesta al momento en un chat interno. Continúa leyendo «Gemini 3.1 Flash-Lite: el modelo “rápido y barato” con el que Google quiere poner la IA a trabajar a escala»