Google Gemini incorpora una herramienta de edición de imágenes con marcadores manuales

Publicado el

Ilustración colorida que representa un robot de IA ayudando a editar imágenes y resumir documentos desde el Explorador de Archivos en Windows 11, con una interfaz gráfica alegre y moderna.

Google ha dado un paso importante en la integración de herramientas de edición de imágenes dentro de su ecosistema impulsado por inteligencia artificial. Con la reciente incorporación de una función de marcado manual en Google Gemini, los usuarios ahora pueden interactuar directamente con sus imágenes, señalando de manera precisa las áreas que desean modificar. Esta nueva capacidad, que está comenzando a desplegarse gradualmente, representa una mejora sustancial respecto a las funciones anteriores de edición, que no permitían ese nivel de especificidad visual.

Cómo funciona la nueva herramienta de marcado en Gemini

Cuando el usuario adjunta una imagen en una conversación con Gemini, ya sea tomada desde la cámara o seleccionada desde la galería, aparece un aviso que permite acceder a la función de marcado. Al tocar la imagen, se despliega una fila de colores para que el usuario pueda dibujar, subrayar o encerrar en un círculo las partes del contenido que desea modificar o analizar. Esta interacción recuerda a cuando se señala con un rotulador en una hoja impresa: directo, intuitivo y claro.

Por defecto, la opción activada es «Sketch», que permite dibujar libremente sobre la imagen. También está disponible una opción de «Text» que ofrece la posibilidad de describir directamente sobre la imagen el cambio deseado. Estas funciones están también disponibles en la versión de escritorio del chatbot, lo que extiende la utilidad a quienes trabajan desde ordenadores.

Ventajas y limitaciones actuales del marcado manual

Una de las ventajas más notables de esta herramienta es que permite hacer ediciones precisas o aclarar el foco de una consulta visual sin necesidad de describir con palabras lo que se quiere modificar. Esta interacción visual facilita la comunicación entre el usuario y la inteligencia artificial, sobre todo en contextos donde las palabras podrían generar ambigüedades.

La función también permite identificar personas u objetos dentro de una imagen simplemente encerrándolos con un círculo. Esta capacidad recuerda al funcionamiento de «Circle to Search», ya disponible en algunos dispositivos Android, aunque no siempre con resultados certeros. De hecho, en pruebas realizadas por Android Authority, se detectaron errores al intentar identificar a una persona a través de este método, lo que sugiere que la función está todavía en desarrollo y puede no ofrecer resultados fiables en todos los casos.

Disponibilidad y condiciones de uso

Esta función de marcado manual está siendo desplegada progresivamente para usuarios de la aplicación de Google, concretamente en su versión 16.49.59. Está disponible incluso para quienes utilizan cuentas gratuitas de Gemini, sin necesidad de suscripción premium. En caso de no verla activa, se recomienda forzar el cierre de la aplicación y volver a abrirla, aunque también es posible que simplemente no se haya activado aún para esa cuenta, dada la naturaleza limitada del lanzamiento inicial.

Actualmente no hay documentación oficial publicada por Google sobre esta función, lo cual refuerza la idea de que se trata de una prueba temprana, posiblemente como parte de un experimento A/B para evaluar su recepción y funcionamiento en condiciones reales.

Un paso más en la interacción visual con la IA

Aunque Gemini ya contaba con capacidades para editar imágenes con IA, estas se veían limitadas por la falta de una herramienta que permitiera al usuario especificar claramente qué parte de la imagen necesitaba cambiar. Esta nueva incorporación llena ese vacío, haciendo que la edición visual sea más accesible y mucho más intuitiva.

Es un poco como pasar de darle instrucciones a alguien por teléfono a simplemente señalar lo que se quiere. En lugar de explicar «la persona en el extremo izquierdo con camisa azul», el usuario ahora puede simplemente hacer un círculo alrededor de esa persona y escribir «quitar fondo» o «mejorar nitidez».

Impacto en la demanda y uso de Gemini

La suma de herramientas como esta ha llevado a un incremento en el uso de Google Gemini, particularmente entre usuarios que buscan soluciones rápidas y visuales sin tener que dominar programas avanzados de edición. Este aumento ha sido tan notable que Google se ha visto obligado a reducir los límites de uso para quienes están en el nivel gratuito del servicio, como una forma de equilibrar la demanda y garantizar la estabilidad del sistema.

Estas restricciones han sido una señal clara de la creciente dependencia de los usuarios de las funciones visuales y multimedia del asistente, que va mucho más allá del texto generado por IA. Gemini está evolucionando hacia una plataforma mucho más interactiva, donde el componente visual tiene un peso cada vez mayor.

El futuro de las herramientas visuales en la IA de consumo

El despliegue de esta herramienta de marcado no es un hecho aislado, sino parte de una estrategia más amplia de Google para convertir a Gemini en un entorno donde las personas puedan comunicarse con la IA de forma natural, ya sea escribiendo, hablando o dibujando sobre imágenes. Este enfoque multimodal facilita la inclusión de diferentes perfiles de usuario, desde quienes tienen experiencia técnica hasta quienes buscan soluciones sencillas y sin complicaciones.

Aunque la función aún presenta algunas imprecisiones, su potencial es claro: permitir una interacción más humana con la tecnología, basada en gestos y señales visuales que nos son familiares desde la infancia. El marcado de imágenes con Gemini podría convertirse en una herramienta esencial para educadores, diseñadores, creadores de contenido y usuarios cotidianos que solo quieren editar una foto de forma más simple.