ChatGPT da un gran salto: ahora puede interpretar videos en tiempo real

En una jugada esperada por muchos, OpenAI finalmente ha lanzado las capacidades de análisis de video en tiempo real para ChatGPT, una característica que había sido presentada hace casi siete meses. Este desarrollo supone una ampliación significativa de las funcionalidades del modelo, consolidándolo como una herramienta más interactiva y versátil.

La evolución de ChatGPT: combinando voz y visión

Con esta actualización, el Advanced Voice Mode, conocido por su capacidad de mantener conversaciones fluidas y naturales, incorpora ahora una funcionalidad visual. Esto significa que los usuarios que cuenten con una suscripción a ChatGPT Plus, Team o Pro podrán utilizar la cámara de sus dispositivos para apuntar a objetos y recibir respuestas detalladas en tiempo real. Por ejemplo, podría identificar un dispositivo electrónico y explicar cómo usarlo o analizar una hoja de cálculo y sugerir soluciones a problemas específicos.

Esta nueva capacidad también permite a ChatGPT interpretar lo que está en la pantalla del dispositivo a través de la opción de compartir pantalla. Desde explicar configuraciones complejas hasta resolver dudas matemáticas, esta herramienta busca ser un aliado versátil tanto en el ámbito profesional como en el educativo.

Para activar el modo de voz avanzada con visión, los usuarios deben seleccionar el ícono de voz junto a la barra de ChatGPT y luego pulsar el botón de video ubicado en la parte inferior izquierda. En el caso del uso compartido de pantalla, el proceso es igual de sencillo: basta con acceder al menú de tres puntos y elegir la opción “Compartir pantalla”.

Un despliegue gradual con algunas limitaciones

El lanzamiento de esta funcionalidad comenzará el jueves y se completará en una semana. Sin embargo, no todos los usuarios tendrán acceso inmediato. Los suscriptores de ChatGPT Enterprise y Edu deberán esperar hasta enero, y para quienes están en la Unión Europea, Suiza, Islandia, Noruega o Liechtenstein, aún no hay una fecha definida.

Desde WWWhatsnew.com creemos que esta implementación escalonada refleja el compromiso de OpenAI con garantizar una experiencia estable y segura para sus usuarios. No obstante, también subraya la necesidad de que OpenAI ajuste sus procesos para evitar retrasos como los ocurridos en el pasado.

Un vistazo a su desempeño

En una demostración reciente, transmitida en el programa “60 Minutes” de CNN, el presidente de OpenAI, Greg Brockman, puso a prueba esta función. Durante el segmento, ChatGPT fue capaz de interpretar un dibujo anatómico realizado por Anderson Cooper, identificando correctamente el cerebro y ofreciendo retroalimentación sobre la forma y la ubicación del órgano. Sin embargo, también hubo errores, como una equivocación en un problema de geometría, evidenciando que la tecnología todavía está sujeta a alucinaciones (respuestas incorrectas generadas por el modelo).

Estos resultados mezclados subrayan tanto el potencial como las limitaciones actuales del sistema. En nuestra opinión, mientras estas herramientas sean revolucionarias, es crucial recordar que siguen siendo un apoyo y no una solución definitiva.

Retrasos y competencia en el horizonte

El camino hacia el lanzamiento no ha sido sencillo. Inicialmente anunciado para abril, Advanced Voice Mode con visión enfrentó varios retrasos debido a que OpenAI reveló la función mucho antes de estar lista para producción. Cuando finalmente se lanzó una versión preliminar en otoño, carecía del componente de análisis visual, limitándose al reconocimiento de voz.

Mientras tanto, competidores como Google y Meta no han permanecido inactivos. Esta semana, Google presentó su proyecto Astra, una función similar de inteligencia artificial que también analiza videos en tiempo real. Si bien está en una etapa de pruebas limitadas, es una clara señal de que el mercado de chatbots con capacidades avanzadas sigue evolucionando rápidamente.

Desde WWWhatsnew.com creemos que la competencia en este espacio es positiva. A medida que más empresas trabajen en estas tecnologías, es probable que veamos mejoras continuas en funcionalidad, accesibilidad y precisión.

El futuro de la inteligencia artificial conversacional

La llegada de Advanced Voice Mode con visión marca un antes y un después para ChatGPT y, más ampliamente, para las aplicaciones de inteligencia artificial conversacional. Sin embargo, también plantea preguntas importantes sobre cómo las herramientas de IA interactúan con los usuarios y qué tan confiables pueden ser en contextos críticos.

En WWWhatsnew.com hemos mencionado en diversas ocasiones que la clave para el éxito de estas tecnologías radica en equilibrar la innovación con la responsabilidad. Herramientas como estas tienen un potencial inmenso, pero su aplicación debe estar acompañada de garantías de privacidad, inclusión y ética.

Por ahora, lo que está claro es que OpenAI está decidido a mantenerse a la vanguardia en el desarrollo de modelos conversacionales, y los usuarios tienen mucho que esperar en los próximos meses.