El mundo de la inteligencia artificial está lleno de avances emocionantes, y OpenAI, la compañía detrás de ChatGPT, no se queda atrás. Según recientes reportes, la función de video en tiempo real para ChatGPT podría estar más cerca de lo que imaginamos. Esta característica permitiría al modelo analizar lo que capta la cámara de un teléfono en tiempo real y ofrecer respuestas basadas en lo que observa.
¿Qué es la función de video en tiempo real de ChatGPT?
La función fue anunciada originalmente en el evento Spring Updates de OpenAI en mayo de este año. La idea detrás de esta herramienta es que ChatGPT pueda usar la cámara del dispositivo para interpretar el entorno del usuario. Por ejemplo:
- Escanear el interior de un refrigerador: El modelo podría identificar los ingredientes disponibles y sugerir recetas basadas en ellos.
- Analizar expresiones faciales: Una utilidad potencial sería captar estados emocionales y adaptar sus respuestas para empatizar con el usuario.
- Reconocimiento de objetos: Imagina apuntar tu cámara a un objeto desconocido y recibir una descripción o información al respecto.
En teoría, esto convertiría a ChatGPT en un asistente más dinámico y versátil, capaz de interactuar directamente con el mundo físico del usuario.
Avances recientes: evidencias en la beta de Android
Según un informe de Android Authority, se descubrieron indicios de esta función en el código de la última beta de ChatGPT para Android. Durante un análisis del archivo APK (Android Package Kit), se encontraron líneas de código que hacen referencia a términos como «Live camera» y «Beta», sugiriendo que esta herramienta aún está en desarrollo, pero podría ser lanzada pronto.
Además, una cadena de texto específica dice: «Toca el ícono de la cámara para permitir que ChatGPT vea e interactúe con tu entorno», lo que encaja con la descripción oficial presentada en mayo.
¿Qué más sabemos?
Aunque esta función aún no tiene una fecha de lanzamiento oficial, estos avances representan el progreso más significativo desde su anuncio inicial. OpenAI habría retrasado la implementación de la herramienta debido a preocupaciones relacionadas con la seguridad y privacidad de los usuarios, lo cual es crucial dado el acceso a datos sensibles que esta característica implicaría.
Además, se destaca que esta función no está diseñada para aplicaciones críticas como navegación en tiempo real o decisiones relacionadas con la salud o la seguridad, según advierte uno de los mensajes dentro del código.
La competencia no se queda atrás
OpenAI no es la única compañía trabajando en este tipo de tecnología. Google DeepMind presentó algo similar durante el evento Google I/O de este año. En el marco del Proyecto Astra, Google mostró cómo su modelo de IA podía interpretar el entorno utilizando la cámara del dispositivo. Durante la demostración, la herramienta reconoció objetos, predijo condiciones meteorológicas basadas en lo observado y recordó elementos de sesiones previas.
Aunque Google también ha guardado silencio respecto a la fecha de lanzamiento de esta funcionalidad, queda claro que la carrera por liderar el campo de la visión asistida por IA está en pleno apogeo.
Desde WWWhatsnew, creemos que esta tecnología tiene un enorme potencial para revolucionar la interacción entre humanos y máquinas. Sin embargo, también trae consigo una serie de retos relacionados con la privacidad, la seguridad y el uso responsable de los datos. En nuestra opinión, el éxito de esta herramienta dependerá no solo de su funcionalidad, sino también de la confianza que las empresas puedan generar en sus usuarios.
Si se implementa correctamente, la capacidad de analizar video en tiempo real podría transformar tareas cotidianas, haciendo más accesibles y prácticas soluciones basadas en inteligencia artificial. Por ejemplo, para personas con discapacidades visuales, esta función podría actuar como una herramienta inclusiva que facilite su día a día.