La programación por voz, el próximo paso en el desarrollo de software

Publicado el

programar con voz

Programar es una actividad a la que tienen acceso solo unos pocos. No es sencillo, por mucho que algunos prometan cursos de 20 horas de «cero a experto» en Javascript y cosas semejantes, requiere años de experiencia para poder ser un programador decente, que haga código optimizado, adaptado a la plataforma, bien documentado… en fin, para programar como un profesional hay que dedicarse al tema más de 20 horas.

El caso es que este sector está en constante evolución. Que si frameworks, que si nuevos lenguajes… pero ahora parece que entra una variable más, la voz.

Lo leemos en un artículo de spectrum.ieee.org, donde comentan dos plataformas que realizan el paso de voz a código:

Serenade, un asistente digital que escribe los comandos sin exigir que necesariamente dictemos cada instrucción palabra por palabra. Tiene un motor de conversión de voz a texto desarrollado específicamente para código, a diferencia de la API de voz a texto de Google, que está diseñada para voz conversacional. Cuenta con modelos de aprendizaje automático entrenados para identificar y traducir construcciones de programación comunes en código sintácticamente válido. Recaudó 2,1 millones de dólares en una ronda de financiación inicial en 2020.

Talon, que da más control sobre cada línea, y requiere que tengamos más comprensión sobre cada tarea que se programa en la máquina. Tiene varios componentes: reconocimiento de voz, seguimiento ocular y reconocimiento de ruido. El motor de reconocimiento de voz de Talon se basa en el sistema de reconocimiento de voz automático Wav2letter de Facebook, mientras que las capacidades de seguimiento ocular y reconocimiento de ruido simulan la navegación con un mouse, el movimiento del cursor por la pantalla según los movimientos de los ojos y los clics basados ​​en los ruidos de la boca.

Si los comparamos, Serenade sigue una forma más natural de hablar código, mientras que Talon parece otro idioma, requiere más esfuerzo.

Hay otras plataformas de codificación de voz de código abierto, como Aenea y Caster, que son gratuitas, pero ambas dependen del motor de reconocimiento de voz Dragon, que los usuarios tendrán que comprar. Caster ofrece soporte para Kaldi, un kit de herramientas de reconocimiento de voz de código abierto, y Windows Speech Recognition, que viene preinstalado en Windows.

Sea como sea, la codificación de voz está todavía en su infancia, más orientada a quien tiene algún límite a la hora de teclear, ya que de momento no es posible hablar de forma natural sobre lo que queremos y ver el código correspondiente en pantalla.