En el ámbito de la inteligencia artificial, la transcripción de audio ha avanzado significativamente, pero siempre ha existido una preocupación latente: ¿cómo proteger la información sensible durante este proceso? La startup israelí aiOla ha dado un paso adelante con Whisper-NER, un modelo de código abierto que no solo transcribe el habla, sino que también identifica y enmascara información sensible en tiempo real.
Integración de ASR y NER para una mayor privacidad
Whisper-NER se basa en el modelo Whisper de OpenAI, reconocido por su precisión en la transcripción de audio. La innovación de aiOla radica en combinar el reconocimiento automático del habla (ASR) con el reconocimiento de entidades nombradas (NER). Esta fusión permite que, durante la transcripción, el modelo detecte y oculte automáticamente datos sensibles como nombres, números de teléfono y direcciones. Al integrar ambos procesos, se eliminan etapas intermedias donde la información podría estar expuesta, reduciendo así el riesgo de filtraciones.
Accesibilidad y adaptabilidad gracias al código abierto
Una de las características más destacadas de Whisper-NER es su naturaleza de código abierto bajo la licencia MIT. Esto significa que empresas y desarrolladores pueden adoptar, modificar y desplegar el modelo según sus necesidades específicas, incluso para aplicaciones comerciales. La disponibilidad del modelo en plataformas como GitHub y Hugging Face facilita su acceso y fomenta la colaboración comunitaria. Según Gill Hetz, vicepresidente de investigación en aiOla, «La IA avanza cuando las personas colaboran. Por eso hemos hecho este modelo de código abierto: para alentar la adopción y mejora por parte de la comunidad».
Innovación en la protección de datos durante la transcripción
El entrenamiento de Whisper-NER se realizó utilizando un conjunto de datos sintéticos que combinan habla sintética y conjuntos de datos de NER basados en texto. Esta metodología permite que el modelo maneje simultáneamente tareas de transcripción y reconocimiento de entidades con alta precisión. Además, Whisper-NER soporta el aprendizaje de cero disparo, lo que le permite reconocer y enmascarar tipos de entidades que no fueron explícitamente incluidas durante su entrenamiento. Esta flexibilidad lo hace adecuado para diversas aplicaciones, desde el cumplimiento normativo hasta la gestión de inventarios y aseguramiento de la calidad.
Un paso hacia una IA ética y adaptable
Whisper-NER representa un avance significativo en el desarrollo de IA ética, al priorizar la seguridad y privacidad de los datos durante la transcripción. Su disponibilidad como código abierto asegura que desarrolladores, investigadores y organizaciones puedan incorporarlo libremente en sus operaciones, reduciendo los riesgos asociados con brechas de datos. Como hemos mencionado en varias ocasiones en WWWhat’s New, la adopción de herramientas de código abierto no solo impulsa la innovación, sino que también promueve prácticas más seguras y transparentes en el uso de la tecnología.
La introducción de Whisper-NER por parte de aiOla marca un hito en la transcripción de audio, al abordar de manera efectiva las preocupaciones sobre la privacidad de los datos. Al combinar ASR y NER en un solo proceso y ofrecer la herramienta como código abierto, aiOla no solo mejora la eficiencia de la transcripción, sino que también establece un estándar más alto en la protección de la información sensible. Desde WWWhat’s New, creemos que iniciativas como esta son esenciales para construir un futuro donde la tecnología y la privacidad coexistan armoniosamente.