Lapsus$ filtra 4 TB con voces y DNIs de 40.000 colaboradores de Mercor: el robo que demuestra que tu voz ya es una contraseña permanente

Publicado el

Participante del estudio usando tecnología de síntesis de voz basada en interfaz cerebro-computadora

El grupo de extorsión Lapsus$ publicó el 4 de abril de 2026 en su sitio de filtraciones un dump de aproximadamente cuatro terabytes con datos biométricos sustraídos de Mercor, una de las plataformas más usadas para reclutar contratistas que entrenan modelos de IA. El archivo, según el índice filtrado, contiene grabaciones de voz, escaneos de documentos de identidad emitidos por gobiernos y selfies de verificación de más de 40.000 personas. Los contratistas se habían inscrito para etiquetar datos, leer pasajes en voz alta y completar llamadas de validación destinadas a entrenamiento de modelos de IA. En diez días siguientes a la publicación se interpusieron cinco demandas colectivas. Los demandantes argumentan que Mercor recogió las huellas vocales bajo el marco de «datos de entrenamiento» sin dejar claro a los participantes que también constituían un identificador biométrico permanente. Pero el problema más urgente no es jurídico: las personas cuya voz ya está exfiltrada se enfrentan a una pregunta concreta sobre qué puede hacer un atacante con treinta segundos de audio nítido y una imagen de su carnet de conducir.

La respuesta corta es: bastante. Wall Street Journal informó en febrero de 2026 que la clonación de voz de alta calidad requiere actualmente unos quince segundos de audio limpio de referencia con herramientas comerciales disponibles. Las grabaciones de Mercor promedian entre dos y cinco minutos de audio en condiciones de estudio por contratista. Eso está muy por encima del umbral técnico. Si a la voz clonada se suma un escaneo de DNI o pasaporte ya verificado, el atacante tiene a la vez el clon y la credencial necesaria para hacerlo trabajar.

Por qué este filtrado es estructuralmente distinto

La mayoría de filtraciones de voz de la última década han caído en una de dos categorías. O bien un call center es comprometido y se roban grabaciones sin manera fácil de mapearlas a una identidad concreta. O bien un broker de documentos identificativos pierde un lote de carnets y selfies sin audio asociado. Mercor fusionaba ambas columnas en una sola fila de base de datos. El proceso de onboarding del contratista pedía un escaneo de pasaporte o carnet, después un selfie con webcam y, al final, una grabación de voz leyendo prompts en una habitación silenciosa. Esa secuencia, en una sola línea de un solo CSV, es exactamente lo que necesita un servicio de clonación sintética de voz para producir un duplicado funcional.

El asunto de la clonación de voz para fraude financiero no es teórico. La biometría de voz ya está siendo objeto de ataques sofisticados, hasta el punto de que un banco de Emiratos Árabes Unidos perdió 35 millones de dólares en 2021 cuando los ciberdelincuentes clonaron la voz de un alto directivo para autorizar transferencias, y Serban Biometrics y otras empresas de seguridad llevan desde entonces advirtiendo que la voz necesita defensas adicionales más allá del simple voiceprint matching.

Los vectores de ataque ya documentados

No hace falta especular sobre lo que un atacante puede hacer con este material. Cada técnica que viene a continuación está documentada en casos previos.

Primero, el bypass de verificación bancaria. Varios bancos en Estados Unidos y Reino Unido siguen tratando el voiceprint matching como uno de los dos factores de autenticación. Una clonación leyendo la frase de desafío supera la barrera auditiva, dejando solo la pregunta de conocimiento personal, que con frecuencia se puede deducir del propio dataset filtrado.

Segundo, el vishing al empleador de la víctima. Llamar a Recursos Humanos o al departamento financiero haciéndose pasar por el empleado para redirigir nóminas, solicitar una transferencia o desbloquear un puesto de trabajo es una técnica que se ha multiplicado desde 2024.

Tercero, las estafas románticas y del abuelo dirigidas a familiares. El IC3 del FBI registró 2.300 millones de dólares en pérdidas en 2026 entre víctimas mayores de 60 años. La categoría que crece más rápido es la suplantación en llamadas de emergencia, donde la voz sintética asegura ser un familiar en problemas.

El fenómeno de las llamadas falsas con voz clonada es exactamente lo que los estafadores están explotando con generadores de voz IA, en lo que la FTC categoriza como «estafas de impostores»: delincuentes fingen ser un familiar para engañar a víctimas, generalmente personas mayores, exigiendo dinero en escenarios falsos como un secuestro de niños.

Qué hacer si tu voz pudo estar en el dump

La voz no se puede rotar como una contraseña. Lo que sí se puede cambiar es lo que esa voz desbloquea. La lista corta de medidas defensivas es la siguiente.

Hacer una autoauditoría del propio rastro de audio público. Buscar en YouTube, directorios de podcasts y grabaciones antiguas de Zoom muestras de la propia voz que sean indexables. Retirar lo que se pueda. Cuanto menos audio de referencia haya en abierto, menos robusto será el clon que un atacante pueda fabricar. Establecer una palabra clave verbal con la familia y los contactos financieros, una palabra que solo se conoce entre las partes y que se pide cuando hay alguna duda sobre una llamada urgente. Llamar de vuelta usando un número conocido cuando se reciba una solicitud financiera por voz, sin importar lo convincente que parezca. Y, fundamentalmente, eliminar la verificación por voz como factor único en cualquier servicio que la ofrezca, especialmente bancos.

Es justamente este tipo de incidentes lo que ha empujado a plataformas como YouTube a desplegar herramientas para detectar deepfakes de rostro y voces cantadas mediante Content ID, permitiendo que actores, músicos y atletas identifiquen y gestionen contenidos generados por IA que imitan su identidad.

La parte estructural: el broker de datos de entrenamiento como problema regulatorio

Mercor es una de varias empresas que durante 2024 y 2025 construyó pipelines masivos de reclutamiento de contratistas para etiquetado y entrenamiento de IA. La consolidación del mercado dejó a unas pocas plataformas con bases de datos enormes de identidades verificadas con audio asociado. Esa concentración es el problema. Cuando un solo proveedor concentra cientos de miles de combinaciones biométricas verificadas, el incentivo para atacarlo crece exponencialmente. Lapsus$ no eligió Mercor por casualidad: eligió un objetivo donde el ROI del ataque era óptimo.

El marco regulatorio actual no está preparado. El RGPD en Europa trata las huellas vocales como datos biométricos sensibles y requiere consentimiento explícito y específico, no consentimiento bajo el paraguas de «entrenamiento de IA». Las demandas colectivas en Estados Unidos van a empujar la jurisprudencia en la dirección correcta, pero el daño a las 40.000 personas afectadas ya está hecho. La conversación que viene es si las plataformas de reclutamiento de contratistas deberían tener limitaciones sobre cuánta información biométrica pueden almacenar simultáneamente y por cuánto tiempo.

Mi valoración

Mercor es exactamente el incidente que el sector llevaba dos años esperando. La combinación de voz biométrica más documento identificativo verificado en un solo proveedor era una bomba de tiempo, y Lapsus$ ha sido el grupo que la hizo estallar. Lo que más me llama la atención es la respuesta del propio mercado de IA: silencio. OpenAI, Anthropic, Google y Meta usan datos de Mercor o de plataformas similares para entrenar sus modelos, y ninguna ha hecho una declaración pública sobre cómo este filtrado afecta sus pipelines. Es comprensible desde el punto de vista de PR, pero es exactamente la opacidad que va a empujar regulación más estricta. La hipótesis estructural que vale la pena verificar es si los plazos de retención de las plataformas de etiquetado pueden reducirse drásticamente sin perder utilidad. Si las grabaciones de los contratistas se pudieran borrar a los 90 días tras procesarse para entrenamiento (en lugar de mantenerse indefinidamente), el blast radius de un futuro Mercor sería mucho menor. La parte legalmente más interesante es el argumento de las demandas colectivas: que el consentimiento bajo el marco de «datos de entrenamiento» no cubre el uso biométrico. Si los tribunales acogen ese razonamiento, va a redefinir cómo se construyen los términos de uso de cualquier servicio que recoja audio. Esa es probablemente la consecuencia más duradera del incidente. Y para el lector que sospecha haber participado en este tipo de plataformas, el consejo no es entrar en pánico, sino actuar pragmáticamente. La voz no se puede rotar, pero la dependencia de la voz como factor de autenticación sí se puede eliminar. Hoy.

Preguntas frecuentes

¿Cómo sé si mi voz está en el dump filtrado? No hay una verificación pública oficial. Si participaste en alguna campaña de etiquetado de Mercor entre 2024 y 2026 y aportaste grabaciones de voz, lo prudente es asumir que tu material puede estar en el archivo y actuar en consecuencia.

¿Sirve cambiar la contraseña? Sí, pero el problema principal no son las contraseñas, es la combinación de voz biométrica más DNI verificado. Quita la verificación por voz como factor único y establece palabras clave verbales con familia y banco.

¿Qué pasa con las demandas colectivas? Cinco demandas se interpusieron en los diez días siguientes al post de Lapsus$. El argumento central es que el consentimiento por «datos de entrenamiento» no cubre el uso biométrico permanente. Si prosperan, marcarán precedente para todo el sector de etiquetado de datos para IA.