Mistral OCR 4: extracción documental estructurada en contenedor único, 170 idiomas y 4 dólares por millar de páginas

Mistral AI lanzó el 23 de junio de 2026 su cuarta generación de modelo de reconocimiento óptico de caracteres, y la novedad más relevante no es la precisión: es que OCR 4 deja de ser un OCR en el sentido clásico para convertirse en una herramienta de inteligencia documental estructurada. Lo cuenta VentureBeat y lo detalla la propia Mistral en su blog oficial. En lugar de devolver solo texto extraído, OCR 4 devuelve una representación completa de cada página: texto con su posición exacta en la página (bounding boxes), tipo de bloque (títulos, tablas, ecuaciones, firmas) y puntuación de confianza por palabra y por página. Todo eso desplegable en tu propio servidor, sin que los documentos salgan de tu infraestructura.

Es la cuarta generación en aproximadamente 15 meses, un ritmo de iteración que dice más sobre la posición estratégica de Mistral que sobre su destreza técnica aislada.

Más allá del OCR tradicional: qué devuelve OCR 4 que los demás no dan

Un OCR convencional convierte un PDF escaneado o una imagen en texto legible por máquina. OCR 4 hace eso y tres cosas más en un único paso:

Los bounding boxes localizan cada bloque de texto en coordenadas de píxel dentro de la página. Eso permite a los sistemas posteriores saber dónde está exactamente una cláusula en un contrato, qué columna corresponde a qué dato en una tabla o dónde empieza una firma. Es la función más solicitada por los usuarios de versiones anteriores según Mistral.

La clasificación de bloques etiqueta automáticamente cada elemento: esto es un título, esto es una tabla, esto es una ecuación matemática, esto es texto de párrafo, esto es una firma. Para un sistema de extracción de facturas, esa diferencia es fundamental: no es lo mismo extraer el número de una factura (que aparece en un campo de tabla) que el texto de un contrato (que aparece en párrafo continuo).

Las puntuaciones de confianza por palabra y por página permiten a los equipos automatizar el enrutamiento: las regiones con alta confianza se aprueban automáticamente, las de baja confianza se mandan a revisión humana. Eso hace viable el procesamiento masivo de documentos sin supervisión humana página a página.

En benchmarks independientes, anotadores humanos prefirieron OCR 4 sobre todos los sistemas evaluados en el 72% de los casos, sobre más de 600 documentos reales en más de 12 idiomas. El modelo logra una puntuación de 85,20 en OlmOCRBench, el benchmark de referencia del sector, superando a Google Document AI y Amazon Textract en varios benchmarks de extracción de tablas y texto multilingual.

El precio: 4 dólares (≈ 3,52 euros) por cada 1.000 páginas en la API estándar, 2 dólares (≈ 1,76 euros) en modo Batch. En comparación, Google Document AI cobra aproximadamente 5 dólares por 1.000 páginas.

La ventaja europea: datos que no salen de tu servidor

El argumento de venta más potente de OCR 4 no es el precio ni los benchmarks: es la opción de desplegarlo en un contenedor único dentro de tu propia infraestructura. Eso significa que los documentos de tus clientes, tus contratos o tus historias médicas nunca salen de tus servidores. Nunca viajan a un API externo. Nunca pasan por una jurisdicción legal que no controlas.

Mistral es una empresa francesa operada bajo jurisdicción de la UE. Los demás competidores en este espacio —Google Document AI, Amazon Textract, Azure Document Intelligence— son compañías estadounidenses. Para empresas europeas en sectores regulados, la diferencia entre «datos almacenados en Frankfurt pero gobernados por ley estadounidense» y «datos que nunca salen de mi servidor bajo GDPR» no es menor.

La presión temporal también ayuda a Mistral: el 2 de agosto de 2026 entran en vigor las disposiciones de sanción del EU AI Act, lo que añade urgencia a la decisión de muchas organizaciones europeas sobre qué proveedor de IA usar para documentos sensibles.

Llevo siguiendo el ecosistema Mistral desde su primera ronda en 2023, y la apuesta por soberanía de datos ya se veía claramente en Mistral Forge, su plataforma de entrenamiento sin ceder datos a la nube: la empresa construye cada producto pensando en el argumento regulatorio europeo. OCR 4 es coherente con esa estrategia.

OCR 4 está disponible en la API de Mistral, en Amazon SageMaker, en Microsoft Foundry y pronto en Snowflake. También se integra con el Mistral Search Toolkit, la plataforma de búsqueda empresarial que permite construir pipelines de RAG desde la ingesta hasta las respuestas con citas.

El negocio detrás del OCR: Mistral busca justificar una valoración de 20.000 millones de euros

Paso atrás para ver el cuadro completo. OCR 4 no es solo un lanzamiento de producto: es parte de la narrativa financiera de Mistral de cara a su próxima ronda de financiación. Bloomberg informó recientemente que la empresa está en conversaciones para levantar aproximadamente 3.000 millones de euros (≈ 3.400 millones de dólares) a una valoración de 20.000 millones de euros, casi el doble de los 11.700 millones de su ronda Serie C de septiembre de 2025.

Para justificar esa valoración, Mistral necesita demostrar que puede generar ingresos empresariales reales. Le Monde ha publicado que la compañía apunta a 1.000 millones de euros en ingresos durante 2026, frente a los 200 millones de euros de 2025. Eso es un multiplicador por cinco en un año. Mistral Small 3.1 fue el primer modelo que mostró que podían competir con los grandes con recursos menores; OCR 4 apunta a convertir esa competitividad técnica en ingresos recurrentes de grandes cuentas empresariales.

El mercado de procesamiento inteligente de documentos está valorado en 4.400 millones de dólares globalmente y crece a una tasa compuesta del 33,1% hasta 2030 según Grand View Research. No es un nicho pequeño, y OCR 4 está posicionado para captarlo a través del argumento de soberanía de datos que sus competidores estadounidenses no pueden ofrecer con la misma credibilidad.

La lógica de fidelización es también relevante: una empresa que adopta OCR 4 para ingesta de documentos tiene una razón para seguir en el stack de Mistral para el resto del pipeline. Le Chat Enterprise con el modelo Mistral Medium 3 ofrece el asistente empresarial; Vibe ofrece el agente de tareas largas. OCR 4 es la puerta de entrada por la que entran los documentos.

Mi valoración

Desde que empecé a analizar herramientas de extracción de documentos con IA en 2023, el argumento de «soberanía de datos» ha pasado de ser marketing europeo a ser un requisito legal concreto. OCR 4 llega en el momento exacto en que ese argumento tiene más peso.

Lo que más me convence es la combinación de precio y capacidades estructuradas. Cuatro dólares por millar de páginas con bounding boxes, clasificación de bloques y puntuaciones de confianza es una propuesta concreta para departamentos de IT que necesitan presupuestar proyectos. No es un servicio de «paga por lo que usas sin saber cuánto».

Lo que más me preocupa es que la afirmación de liderazgo en benchmarks viene principalmente de evaluaciones de Mistral o de métricas diseñadas por la comunidad de documento-IA. El pragmatismo de Hacker News es más ilustrativo: «el OCR sigue siendo complicado en 2026» escribió un usuario con diez años en el sector. OCR 4 puede ser el mejor modelo disponible y aun así fallar en documentos específicos con formatos complejos o idiomas minoritarios.

Lo más estructuralmente significativo es el webinar de producción programado para el 7 de julio de 2026, con demos en vivo y preguntas. Que Mistral haga eso en lugar de solo publicar una nota técnica sugiere que está priorizando la adopción empresarial por encima de la visibilidad en redes sociales técnicas.

La pregunta a 12 meses: ¿puede Mistral convertir el éxito técnico de OCR 4 en contratos empresariales reales suficientes para justificar la valoración de 20.000 millones de euros que busca? El modelo es sólido. La ejecución comercial es el reto.

Preguntas frecuentes

¿En qué se diferencia OCR 4 de Google Document AI o Amazon Textract?

OCR 4 devuelve más información estructural que los OCR convencionales: bounding boxes por bloque, clasificación del tipo de bloque y puntuaciones de confianza por palabra y por página. Además, puede desplegarse como contenedor único en infraestructura propia, lo que ninguno de sus competidores estadounidenses puede ofrecer con el mismo nivel de aislamiento de datos. En precio, OCR 4 cobra 4 dólares por 1.000 páginas frente a los 5 dólares aproximados de Google Document AI.

¿Qué formatos de documento acepta OCR 4?

OCR 4 acepta PDF, DOC, PPT y OpenDocument. Soporta 170 idiomas agrupados en 10 grupos lingüísticos, con mejoras específicas en idiomas poco frecuentes y con recursos escasos donde otros sistemas tienen mayor tasa de error.

¿Puedo usar OCR 4 sin escribir código?

Sí. OCR 4 está disponible también a través de Document AI en Mistral Studio, una interfaz sin código que permite procesar documentos y configurar esquemas de extracción directamente en el navegador. Para integración en pipelines propios, existe la API estándar disponible también en Amazon SageMaker y Microsoft Foundry.