Nomic Embed: El modelo de embeddings que desafía a OpenAI con apertura total

En el mundo de la inteligencia artificial, la carrera por los mejores modelos de embeddings de texto ha estado dominada por nombres como OpenAI y Jina AI. Sin embargo, una nueva propuesta está marcando un antes y un después: Nomic Embed, un modelo que no solo promete alto rendimiento, sino que se construye sobre una filosofía clara: apertura total.

¿Qué significa esto? Que es un modelo open source, con datos abiertos, código de entrenamiento disponible, y completamente auditables. Pero vayamos paso a paso.

¿Qué son los embeddings de texto y para qué sirven?

Los text embeddings son representaciones numéricas de fragmentos de texto —como frases, párrafos o documentos— en forma de vectores. Estos vectores capturan el significado semántico del contenido y permiten compararlos entre sí, clasificarlos, buscarlos o visualizarlos.

Para visualizarlo con un ejemplo cotidiano, imagina que cada texto se convierte en un punto en un mapa tridimensional, y los textos parecidos entre sí se ubican más cerca unos de otros. Esto es esencial en tareas como búsqueda semántica, clasificación de contenidos, chatbots inteligentes y, sobre todo, en sistemas de RAG (retrieval-augmented generation) usados por modelos como GPT.

El desafío con los modelos actuales

Hasta ahora, modelos como text-embedding-ada-002 de OpenAI han sido los más usados, gracias a su rendimiento y a su capacidad para manejar textos largos (hasta 8192 tokens). Sin embargo, presentan varias limitaciones:

Son cerrados, lo que significa que no puedes ver ni auditar los datos ni el proceso con el que fueron entrenados.
No son reproducibles por terceros.
Dependes completamente del proveedor.

Por otro lado, opciones open source como E5-Mistral o jina-embeddings-v2 ofrecen cierta apertura, pero no logran superar en rendimiento a los modelos de OpenAI, o bien tienen un tamaño que los hace poco prácticos.

Ahí es donde entra en juego Nomic Embed.

¿Qué hace especial a Nomic Embed?

Nomic Embed ha sido entrenado con un contexto largo de 8192 tokens, como los modelos de OpenAI, pero su gran diferencia está en su transparencia y accesibilidad. Está construido con:

Modelo y pesos completamente abiertos
Código de entrenamiento publicado
Datos curados y disponibles públicamente
Licencia Apache-2, ideal para uso comercial

Además, ofrece mejor rendimiento en varias métricas clave, como veremos a continuación.

Cómo fue construido Nomic Embed

Para lograr un modelo competitivo, el equipo de Nomic siguió una estrategia de entrenamiento en varias etapas:

1. Entrenamiento inicial con BERT extendido

El modelo parte de una base BERT modificada, al que llamaron nomic-bert-2048, capaz de manejar secuencias más largas que el BERT tradicional (2048 vs 512 tokens). Para esto, utilizaron técnicas como:

Rotary Position Embeddings, que ayudan a generalizar a contextos más largos.
Activaciones SwiGLU, más eficientes y precisas.
FlashAttention y entrenamiento con BF16 para mejorar velocidad y memoria.
Un masking del 30%, el doble del tradicional, para aumentar el aprendizaje.

2. Aprendizaje contrastivo a gran escala

Luego, se entrenó el modelo con más de 235 millones de pares de texto, provenientes de fuentes como StackExchange, Quora, Amazon y artículos de noticias. Estos datos fueron validados y organizados usando la plataforma Nomic Atlas.

3. Ajuste fino con datos curados

La etapa final consistió en un ajuste fino con datos de mayor calidad, como preguntas y respuestas de búsquedas web. Aquí se aplicó una estrategia clave: minería de ejemplos difíciles, para forzar al modelo a diferenciar mejor entre casos similares.

¿Qué tan bien funciona?

En pruebas como Massive Text Embedding Benchmark (MTEB), Nomic Embed superó a OpenAI Ada-002 y a Jina V2. Pero el verdadero diferencial aparece en tareas de contexto largo, donde muchos modelos fallan.

En el LoCo Benchmark, diseñado para medir la comprensión de textos extensos, Nomic Embed logró una puntuación de 85.53, superando a Ada-002 (52.7) y posicionándose como el mejor modelo open source de menos de 200M parámetros en tareas no supervisadas.

Incluso se comparó visualmente cómo los modelos organizan la información. Por ejemplo, al analizar artículos de Wikipedia con el texto “may refer to” (que suelen ser páginas de desambiguación), Nomic Embed los agrupó de forma coherente, mientras que Ada los dispersó por todo el espacio vectorial. Esto muestra que Nomic Embed tiene una comprensión estructural más precisa del lenguaje.

¿Dónde y cómo se puede usar?

El modelo está disponible en varias formas:

A través de la API de Nomic Atlas, con 1 millón de tokens gratuitos.
Integración directa con Python (pip install nomic)
Infraestructura dedicada en AWS Marketplace
Descarga directa de los pesos y datos para correr localmente, sin restricciones.

Este nivel de accesibilidad y transparencia no tiene precedentes en modelos de su categoría.

¿Qué ventajas ofrece frente a otras alternativas?

Modelo	Longitud	Código Abierto	Datos Abiertos	Rendimiento Contexto Largo	Uso Comercial
Nomic Embed	8192	✅	✅	✅ Alta	✅
OpenAI Ada-002	8192	❌	❌	Medio	❌
Jina V2 Base	8192	✅	❌	Medio	✅
E5-Mistral (7B)	4096	✅	❌	Muy Alto (pero pesado)	✅

¿Para quién es útil Nomic Embed?

Desarrolladores que necesiten modelos auditables sin depender de terceros.
Empresas que buscan privacidad, cumplimiento normativo y flexibilidad de despliegue.
Investigadores que quieren experimentar y comparar sin restricciones.
Startups que necesitan un balance entre rendimiento, coste y apertura.

Nomic Embed representa un nuevo estándar en modelos de embeddings: abierto, potente y confiable. No solo supera a muchas alternativas cerradas, sino que también redefine cómo debería construirse la infraestructura semántica de la IA moderna.