En un pipeline de RAG (Retriever–Augmented Generation), a menudo se pone todo el foco en lograr embeddings de alta fidelidad y un índice semántico muy preciso. Sin embargo, la elección del modelo generativo (tamaño, arquitectura y cantidad de parámetros) es igual de decisiva para la calidad final de las respuestas. Un embedding “perfecto” solo asegura que el fragmento correcto llegue al prompt: cómo lo interpreta y reproduce el modelo depende enteramente de su capacidad interna.
1. Capacidad de “memoria” y síntesis de información
-
Modelos pequeños (0.5 B)
-
Memoria interna reducida: aunque reciban el texto exacto recuperado, carecen de patrones finos de lectura y extraen con menos precisión.
-
Tendencia a parafrasear o recortar: en vez de copiar literalmente (incluso si el prompt lo pide), pueden omitir detalles o cambiar la redacción.
-
-
Modelos medianos y grandes (7 B–13 B+)
-
“Reconocen” mejor las instrucciones de copia literal y producen salidas más fieles al texto fuente.
-
Mayor robustez para sintetizar múltiples fragments sin perder coherencia ni mezclar información.
-
2. Gestión de la ventana de contexto
-
Cada token del contexto que se acerca al límite representa una carga de cálculo y de memoria interna.
-
Modelos grandes manejan mejor contextos extensos o complejos, evitando “olvidos” o mezclas de pasajes.
-
Modelos pequeños pueden empezar a “saltar” de un fragmento a otro cuando el prompt alcanza el tope, incluso aunque los chunks sean muy precisos.
3. Alineamiento con instrucciones y parámetros de generación
-
Las redes con más parámetros han visto más ejemplos de “cumplir instrucciones” durante el pre‑entrenamiento y el fine‑tuning, por lo que siguen mejor órdenes como “devuélvelo exactamente” o “formatea en JSON”.
-
En un modelo 0.5 B, es frecuente tener que ajustar parámetros (temperatura, top‑p) al mínimo para forzar la copia, pero sin garantía absoluta de éxito.
4. Impacto en la fidelidad y la confiabilidad
-
Fidelidad textual
-
Si necesitas citas literales (normativas, contratos, artículos de Constitución), cualquier error de puntuación o palabra cambiada puede invalidar el texto.
-
Los modelos ≥ 7 B ofrecen una tasa de exactitud superior en pruebas de extracción de fragmentos normativos.
-
-
Confiabilidad de respuesta
-
Un modelo grande, aunque reciba el mismo chunk, “sabe” mejor qué hacer con él: resumir, parafrasear o citar según lo pidas.
-
El modelo pequeño suele improvisar más, introduciendo riesgo de “alucinaciones” o resúmenes incompletos.
-
5. Recomendaciones para tu pipeline en Ollama
-
Define el caso de uso
-
¿Buscas prototipado rápido y económico? Un 0.5 B puede valer.
-
¿Necesitas producción con alta precisión? Ve a 7 B–13 B o más.
-
-
Combina embeddings óptimos y modelo adecuado
-
Embeddings de alta calidad aseguran recuperación precisa.
-
Modelo generativo de mayor tamaño asegura interpretación y generación fiables.
-
-
Ajusta chunking y prompts
-
Chunking fino (un chunk = un artículo, un párrafo) para facilitar la recuperación.
-
Prompt claro: solicita copia literal, formato estricto y parámetros de generación conservadores.
-
-
Mide y valida
-
Realiza tests de extracción: compara el texto original vs. la salida del modelo.
-
Define métricas de exactitud (¿cuántos caracteres o palabras coinciden?).
-
Elegir un buen modelo en Ollama no es solo cuestión de embeddings: incluso con la mejor recuperación semántica, la capacidad interna del modelo definirá si la información se procesa y reproduce con fidelidad. Para aplicaciones donde la precisión normativa o la literalidad son críticas, vale la pena invertir en redes de 7 B o superiores. En cambio, para prototipos o tareas menos sensibles, un modelo de 0.5 B puede ofrecer un trade‑off interesante entre coste y rendimiento.
