La importancia de elegir bien el modelo en Ollama en un RAG (más allá de la calidad de los embeddings)

Juan Diego Polo

hace 8 meses

Ilustración digital minimalista y surrealista en fondo blanco que representa los riesgos de filtración de conversaciones privadas por chatbots de inteligencia artificial. Un personaje sin rostro, hecho de burbujas de chat, interactúa con una computadora mientras fragmentos de datos flotan hacia ojos que espían en los bordes.

En un pipeline de RAG (Retriever–Augmented Generation), a menudo se pone todo el foco en lograr embeddings de alta fidelidad y un índice semántico muy preciso. Sin embargo, la elección del modelo generativo (tamaño, arquitectura y cantidad de parámetros) es igual de decisiva para la calidad final de las respuestas. Un embedding “perfecto” solo asegura que el fragmento correcto llegue al prompt: cómo lo interpreta y reproduce el modelo depende enteramente de su capacidad interna.

1. Capacidad de “memoria” y síntesis de información

Modelos pequeños (0.5 B)
- Memoria interna reducida: aunque reciban el texto exacto recuperado, carecen de patrones finos de lectura y extraen con menos precisión.
- Tendencia a parafrasear o recortar: en vez de copiar literalmente (incluso si el prompt lo pide), pueden omitir detalles o cambiar la redacción.
Modelos medianos y grandes (7 B–13 B+)
- “Reconocen” mejor las instrucciones de copia literal y producen salidas más fieles al texto fuente.
- Mayor robustez para sintetizar múltiples fragments sin perder coherencia ni mezclar información.

2. Gestión de la ventana de contexto

Cada token del contexto que se acerca al límite representa una carga de cálculo y de memoria interna.
Modelos grandes manejan mejor contextos extensos o complejos, evitando “olvidos” o mezclas de pasajes.
Modelos pequeños pueden empezar a “saltar” de un fragmento a otro cuando el prompt alcanza el tope, incluso aunque los chunks sean muy precisos.

3. Alineamiento con instrucciones y parámetros de generación

Las redes con más parámetros han visto más ejemplos de “cumplir instrucciones” durante el pre‑entrenamiento y el fine‑tuning, por lo que siguen mejor órdenes como “devuélvelo exactamente” o “formatea en JSON”.
En un modelo 0.5 B, es frecuente tener que ajustar parámetros (temperatura, top‑p) al mínimo para forzar la copia, pero sin garantía absoluta de éxito.

4. Impacto en la fidelidad y la confiabilidad

Fidelidad textual
- Si necesitas citas literales (normativas, contratos, artículos de Constitución), cualquier error de puntuación o palabra cambiada puede invalidar el texto.
- Los modelos ≥ 7 B ofrecen una tasa de exactitud superior en pruebas de extracción de fragmentos normativos.
Confiabilidad de respuesta
- Un modelo grande, aunque reciba el mismo chunk, “sabe” mejor qué hacer con él: resumir, parafrasear o citar según lo pidas.
- El modelo pequeño suele improvisar más, introduciendo riesgo de “alucinaciones” o resúmenes incompletos.

5. Recomendaciones para tu pipeline en Ollama

Define el caso de uso
- ¿Buscas prototipado rápido y económico? Un 0.5 B puede valer.
- ¿Necesitas producción con alta precisión? Ve a 7 B–13 B o más.
Combina embeddings óptimos y modelo adecuado
- Embeddings de alta calidad aseguran recuperación precisa.
- Modelo generativo de mayor tamaño asegura interpretación y generación fiables.
Ajusta chunking y prompts
- Chunking fino (un chunk = un artículo, un párrafo) para facilitar la recuperación.
- Prompt claro: solicita copia literal, formato estricto y parámetros de generación conservadores.
Mide y valida
- Realiza tests de extracción: compara el texto original vs. la salida del modelo.
- Define métricas de exactitud (¿cuántos caracteres o palabras coinciden?).

Elegir un buen modelo en Ollama no es solo cuestión de embeddings: incluso con la mejor recuperación semántica, la capacidad interna del modelo definirá si la información se procesa y reproduce con fidelidad. Para aplicaciones donde la precisión normativa o la literalidad son críticas, vale la pena invertir en redes de 7 B o superiores. En cambio, para prototipos o tareas menos sensibles, un modelo de 0.5 B puede ofrecer un trade‑off interesante entre coste y rendimiento.