WWWhat's new

La importancia de elegir bien el modelo en Ollama en un RAG (más allá de la calidad de los embeddings)

Ilustración digital minimalista y surrealista en fondo blanco que representa los riesgos de filtración de conversaciones privadas por chatbots de inteligencia artificial. Un personaje sin rostro, hecho de burbujas de chat, interactúa con una computadora mientras fragmentos de datos flotan hacia ojos que espían en los bordes.

En un pipeline de RAG (Retriever–Augmented Generation), a menudo se pone todo el foco en lograr embeddings de alta fidelidad y un índice semántico muy preciso. Sin embargo, la elección del modelo generativo (tamaño, arquitectura y cantidad de parámetros) es igual de decisiva para la calidad final de las respuestas. Un embedding “perfecto” solo asegura que el fragmento correcto llegue al prompt: cómo lo interpreta y reproduce el modelo depende enteramente de su capacidad interna.


1. Capacidad de “memoria” y síntesis de información


2. Gestión de la ventana de contexto


3. Alineamiento con instrucciones y parámetros de generación


4. Impacto en la fidelidad y la confiabilidad

  1. Fidelidad textual

    • Si necesitas citas literales (normativas, contratos, artículos de Constitución), cualquier error de puntuación o palabra cambiada puede invalidar el texto.

    • Los modelos ≥ 7 B ofrecen una tasa de exactitud superior en pruebas de extracción de fragmentos normativos.

  2. Confiabilidad de respuesta

    • Un modelo grande, aunque reciba el mismo chunk, “sabe” mejor qué hacer con él: resumir, parafrasear o citar según lo pidas.

    • El modelo pequeño suele improvisar más, introduciendo riesgo de “alucinaciones” o resúmenes incompletos.


5. Recomendaciones para tu pipeline en Ollama

  1. Define el caso de uso

    • ¿Buscas prototipado rápido y económico? Un 0.5 B puede valer.

    • ¿Necesitas producción con alta precisión? Ve a 7 B–13 B o más.

  2. Combina embeddings óptimos y modelo adecuado

    • Embeddings de alta calidad aseguran recuperación precisa.

    • Modelo generativo de mayor tamaño asegura interpretación y generación fiables.

  3. Ajusta chunking y prompts

    • Chunking fino (un chunk = un artículo, un párrafo) para facilitar la recuperación.

    • Prompt claro: solicita copia literal, formato estricto y parámetros de generación conservadores.

  4. Mide y valida

    • Realiza tests de extracción: compara el texto original vs. la salida del modelo.

    • Define métricas de exactitud (¿cuántos caracteres o palabras coinciden?).


Elegir un buen modelo en Ollama no es solo cuestión de embeddings: incluso con la mejor recuperación semántica, la capacidad interna del modelo definirá si la información se procesa y reproduce con fidelidad. Para aplicaciones donde la precisión normativa o la literalidad son críticas, vale la pena invertir en redes de 7 B o superiores. En cambio, para prototipos o tareas menos sensibles, un modelo de 0.5 B puede ofrecer un trade‑off interesante entre coste y rendimiento.

Salir de la versión móvil