IA local: cómo ejecutar modelos de inteligencia artificial en tu propio ordenador (sin enviar datos a nadie)

ChatGPT, Gemini y Claude procesan tus conversaciones en servidores remotos. Todo lo que escribes viaja por internet hasta un data center —a menudo en Estados Unidos—, se procesa y la respuesta vuelve. Para la mayoría de usos cotidianos (preguntar una receta, planificar un viaje, pedir una explicación) es aceptable. Pero si trabajas con información confidencial —datos de clientes, historiales médicos, código propietario, documentos legales, estrategias de negocio— puede que no quieras que esa información pase por servidores de terceros. Ni siquiera con las promesas de privacidad de los proveedores.

En 2026, ejecutar modelos de IA potentes en un ordenador doméstico ya no es ciencia ficción ni requiere un doctorado en informática: es práctico, accesible y sorprendentemente fácil. Tras experimentar con Ollama y LM Studio durante más de un año en Macs con Apple Silicon y PCs con GPU NVIDIA, he comprobado que la IA local ha alcanzado un punto donde es genuinamente útil para trabajo diario, no solo para experimentar. Si te preocupa cómo dejar de ser rastreado en internet, la IA local es una de las piezas clave del puzzle.

Ollama: la forma más fácil de empezar (5 minutos)

Qué es: una herramienta de código abierto que descarga, gestiona y ejecuta modelos de lenguaje (LLMs) localmente en tu Mac, Windows o Linux. Instalación en un minuto. Interfaz de línea de comandos elegantemente simple.

Cómo empezar: instala Ollama desde ollama.com (descarga e instala como cualquier app) > abre el terminal > escribe ollama run llama3.3 > espera a que descargue el modelo (~4 GB para el de 8B parámetros) > empieza a chatear. Así de simple. No necesitas configurar nada más.

Modelos disponibles (los mejores para español en 2026): Llama 3.3 (Meta, 8B y 70B, excelente calidad en español), Mistral (7B, rápido y eficiente), Phi-4 (Microsoft, 14B, buen razonamiento), Gemma 2 (Google, 9B y 27B), Qwen 2.5 (Alibaba, sorprendentemente bueno en múltiples idiomas), DeepSeek (excelente en código). Hay una guía completa sobre cómo montar un servidor de IA local si quieres profundizar más.

Requisitos mínimos: 8 GB de RAM para modelos pequeños (7-8B parámetros, calidad comparable a GPT-3.5). 16 GB para modelos medianos (13-14B, mejor calidad). 32+ GB para modelos grandes (30-70B, se acercan a GPT-4 en muchas tareas). GPU con 8+ GB VRAM (NVIDIA RTX 3060 o superior) para velocidad aceptable (~20-40 tokens/segundo). Un Mac con Apple Silicon (M1/M2/M3/M4+) funciona sorprendentemente bien gracias a la memoria unificada: un M1 con 16 GB ejecuta modelos de 13B con fluidez; un M2 Pro/Max con 32 GB ejecuta modelos de 30B cómodamente.

Open WebUI: la interfaz visual (para no vivir en el terminal)

Ollama funciona por terminal, lo que puede intimidar a usuarios no técnicos. Open WebUI (antes Ollama WebUI) es una interfaz web local que se conecta a Ollama y te da una experiencia visual idéntica a ChatGPT: historial de conversaciones, múltiples chats, subida de archivos (RAG: la IA analiza tus documentos sin enviarlos a internet), selección de modelos, prompts del sistema y gestión completa. Se instala con Docker (docker run -d -p 3000:8080 ghcr.io/open-webui/open-webui) y funciona en tu navegador en localhost:3000. Todo local, todo privado.

LM Studio: la alternativa sin terminal

Qué es: una app de escritorio (Mac, Windows, Linux) con interfaz gráfica completa que permite buscar, descargar, ejecutar y chatear con modelos de IA localmente. Ideal para quien quiere una experiencia «instalar y usar» sin tocar la línea de comandos nunca. Incluye un navegador de modelos integrado (busca en Hugging Face), benchmark de rendimiento y servidor API local compatible con el formato OpenAI (lo que permite usarlo con cualquier app que soporte la API de ChatGPT). Google también ha lanzado una app para ejecutar modelos sin conexión en móviles Android.

¿Son tan buenos como ChatGPT o Claude?

Depende del modelo y del hardware. Para un modelo de 7-8B parámetros en un portátil con 16 GB de RAM: no. Resuelve consultas simples, resume texto, genera borradores y código básico, pero el razonamiento complejo y la comprensión de instrucciones largas son inferiores. Para Llama 3.3 70B en una máquina con 64 GB de RAM o GPU con 48 GB VRAM: se acerca notablemente a GPT-4 en muchas tareas (redacción, análisis, código, razonamiento lógico), aunque sigue por debajo en tareas de seguimiento de instrucciones complejas y conocimiento actualizado.

La ventaja no es la potencia máxima sino la privacidad total: tus datos nunca salen de tu ordenador. Eso tiene un valor enorme para abogados, médicos, investigadores, periodistas y cualquier profesional que maneje información confidencial que no debería pasar por servidores de terceros. También es útil cuando no tienes conexión a internet (avión, zonas rurales, emergencias) o cuando necesitas velocidad sin depender de la latencia del servidor.

Mi valoración

Llevo más de un año usando Ollama a diario en un MacBook Pro M2 con 32 GB de RAM, y la experiencia ha evolucionado enormemente. Llama 3.3 70B responde con una calidad que hace un par de años habría parecido imposible sin conexión. Para tareas de redacción, análisis de documentos privados y generación de código, la IA local cubre el 70-80% de lo que necesito sin enviar un solo byte a la nube. LM Studio es mi recomendación para quien quiere empezar sin complicaciones; Ollama + Open WebUI para quien quiere más control y flexibilidad. El futuro de la IA no es solo la nube: es también tu propio ordenador.

Preguntas frecuentes

¿Necesito una tarjeta gráfica cara?

Para modelos de 7-8B, una CPU moderna con 16 GB de RAM funciona (lento: 5-10 tokens/segundo, usable para consultas cortas). Para modelos más grandes y velocidad aceptable (20-40 tokens/segundo), una GPU NVIDIA con 8+ GB VRAM (RTX 3060: ~300 €, RTX 4060: ~350 €) marca una diferencia enorme. Los Mac con Apple Silicon son la opción más equilibrada: un MacBook Air M2 con 16 GB (~1.200 €) ejecuta modelos de 8-13B con fluidez sin necesidad de GPU dedicada.

¿Es legal ejecutar estos modelos localmente?

Sí. Los modelos mencionados (Llama, Mistral, Gemma, Phi, Qwen) son de código abierto o abiertos con licencia permisiva. Puedes descargarlos y ejecutarlos localmente para uso personal y, en la mayoría de casos, comercial. Revisa la licencia específica de cada modelo si planeas uso comercial.

¿Puedo usar IA local sin saber programar?

Absolutamente. LM Studio tiene una interfaz gráfica donde todo funciona con clics: buscar modelo, descargarlo y chatear. Si prefieres Ollama, Open WebUI añade esa capa visual. En 2026, la IA local es accesible para cualquier usuario con conocimientos básicos de informática.