Instalar y correr un LLM en local era un proceso tedioso hasta hace poco: compilar llama.cpp, gestionar dependencias, configurar parámetros de cuantización, lidiar con errores crípticos. Ollama resolvió casi todo esto en un solo ejecutable.
Qué hace Ollama
Ollama es una herramienta que:
- Descarga modelos cuantizados desde su registro
- Los gestiona localmente (versiones, espacio en disco)
- Expone una API compatible con OpenAI en
localhost:11434 - Maneja la aceleración de GPU automáticamente cuando está disponible
La API compatible con OpenAI es el detalle más práctico: si tu código ya usa el SDK de OpenAI, cambiar a Ollama para modelos locales es reemplazar la URL base. Nada más.
Instalación y primer modelo
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Descargar y correr Llama 3.1 8B
ollama run llama3.1
# Listar modelos disponibles
ollama list
# Correr en modo API (sin interfaz de chat)
ollama serve
La primera ejecución descarga el modelo cuantizado (~4.7GB para Llama 3.1 8B en Q4). Las ejecuciones posteriores son instantáneas.
Catálogo de modelos disponibles
Ollama soporta la mayoría de modelos open-source relevantes:
- Llama 3.1 (8B, 70B, 405B)
- Gemma 2 (2B, 9B, 27B)
- Mistral (7B, y variantes)
- Phi-3 (mini, small, medium)
- Qwen 2.5 (múltiples tamaños)
- DeepSeek R1 (distilaciones desde 1.5B hasta 70B)
- CodeLlama, Codestral, StarCoder2
El comando ollama pull <model> descarga cualquier modelo del catálogo. También puedes importar modelos GGUF de Hugging Face con un Modelfile.
Cuándo usar Ollama vs API en la nube
Usa Ollama cuando:
- Los datos no pueden salir de tu máquina (datos de salud, financieros, código propietario)
- Experimentas y no quieres acumular costes de API
- Necesitas inferencia offline (demos sin conexión, entornos sin internet)
- Quieres integrar un modelo en un script o aplicación local sin latencia de red
Usa una API en la nube cuando:
- Necesitas el mejor modelo disponible (GPT-4o, Claude 3.5 Sonnet)
- El hardware local no aguanta el modelo que necesitas
- El volumen de inferencia es alto y el coste por token es competitivo
- Necesitas el tiempo de respuesta más bajo posible
Requisitos de hardware
La regla básica: el modelo entero tiene que caber en la RAM o VRAM. Con cuantización Q4:
- Llama 3.1 8B: ~5GB VRAM o ~8GB RAM
- Mistral 7B: ~4.5GB VRAM o ~7GB RAM
- Llama 3.1 70B: ~40GB VRAM (necesitas GPU potente o múltiples)
En Macs con Apple Silicon (M1/M2/M3), la memoria unificada permite correr modelos medianos sin GPU externa, con rendimiento sorprendentemente bueno.
Fuentes: Documentación oficial de Ollama, repositorio en GitHub (ollama/ollama), benchmarks de la comunidad en Reddit /r/LocalLLaMA.