LoRA y QLoRA: cómo hacer fine-tuning de LLMs sin necesitar un datacenter

El fine-tuning de un LLM grande desde cero requiere decenas de GPUs A100 y días de entrenamiento. Para la mayoría de equipos, eso no es práctico. LoRA (Low-Rank Adaptation) y su variante cuantizada QLoRA hacen que el fine-tuning sea accesible en hardware razonable.

La idea detrás de LoRA

Los LLMs tienen matrices de peso enormes. LoRA parte de una observación empírica: durante el fine-tuning, los cambios en los pesos tienden a tener un “rango intrínseco” bajo, es decir, se pueden representar como el producto de dos matrices mucho más pequeñas.

En lugar de actualizar la matriz de pesos completa W (que puede ser de dimensión 4096×4096 = 16M parámetros), LoRA añade dos matrices pequeñas A y B tal que ΔW = A·B, donde A es 4096×r y B es r×4096, con r típicamente entre 4 y 64.

Resultado: si r=16, en lugar de entrenar 16M parámetros, entrenas 2×(4096×16) = 131.072 parámetros. Una reducción de más de 100x.

QLoRA: LoRA + cuantización

QLoRA, publicado por Tim Dettmers et al. en 2023, combina LoRA con cuantización del modelo base en 4 bits (NF4). Esto permite cargar un modelo de 65B parámetros en menos de 48GB de VRAM, haciendo el fine-tuning factible en hardware con una o dos GPUs de consumo.

La técnica tiene tres componentes:

NF4 quantization: cuantización de 4 bits que preserva mejor la distribución de los pesos
Double quantization: cuantiza los propios constantes de cuantización para ahorrar más memoria
Paged optimizers: usa la RAM del sistema cuando la VRAM se llena

Hardware necesario en la práctica

Modelo	Método	VRAM necesaria
Llama 3 8B	QLoRA 4-bit	~12 GB
Llama 3 70B	QLoRA 4-bit	~48 GB
Mistral 7B	QLoRA 4-bit	~10 GB

Una RTX 4090 (24GB) es suficiente para hacer fine-tuning de modelos hasta 13B parámetros con QLoRA.

Cuándo tiene sentido hacer fine-tuning

Fine-tuning no es la primera solución a probar. Antes de llegar ahí:

¿Mejora el prompt engineering o few-shot? Si sí, no necesitas fine-tuning.
¿Necesitas conocimiento que no está en el modelo? RAG es más apropiado.
¿Necesitas un estilo o formato muy específico y consistente? Fine-tuning empieza a tener sentido.
¿Necesitas comportamiento muy específico en dominio técnico especializado? Fine-tuning es la herramienta.

Las herramientas más usadas para QLoRA en 2025: Hugging Face TRL con la clase SFTTrainer, Axolotl, y LLaMA-Factory.

Fuentes: Paper original de LoRA (Hu et al., 2021), QLoRA paper (Dettmers et al., 2023), guías prácticas de Hugging Face.