Phi-3 de Microsoft: cuando un modelo pequeño hace el trabajo de uno grande

La familia Phi de Microsoft parte de una hipótesis no obvia: si entrenas un modelo pequeño con datos de muy alta calidad —en lugar de el internet completo sin filtrar— puedes obtener capacidades que normalmente requieren modelos mucho más grandes.

Phi-3 es la tercera iteración de este experimento y la más exitosa hasta ahora.

El truco de los datos sintéticos

Phi-3 fue entrenado con datos que incluyen una proporción significativa de contenido sintético generado por modelos más grandes. La idea: usar un modelo grande para producir miles de ejemplos de alta calidad de razonamiento, código y matemáticas, y entrenar el modelo pequeño con esos ejemplos en lugar de con texto genérico de internet.

Esto no es nuevo en la investigación, pero Phi-3 es la primera vez que se hace a escala y con resultados suficientemente buenos como para ser útil en producción.

Los tres modelos de la familia

Phi-3 Mini (3.8B): Contexto de 128K tokens. Diseñado para correr en dispositivos móviles y edge. En benchmarks de razonamiento y código, compite con modelos de 7-8B parámetros.

Phi-3 Small (7B): El equilibrio entre capacidad y hardware accesible. Supera a Llama 3 8B en varios benchmarks de razonamiento.

Phi-3 Medium (14B): El más capaz de la familia. Compite con Llama 3 70B en tareas de razonamiento matemático, aunque queda atrás en conocimiento general y tareas que requieren mucha información factual.

El caso de uso real: inferencia local en dispositivos

La ventaja principal de Phi-3 no es competir con GPT-4o. Es ofrecer inferencia local en hardware limitado con una calidad razonable. En teléfonos con chips NPU (Neural Processing Unit) como los Snapdragon más recientes, Phi-3 Mini puede correr completamente offline.

Para aplicaciones que necesitan privacidad absoluta o que funcionan sin conexión, este es el modelo a considerar antes que los gigantes.

Limitaciones reales

El razonamiento con mucho contexto fáctico es donde Phi-3 flaquea más. Los modelos pequeños entrenados con datos sintéticos tienen menos “conocimiento del mundo” que modelos grandes entrenados en texto general. Para preguntas que requieren hechos específicos, un modelo más grande sigue siendo necesario.

Fuentes: Microsoft Research blog, paper técnico de Phi-3 (arXiv), benchmarks de Hugging Face Open LLM Leaderboard.