OpenAI o1: pensar antes de responder y lo que eso significa para los devs

OpenAI lanzó o1 en septiembre de 2024 con una premisa simple: antes de responder, el modelo piensa. Genera tokens de razonamiento internos que no ves en la respuesta, pero que influyen en la calidad del resultado.

El cambio no es solo de rendimiento. Es conceptual: la relación entre el coste de una consulta y su utilidad cambia completamente.

Cómo funciona el razonamiento interno

o1 utiliza lo que OpenAI llama “chain of thought escalado”. El modelo aprende, mediante reinforcement learning, a descomponer problemas complejos en pasos intermedios antes de dar la respuesta final.

No ves esos pasos en la API estándar (aunque hay una propiedad reasoning_content en versiones recientes). Lo que sí notas es que el modelo tarda más y cuesta más por consulta.

Una pregunta que GPT-4o responde en 500 tokens puede requerir 2000-5000 tokens de razonamiento en o1 antes de producir los 500 tokens de respuesta. La calidad mejora, pero el coste por consulta puede ser 10x mayor.

Dónde tiene sentido usarlo

La curva de rendimiento de o1 es diferente a la de GPT-4o:

Tareas donde o1 gana claramente:

Problemas de matemáticas y álgebra compleja
Depuración de código con bugs sutiles
Planificación de múltiples pasos con restricciones
Análisis de código con vulnerabilidades de seguridad

Tareas donde GPT-4o es suficiente (y más barato):

Generación de texto creativo
Resúmenes de documentos
Clasificación y extracción de datos
Respuestas conversacionales

El cambio en cómo se hacen los prompts

Con GPT-4o, el consejo estándar era dar instrucciones detalladas y muchos ejemplos. Con o1 el modelo está diseñado para razonar por sí mismo: los prompts excesivamente detallados a veces lo confunden.

La recomendación de OpenAI es prompts más concisos que describen el problema y el resultado deseado, sin intentar guiar el proceso de razonamiento paso a paso. El modelo lo hace solo mejor de lo que lo haría siguiendo tu guía.

Pricing y variantes

OpenAI lanzó varias versiones:

o1-preview: La versión inicial, $15 / $60 por millón de tokens de entrada/salida
o1-mini: Versión optimizada para código, más rápida y barata ($3 / $12)
o1 (versión estable): Lanzada en diciembre de 2024 con mejoras en seguimiento de instrucciones

Con DeepSeek R1 igualando el rendimiento a $0.55 por millón de tokens, la presión sobre el pricing de o1 es real.

Fuentes: OpenAI blog de lanzamiento de o1, documentación de la API, comparativa técnica publicada por el equipo de OpenAI.