$3 por millón de tokens de entrada en Claude 3.5 Sonnet. $15 por millón de tokens de salida. Parece simple. En producción, la realidad es más complicada.
El problema del system prompt largo
Muchas aplicaciones tienen un system prompt detallado: instrucciones, contexto del usuario, ejemplos. Si ese system prompt tiene 2.000 tokens y haces 100.000 llamadas al mes, estás pagando por 200 millones de tokens de entrada solo en el system prompt.
La solución de Anthropic para esto es el prompt caching: paga el precio de cachear el contexto una vez ($3.75 por millón en lugar de $3) y las llamadas subsecuentes que usan ese mismo contexto cuestan $0.30 por millón (un 90% menos). Para system prompts estáticos o que cambian poco, el ahorro es inmediato.
Los tokens de razonamiento que no siempre ves
Los modelos de razonamiento como o1 de OpenAI o Claude 3.7 generan tokens de “pensamiento” internos antes de responder. Esos tokens también cuestan dinero, aunque no los veas en la respuesta.
Una consulta que parece generar 300 tokens de respuesta puede haber consumido 3.000 tokens de razonamiento que también se cobran. El coste real puede ser 10x el que esperas si no tienes esto en cuenta.
Para Claude, la API expone los thinking tokens por separado. Para o1 de OpenAI, los tokens de razonamiento están incluidos en el recuento de tokens de salida.
El contexto acumulado en conversaciones largas
En aplicaciones de chat, cada turno de la conversación incluye todo el historial anterior. Una conversación de 10 turnos puede acabar enviando 5x más tokens que el último mensaje visible.
Si no truncas o comprimes el historial de conversación, el coste crece linealmente con la longitud de la sesión.
Optimizaciones concretas que funcionan
Elige el modelo correcto para cada tarea: No uses GPT-4o para clasificar si GPT-4o Mini funciona igual de bien. La diferencia de coste es 10-20x.
Implementa prompt caching: Si tienes contexto estático largo, el caching es prácticamente obligatorio en producción.
Limita la longitud de respuesta: Si el modelo genera 2.000 tokens cuando con 500 es suficiente, estás pagando el doble en tokens de salida.
Batch API para procesamiento asíncrono: OpenAI y Anthropic ofrecen descuentos del 50% en llamadas asíncronas (batch). Para procesamiento que no es en tiempo real, úsalo siempre.
Monitoriza los tokens por sesión: Un usuario que tiene conversaciones largas puede costar 50x más que uno que hace preguntas cortas. Sin monitorización no lo sabrás hasta que llegue la factura.
La regla del 3x
En nuestra experiencia revisando arquitecturas de producción: el coste real de las APIs de IA en producción suele ser el triple del estimado inicial basado en el precio por token. Los factores: contexto más largo de lo esperado, casos edge donde el modelo genera respuestas muy largas, retries en fallos, y tokens de herramientas en sistemas agenticos.
Presupuesta con ese factor.
Basado en análisis de casos reales de uso en producción. Los precios mencionados corresponden a tarifas publicadas oficialmente y están sujetos a cambios.