GPT-4o: multimodal nativo y el fin de los modelos separados de OpenAI

OpenAI presentó GPT-4o en mayo de 2024 con un demostración en directo que dejó claro cuál era la apuesta: un modelo que procesa texto, audio e imágenes de forma nativa, sin arquitecturas separadas que se comunican entre sí.

El “o” de GPT-4o significa “omni”. La idea es que el modelo reciba y produzca cualquier combinación de estos tres tipos de datos en una sola pasada.

Por qué importa la integración nativa

Los modelos anteriores de OpenAI para audio (Whisper para transcripción, TTS para síntesis) eran sistemas separados encadenados. Esto introducía latencia y perdía información emocional y entonación entre pasos.

GPT-4o procesa el audio directamente. En demostraciones, detecta el tono de voz, interrupciones y sarcasmo. En producción real, la latencia para interacciones de voz bajó a 320 milisegundos en promedio, comparable a una conversación humana.

Lo que cambió para la API

Para los desarrolladores que usan la API de OpenAI, GPT-4o trajo varias mejoras concretas:

Velocidad: Es el doble de rápido que GPT-4 Turbo con el mismo rendimiento en benchmarks de texto.

Precio: Costó la mitad que GPT-4 Turbo en el lanzamiento ($5 vs $10 por millón de tokens de entrada).

Visión mejorada: La comprensión de imágenes es notablemente mejor. Puede leer texto en imágenes, analizar gráficas complejas y describir escenas con más detalle.

Límite de contexto: 128.000 tokens, suficiente para la mayoría de casos de uso.

GPT-4o Mini: la sorpresa del verano

Dos meses después, OpenAI lanzó GPT-4o Mini, que se convirtió en la opción por defecto para aplicaciones donde el coste importa. Con $0.15 por millón de tokens de entrada, es el modelo de alta calidad más barato disponible en ese momento.

En tareas de clasificación, extracción y respuestas cortas, GPT-4o Mini supera a GPT-3.5 Turbo con un coste similar. Para la mayoría de aplicaciones B2C que procesan mucho volumen, este es el modelo a considerar primero.

Comparación directa con Claude 3.5 Sonnet

En código y razonamiento complejo, Claude 3.5 Sonnet salió ligeramente por delante en benchmarks independientes. En multimodalidad y comprensión visual, GPT-4o tiene ventaja. En coste para volumen medio-alto, GPT-4o Mini o Claude 3.5 Haiku son opciones más sensatas.

No hay un ganador universal. La elección depende del caso de uso específico.

Fuentes: OpenAI blog post de lanzamiento de GPT-4o, documentación de la API de OpenAI, análisis de LMSYS Arena.