Cómo leer los benchmarks de LLMs sin dejarte engañar por los números
MMLU, HumanEval, GPQA, MT-Bench, LMSYS Arena: cada benchmark mide algo diferente y tiene sus propias trampas. Una guía para interpretar los resultados antes de elegir un modelo.
Tag
4 artículos con este tag.
MMLU, HumanEval, GPQA, MT-Bench, LMSYS Arena: cada benchmark mide algo diferente y tiene sus propias trampas. Una guía para interpretar los resultados antes de elegir un modelo.
El concepto de agente de IA existe desde hace años, pero las implementaciones prácticas que realmente funcionan son pocas. Repasamos los patrones que están dando resultados y los antipatrones más comunes.
Mistral AI lanzó Large 2 con 123B parámetros, ventana de 128K tokens y rendimiento que rivaliza con GPT-4o. Disponible como pesos descargables y como API, con enfoque en idiomas europeos.
Anthropic lanzó Claude 3.5 Sonnet y superó a GPT-4o en la mayoría de pruebas de razonamiento y código. Qué cambia para los desarrolladores y qué limitaciones sigue teniendo.