investigacion
Cómo leer los benchmarks de LLMs sin dejarte engañar por los números
MMLU, HumanEval, GPQA, MT-Bench, LMSYS Arena: cada benchmark mide algo diferente y tiene sus propias trampas. Una guía para interpretar los resultados antes de elegir un modelo.
#benchmarks#evaluación#llm
Equipo Blog IA
Leer