Tag

#llm

4 artículos con este tag.

investigacion 01 jun 2025

Cómo leer los benchmarks de LLMs sin dejarte engañar por los números

MMLU, HumanEval, GPQA, MT-Bench, LMSYS Arena: cada benchmark mide algo diferente y tiene sus propias trampas. Una guía para interpretar los resultados antes de elegir un modelo.

#benchmarks#evaluación#llm

Sebacure Leer

investigacion 15 may 2025

Agentes de IA: arquitecturas que funcionan en producción (y las que no)

El concepto de agente de IA existe desde hace años, pero las implementaciones prácticas que realmente funcionan son pocas. Repasamos los patrones que están dando resultados y los antipatrones más comunes.

#agentes#arquitectura#llm

Sebacure Leer

modelos 05 mar 2025

Mistral Large 2: el modelo europeo que no pide disculpas por competir con los grandes

Mistral AI lanzó Large 2 con 123B parámetros, ventana de 128K tokens y rendimiento que rivaliza con GPT-4o. Disponible como pesos descargables y como API, con enfoque en idiomas europeos.

#mistral#europa#llm

Sebacure Leer

modelos 15 ene 2025

Claude 3.5 Sonnet: el modelo que cambió la vara de los benchmarks

Anthropic lanzó Claude 3.5 Sonnet y superó a GPT-4o en la mayoría de pruebas de razonamiento y código. Qué cambia para los desarrolladores y qué limitaciones sigue teniendo.

#claude#anthropic#benchmarks

Sebacure Leer