herramientas
Groq: inferencia a 500 tokens por segundo y lo que cambia cuando el modelo va rápido
Groq usa chips LPU propios en lugar de GPUs para inferencia de LLMs. El resultado: velocidades que hacen que la generación de texto parezca instantánea. Revisamos cuándo esto importa y cuándo no.
#groq#inferencia#velocidad
Equipo Blog IA
Leer