L’équipe de Stanford Hazy Research pousse le tensor parallelism sur LLaMA pour saturer le GPU à 100% — techniques avancées de serving LLM pour maximiser le débit en inférence.
Lien source
We bought the whole GPU, so we’re damn well going to use the whole GPU
Discussion sur Hacker News (504 points)