Trois catégories de workloads LLM (batch, streaming, temps-réel) avec les architectures de serving adaptées — taxonomie claire pour choisir son infrastructure.
Lien source
Three types of LLM workloads and how to serve them
Discussion sur Hacker News (75 points)