Les benchmarks LLM sont truffés de data contamination et de métriques mal définies — l’étude d’Oxford liste les biais systémiques qui rendent les classements peu fiables.
Lien source
Study identifies weaknesses in how AI systems are evaluated
Discussion sur Hacker News (416 points)