Bazaroid

Home

❯

IA Locale et Multimodale

❯

IA / LLM

❯

Une étude pointe les failles dans l'évaluation des systèmes d'IA

Une étude pointe les failles dans l'évaluation des systèmes d'IA

08 nov. 20251 min de lecture

  • IA
  • IA-Locale-et-Multimodale
  • IA-/-LLM

Les benchmarks LLM sont truffés de data contamination et de métriques mal définies — l’étude d’Oxford liste les biais systémiques qui rendent les classements peu fiables.

Lien source

Study identifies weaknesses in how AI systems are evaluated

Discussion sur Hacker News (416 points)


Vue Graphique

Créé avec Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community