Forum
Notifications
Retirer tout
Questions & Réponses
1
Posts
1
Utilisateurs
0
Reactions
6
Vu
Début du sujet
On utilise des métriques spécifiques (perplexité, BLEU, ROUGE) pour des tâches précises, mais aussi des benchmarks (MMLU, HumanEval) qui testent les modèles sur des milliers de questions. Pour une application donnée, l'évaluation humaine reste cruciale.
Posté : 16/02/2026 2:51 pm