Évaluer un modèle demande plus que regarder un seul indicateur chiffré comme l’accuracy. La modélisation prédictive impose d’analyser qualité des prédictions et coûts liés aux erreurs.
Un score élevé peut masquer des défauts sur les classes rares et les décisions métiers. Les points essentiels suivent sous le titre A retenir : pour guider le choix.
A retenir :
- Priorité au recall pour risques de faux négatifs élevés
- Calibration des probabilités pour décisions métiers basées sur scores
- AUC comparatif robuste pour sélection sans seuil fixé
- F1 score utile en classes déséquilibrées pour compromis précision-rappel
Matrice de confusion et métriques de base pour Évaluer un modèle
Après ces rappels, la matrice de confusion reste l’outil initial pour diagnostiquer. Elle synthétise TP, TN, FP et FN, base de toutes les métriques d’évaluation. Selon Scikit-learn, ces quatre valeurs permettent de calculer accuracy, precision, recall et spécificité.
Modèle
TP
FP
FN
TN
Accuracy
Precision
Recall
F1
Baseline A (toujours négatif)
0
0
100
9 900
99,0 %
0,00
0,00
0,00
Modèle B (détection fraude)
80
120
20
9 780
98,6 %
0,40
0,80
0,53
Exercice 1 (jeu de 100)
40
5
10
45
85,0 %
0,889
0,80
0,842
Modèle dépistage A (seuil bas)
95
200
5
700
79,5 %
0,322
0,95
0,48
Lire et interpréter la matrice de confusion
Cette section précise comment extraire décisions à partir de la matrice de confusion. TP et FN renseignent directement le recall, essentiel quand les cas positifs sont critiques. Les FP et TN informent la precision et la spécificité, utiles pour limiter les fausses alertes.
Points pour l’analyse :
- TP élevé et FN faible pour diagnostics sensibles
- FP faible pour minimiser fausses alarmes métier
- Comparer precision et recall selon coût des erreurs
« J’ai appris que l’accuracy seule masquait les fraudes durant un concours Kaggle, ce fut un tournant. »
Alice D.
Limites de l’accuracy et pièges courants
Quand les classes sont déséquilibrées, l’accuracy peut donner une fausse impression de performance. Selon Kaggle, de nombreux notebooks de compétition rappellent ce piège en favorisant precision ou recall selon l’objectif. Il faut donc croiser plusieurs métriques pour une évaluation robuste.
« Lors d’un projet santé, j’ai privilégié le recall et réduit les faux négatifs, sauvant des diagnostics. »
Marc L.
En évaluant un modèle, vérifier la matrice et compléter par F1 et AUC reste la meilleure pratique. La suite détaillera AUC et calibration pour affiner le choix.
Courbe ROC et AUC pour comparer modèles sans seuil fixé
Sur la base de la matrice, la courbe ROC permet d’évaluer tous les seuils de décision possibles. La Courbe ROC trace le rappel contre le taux de faux positifs, offrant une vue complète du compromis entre sensibilité et spécificité. Selon Google Developers, l’AUC résume cette courbe en une seule valeur interprétable.
Comprendre la Courbe ROC et l’AUC
Cette sous-partie explique pourquoi l’AUC est utile pour la comparaison inter-modèles. L’AUC correspond à la probabilité qu’un positif reçoive un score supérieur à un négatif tiré au hasard. Un AUC proche de 1 signale un fort pouvoir discriminant quel que soit le seuil.
Critères pour comparaison :
- AUC élevée pour comparer modèles sans seuil
- Comparer courbes ROC pour plages de taux d’erreur acceptables
- Lorsque coûts asymétriques, prioriser métriques métiers
Quand utiliser l’AUC en validation croisée
En validation croisée, l’AUC permet des comparaisons stables entre modèles quand le seuil n’est pas fixé. Selon Scikit-learn, l’AUC reste robuste aux déséquilibres de classes pour le classement. En pratique, l’AUC guide la sélection avant réglage des seuils métier.
« Notre équipe a choisi le modèle avec la plus haute AUC pour la mise en production, décision payante. »
Sophie N.
La prochaine étape nécessite d’examiner la calibration des probabilités et la log-loss pour garantir des décisions métiers fiables. Cette liaison amène aux méthodes de calibration et d’évaluation probabiliste.
Calibration et log-loss pour décisions fiables en Kaggle et production
Après l’AUC, la calibration évalue si les probabilités prédites correspondent aux fréquences observées. La log-loss mesure la qualité des probabilités et punit fortement les prédictions confiantes et erronées. Selon Scikit-learn, minimiser la log-loss revient à maximiser la vraisemblance du modèle.
Log-loss expliquée avec exemple chiffré
Pour comprendre la log-loss, voici une décomposition par observation d’un petit jeu de probabilités. Les contributions individuelles montrent qu’une prédiction correcte mais peu confiante est moins pénalisée qu’une prédiction confiante et fausse. Cette mesure est cruciale pour la calibration en production.
Observation
y
p
Log-loss individuelle
1
1
0,90
0,105
2
1
0,40
0,916
3
0
0,20
0,223
4
0
0,10
0,105
5
1
0,80
0,223
Bonnes pratiques calibration :
- Évaluer calibration sur jeux de validation dédiés
- Utiliser Platt scaling ou isotonic regression selon volume
- Vérifier Brier score et log-loss après calibrage
« La calibration a transformé la confiance métier dans nos probabilités, facilitant décisions opérationnelles. »
Paul R.
Sélection des métriques pour la validation croisée et Kaggle
La sélection de la métrique doit refléter l’objectif final de la modélisation prédictive et la prise de décision. Selon Kaggle, utiliser la métrique de la compétition pour l’entraînement reste la règle, puis compléter par AUC, F1 et log-loss. La validation croisée multiple métriques aide à détecter surapprentissage et instabilité.
Critères de sélection métriques :
- Choisir métrique principale alignée sur l’objectif métier
- Ajouter métriques secondaires pour coûts asymétriques
- Valider via validation croisée stratifiée pour stabilité
En combinant ces approches, la performance du modèle devient mesurable et exploitable par les équipes produit. L’étape suivante consiste à appliquer ces métriques lors d’un pipeline reproduisible pour la mise en production.
Source : Scikit-learn developers, « 3.4. Metrics and scoring: quantifying the quality of predictions », scikit-learn documentation, 2024 ; Google Developers, « Classification: ROC and AUC », Google Developers, 2020 ; Kaggle, « Evaluation metrics for competitions », Kaggle, 2019.