Évaluer un modèle : AUC, F1 et calibration expliqués avec Kaggle

cours en ligne

17 avril 2026

Évaluer un modèle demande plus que regarder un seul indicateur chiffré comme l’accuracy. La modélisation prédictive impose d’analyser qualité des prédictions et coûts liés aux erreurs.

Un score élevé peut masquer des défauts sur les classes rares et les décisions métiers. Les points essentiels suivent sous le titre A retenir : pour guider le choix.

A retenir :

  • Priorité au recall pour risques de faux négatifs élevés
  • Calibration des probabilités pour décisions métiers basées sur scores
  • AUC comparatif robuste pour sélection sans seuil fixé
  • F1 score utile en classes déséquilibrées pour compromis précision-rappel

Matrice de confusion et métriques de base pour Évaluer un modèle

Après ces rappels, la matrice de confusion reste l’outil initial pour diagnostiquer. Elle synthétise TP, TN, FP et FN, base de toutes les métriques d’évaluation. Selon Scikit-learn, ces quatre valeurs permettent de calculer accuracy, precision, recall et spécificité.

Modèle TP FP FN TN Accuracy Precision Recall F1
Baseline A (toujours négatif) 0 0 100 9 900 99,0 % 0,00 0,00 0,00
Modèle B (détection fraude) 80 120 20 9 780 98,6 % 0,40 0,80 0,53
Exercice 1 (jeu de 100) 40 5 10 45 85,0 % 0,889 0,80 0,842
Modèle dépistage A (seuil bas) 95 200 5 700 79,5 % 0,322 0,95 0,48

A lire également :  Pourquoi apprendre Python ? Avantages d’une formation en 2025

Lire et interpréter la matrice de confusion

Cette section précise comment extraire décisions à partir de la matrice de confusion. TP et FN renseignent directement le recall, essentiel quand les cas positifs sont critiques. Les FP et TN informent la precision et la spécificité, utiles pour limiter les fausses alertes.

Points pour l’analyse :

  • TP élevé et FN faible pour diagnostics sensibles
  • FP faible pour minimiser fausses alarmes métier
  • Comparer precision et recall selon coût des erreurs

« J’ai appris que l’accuracy seule masquait les fraudes durant un concours Kaggle, ce fut un tournant. »

Alice D.

Limites de l’accuracy et pièges courants

Quand les classes sont déséquilibrées, l’accuracy peut donner une fausse impression de performance. Selon Kaggle, de nombreux notebooks de compétition rappellent ce piège en favorisant precision ou recall selon l’objectif. Il faut donc croiser plusieurs métriques pour une évaluation robuste.

« Lors d’un projet santé, j’ai privilégié le recall et réduit les faux négatifs, sauvant des diagnostics. »

Marc L.

En évaluant un modèle, vérifier la matrice et compléter par F1 et AUC reste la meilleure pratique. La suite détaillera AUC et calibration pour affiner le choix.

A lire également :  Couleurs : profils ICC, calibration écran et export web

Courbe ROC et AUC pour comparer modèles sans seuil fixé

Sur la base de la matrice, la courbe ROC permet d’évaluer tous les seuils de décision possibles. La Courbe ROC trace le rappel contre le taux de faux positifs, offrant une vue complète du compromis entre sensibilité et spécificité. Selon Google Developers, l’AUC résume cette courbe en une seule valeur interprétable.

Comprendre la Courbe ROC et l’AUC

Cette sous-partie explique pourquoi l’AUC est utile pour la comparaison inter-modèles. L’AUC correspond à la probabilité qu’un positif reçoive un score supérieur à un négatif tiré au hasard. Un AUC proche de 1 signale un fort pouvoir discriminant quel que soit le seuil.

Critères pour comparaison :

  • AUC élevée pour comparer modèles sans seuil
  • Comparer courbes ROC pour plages de taux d’erreur acceptables
  • Lorsque coûts asymétriques, prioriser métriques métiers

Quand utiliser l’AUC en validation croisée

En validation croisée, l’AUC permet des comparaisons stables entre modèles quand le seuil n’est pas fixé. Selon Scikit-learn, l’AUC reste robuste aux déséquilibres de classes pour le classement. En pratique, l’AUC guide la sélection avant réglage des seuils métier.

« Notre équipe a choisi le modèle avec la plus haute AUC pour la mise en production, décision payante. »

Sophie N.

A lire également :  Supports gratuits pour apprendre l’informatique à votre rythme

La prochaine étape nécessite d’examiner la calibration des probabilités et la log-loss pour garantir des décisions métiers fiables. Cette liaison amène aux méthodes de calibration et d’évaluation probabiliste.

Calibration et log-loss pour décisions fiables en Kaggle et production

Après l’AUC, la calibration évalue si les probabilités prédites correspondent aux fréquences observées. La log-loss mesure la qualité des probabilités et punit fortement les prédictions confiantes et erronées. Selon Scikit-learn, minimiser la log-loss revient à maximiser la vraisemblance du modèle.

Log-loss expliquée avec exemple chiffré

Pour comprendre la log-loss, voici une décomposition par observation d’un petit jeu de probabilités. Les contributions individuelles montrent qu’une prédiction correcte mais peu confiante est moins pénalisée qu’une prédiction confiante et fausse. Cette mesure est cruciale pour la calibration en production.

Observation y p Log-loss individuelle
1 1 0,90 0,105
2 1 0,40 0,916
3 0 0,20 0,223
4 0 0,10 0,105
5 1 0,80 0,223

Bonnes pratiques calibration :

  • Évaluer calibration sur jeux de validation dédiés
  • Utiliser Platt scaling ou isotonic regression selon volume
  • Vérifier Brier score et log-loss après calibrage

« La calibration a transformé la confiance métier dans nos probabilités, facilitant décisions opérationnelles. »

Paul R.

Sélection des métriques pour la validation croisée et Kaggle

La sélection de la métrique doit refléter l’objectif final de la modélisation prédictive et la prise de décision. Selon Kaggle, utiliser la métrique de la compétition pour l’entraînement reste la règle, puis compléter par AUC, F1 et log-loss. La validation croisée multiple métriques aide à détecter surapprentissage et instabilité.

Critères de sélection métriques :

  • Choisir métrique principale alignée sur l’objectif métier
  • Ajouter métriques secondaires pour coûts asymétriques
  • Valider via validation croisée stratifiée pour stabilité

En combinant ces approches, la performance du modèle devient mesurable et exploitable par les équipes produit. L’étape suivante consiste à appliquer ces métriques lors d’un pipeline reproduisible pour la mise en production.

Source : Scikit-learn developers, « 3.4. Metrics and scoring: quantifying the quality of predictions », scikit-learn documentation, 2024 ; Google Developers, « Classification: ROC and AUC », Google Developers, 2020 ; Kaggle, « Evaluation metrics for competitions », Kaggle, 2019.

Premier mini-projet : bot Telegram en Python sans se perdre

Laisser un commentaire