
Imaginez que vous entriez dans une immense pièce totalement sombre. Vous ne savez pas ce qui s’y trouve, et personne n’est là pour vous guider ou allumer la lumière. Pour comprendre l’espace, vous allez devoir avancer à tâtons, ressentir les formes, comparer les textures et regrouper mentalement les objets qui se ressemblent. Sans le savoir, vous faites un travail d'exploration pure.
C’est exactement ce que nous appelons l’apprentissage non supervisé.
Dans le monde idéal de l’intelligence artificielle, chaque donnée possèderait sa propre étiquette (par exemple : « ce client va partir », « cet achat est une fraude »). Mais dans la réalité du terrain, disposer de telles données est un luxe rare. Créer ces étiquettes à la main est un travail titanesque, coûteux et souvent sujet à l'erreur humaine.
La plupart du temps, les entreprises font face à une montagne de données "muettes" : massives, désordonnées et sans mode d'emploi.
C’est ici que l’approche non supervisée devient une alliée stratégique. Sa mission n’est pas de suivre des ordres précis ou de prédire un résultat connu d'avance, mais de révéler la structure cachée de vos activités. Elle agit comme un radar autonome capable de :
En somme, le non supervisé agit comme un radar exploratoire: il aide à comprendre avant même de prédire, et à questionner avant d’affirmer.
Toute démarche non supervisée commence par un travail de fond sur la qualité et la cohérence des données.
Dans la réalité, les jeux de données sont rarement parfaits : doublons, valeurs manquantes, erreurs de saisie ou incohérences de format sont monnaie courante.
Avant tout apprentissage, il est essentiel de :
Un pipeline de données solide, traçable et cohérent constitue la base de toute modélisation pertinente. Sans cette fondation, le modèle risque d’apprendre les artefacts techniques plutôt que la logique réelle des phénomènes observés.
Les algorithmes non supervisés n’ont aucune connaissance du contexte métier : c’est au data scientist de construire ce sens.
Le feature engineering devient alors une étape clé : il s’agit de construire des indicateurs qui traduisent le comportement, la relation ou l’évolution des entités observées.
Exemples courants :
Une fois les variables définies, on applique des techniques d’encodage et de mise à l’échelle adaptées à leur nature pour éviter qu’une seule dimension ne domine le calcul. Enfin, des méthodes comme la PCA (Analyse en Composantes Principales, voir article complet) condensent l’information dans un espace plus compact et interprétable tout en réduisant le bruit.
L’apprentissage non supervisé n’est pas une méthode unique, mais un écosystème d’approches.
Chaque algorithme incarne une vision différente de ce qu’est une “anomalie” ou une “structure” dans les données.
Intuition :
Les anomalies sont rares et différentes; il faut donc moins de décisions pour les isoler que pour les points normaux.
Isolation Forest exploite cette idée simple : il crée de nombreux arbres de décision aléatoires et observe combien de coupures (ou « splits ») sont nécessaires pour isoler chaque observation.
Mécanisme :
Pourquoi ça marche :
Un point rare est souvent « seul » dans une région de l’espace : il sera donc séparé du reste dès les premières divisions.
Les points normaux, eux, nécessitent plus de divisions car ils se trouvent dans des zones denses.
Forces :
Limites :

Intuition :
Une observation peut paraître normale à l’échelle globale, mais être isolée dans son voisinage immédiat.
Le LOF mesure donc la densité locale autour d’un point et la compare à celle de ses voisins.
Mécanisme :
Pourquoi c’est puissant :
LOF identifie des anomalies contextuelles: un point peut être rare uniquement dans une région donnée du jeu de données, sans l’être globalement.
Exemple : un salarié avec un salaire normal à Paris mais très élevé dans une petite ville — LOF le détectera.
Forces :
Limites :

Intuition :
Les individus semblables forment naturellement des groupes (« clusters »). Les points éloignés du centre de tout cluster peuvent être considérés comme atypiques.
Mécanisme :
Extensions utiles :
Forces :
Limites :

Intuition :
Plutôt que de chercher à isoler les anomalies, on cherche à délimiter la zone normale.
Le One-Class SVM apprend une frontière qui englobe la majorité des données : tout ce qui se situe à l’extérieur est considéré comme anormal.
Mécanisme :
Forces :
Limites :

Intuition :
Un système bien entraîné sur les comportements “normaux” apprend à les reproduire fidèlement. Lorsqu’il rencontre quelque chose d’inhabituel, il échoue à le reconstruire: l’erreur de reconstruction devient un signal d’anomalie (voir article complet).
Mécanisme :
Variantes :
Forces :
Limites :

L’absence de vérité terrain rend l’évaluation du non supervisé délicate: comment savoir si les anomalies détectées sont “bonnes” si personne ne les a validées ?
On se base alors sur des indicateurs internes, des mesures de cohérence et, parfois, un consensus entre modèles.
Ces métriques servent à juger la qualité du clustering produit par le modèle — autrement dit, à vérifier s’il a su dégager une organisation logique des données.
Cet indicateur évalue la cohésion d’un cluster et sa séparation vis-à-vis des autres. Un score proche de 1 signifie que les individus sont bien rassemblés autour de leur centre et clairement distincts des autres groupes. Il est particulièrement utile pour choisir le bon nombre de clusters ou comparer différents algorithmes de regroupement.
Il mesure le compromis entre compacité interne et séparation externe. Plus l’indice est faible, plus les clusters sont nets et peu chevauchants. Il permet de détecter les partitions floues où des groupes se recouvrent partiellement.
Cette métrique examine le rapport entre la dispersion inter-clusters et intra-clusters. Un score élevé indique des groupes denses, bien distincts les uns des autres. C’est une mesure synthétique, efficace pour valider la structure globale du modèle.
Ces métriques donnent une idée de la qualité du regroupement, mais ne disent rien sur les anomalies elles-mêmes.
Une fois la structure validée, on s’intéresse aux observations qui s’en écartent. Chaque famille de modèles produit son propre indicateur d’« éloignement à la norme ».
Elle compare les données originales à leur reconstruction. Un écart élevé traduit un comportement que le modèle n’a pas appris à reproduire — un signal d’anomalie fort. C’est une mesure intuitive: plus le système échoue à reconstituer une donnée, plus celle-ci est singulière.
Il reflète la facilité avec laquelle un point peut être isolé des autres. Les observations rares, séparées rapidement par les arbres du modèle, obtiennent des scores proches de 1. Ce score capture bien les comportements extrêmes ou rares.
Ici, la rareté est perçue à travers la densité locale. Un individu entouré de peu de voisins similaires reçoit un score d’anomalie élevé. Cette approche détecte efficacement les irrégularités « contextuelles » — celles qui ne sont pas extrêmes globalement, mais décalées dans leur voisinage.
Les modèles probabilistes estiment la vraisemblance d’une observation au regard de la distribution globale. Les points à faible probabilité sont considérés comme atypiques. C’est une approche plus statistique, utile quand on cherche une interprétation quantitative de la rareté.
Aucune méthode n’offre une vision complète du phénomène. Chaque algorithme capture une facette différente de la « normalité ». Pour renforcer la fiabilité, on combine plusieurs modèles et on observe leur niveau d’accord.
On exécute plusieurs détecteurs (ex. : Isolation Forest, LOF, Autoencodeur, GMM), puis on agrège leurs scores. Les observations signalées par plusieurs méthodes sont considérées comme plus fiables : le consensus agit comme un filtre qui réduit les faux positifs.
Pour quantifier ce consensus, on utilise :
Un fort accord entre modèles indépendants indique un signal robuste, c’est-à-dire une anomalie structurelle et non un simple artefact algorithmique.
Enfin, le non supervisé gagne en précision lorsqu’il s’intègre dans une boucle d’apprentissage :
Ce cycle data → modèle → validation → réapprentissage transforme le non supervisé en véritable outil d’apprentissage continu.
L’apprentissage non supervisé est avant tout un outil d’exploration intelligente.
Sa force ne réside pas dans la complexité des algorithmes, mais dans la rigueur du pipeline et la pertinence de l’interprétation. Il permet de comprendre avant de prédire, de détecter avant d’expliquer, et d’orienter l’expertise humaine là où elle apporte le plus de valeur.
Dans des domaines sensibles comme la santé, il devient un allié stratégique pour renforcer la vigilance, fiabiliser les processus et nourrir une culture data fondée sur la découverte et l’amélioration continue.