Quand on travaille avec des données complexes, il est courant d’être confronté à un problème de « trop » : trop de colonnes, trop de dimensions, et au final, trop de bruit. Ce genre de complexité peut ralentir les modèles d’intelligence artificielle (IA), rendre les calculs inefficaces, et augmenter le risque de surapprentissage. Heureusement, il existe des solutions puissantes comme le PCA (Principal Component Analysis) pour réduire cette complexité sans perdre l’essentiel de l’information. Dans cet article, nous allons explorer comment le PCA a été utilisé pour simplifier des données complexes tout en préservant 95 % de leur information.
Source de l’image: « Understanding the Mathematics behind Principal Component Analysis », Fritz.ai, 2023.
Prenons un exemple concret : un dataset ayant COULEUR comme attribut. Dans ces données, la colonne COULEUR contient 22 couleurs différentes, telles que rouge, bleu, vert, bordeaux, etc., représentant différentes teintes. Pour rendre ces catégories compréhensibles pour un modèle d’IA, on applique souvent un encodage one-hot, où chaque valeur unique est transformée en une colonne binaire. Cependant, ce processus crée 22 nouvelles colonnes, augmentant la dimensionnalité des données.
Conséquences :
C’est là que le PCA intervient pour simplifier les choses.
Le PCA (Principal Component Analysis) est une technique mathématique qui transforme vos données en un nouvel ensemble de variables appelées composantes principales. Ces composantes sont des combinaisons linéaires des variables initiales, calculées pour capturer un maximum de variance (information) tout en étant orthogonales (sans redondance).
Voici les étapes clés de PCA :
Pour savoir combien de composantes principales à garder, on peut utiliser une méthode simple et visuelle : la courbe de la variance cumulée expliquée. Cette courbe montre la part d’information (ou variance) capturée par chaque composante principale, additionnée au fur et à mesure.
L’objectif est de choisir un nombre de composantes qui capture la majorité de l’information, souvent entre 90 % et 95 %. Par exemple :
En testant différents seuils (90 %, 95 %, etc.), vous pouvez trouver le bon équilibre entre réduire la taille des données et garder assez d’information pour que vos modèles soient performants. Si un modèle fonctionne mieux avec un seuil plus bas, vous pouvez ajuster en conséquence. Cette méthode est donc un moyen pratique d’optimiser à la fois vos données et vos résultats.
Prenons le cas de l’attribut COULEUR mentionné précédemment, où chaque valeur unique a été encodée en une colonne binaire (one-hot encoding). Cela a généré un total de 22 colonnes. Après application du PCA, les résultats suivants ont été obtenus pour les 8 premières composantes principales :
Pour mieux comprendre ces résultats, voici un graphique illustrant la variance cumulée expliquée par les composantes principales :
Voici les avantages observés après l’application du PCA :
Pour mieux comprendre le PCA, imaginez un espace à 22 dimensions – c’est ainsi que vos données avec 22 colonnes sont représentées. Dans cet espace, le PCA cherche à simplifier les choses en trouvant les axes principaux qui capturent le plus d'informations.
Le PCA, c’est l’exemple parfait de la beauté dans la simplicité. Il transforme un labyrinthe de données complexes en un chemin clair et direct, tout en conservant l’essence même de l’information. Réduire 22 colonnes à 8 composantes principales sans perdre 95 % de la variance, c’est un peu comme faire de l’art avec des mathématiques.
Dans les projets d’IA, il n’est pas toujours nécessaire de tout garder. Trouver ce qui est essentiel et se débarrasser du reste, c’est là que réside la magie – et, avouons-le, la vraie beauté. Simplifiez, testez, et admirez les résultats.