Prévisions par Machine learning: séries temporelles, fondamentaux et caractéristiques

9min read • 2025-03-11Data IconData
Prévisions par Machine learning

Introduction

Les séries temporelles, également appelées séries chronologiques, sont des suites de données indexées selon le temps, avec des granularités variables (minute, heure, jour, année), permettant de capturer et d'analyser l'évolution d'une variable au fil du temps. 

La prévision temporelle, qui anticipe les événements futurs à partir de données historiques, utilise ces séries pour modéliser et prédire les tendances et comportements futurs grâce à des méthodes statistiques ou d'apprentissage automatique. Dans cet article, nous allons explorer les concepts fondamentaux liés aux séries temporelles.

Nous examinerons en détail leur nature séquentielle ainsi que les caractéristiques spécifiques de ce type de données, notamment la tendance, la saisonnalité, le bruit et les valeurs aberrantes. 

Nous soulignerons l'importance de la prévision temporelle pour anticiper les tendances futures, ainsi que le rôle essentiel des tests d'hypothèses statistiques pour valider les modèles et interpréter rigoureusement les résultats. 

Enfin, nous mettrons en évidence la nécessité de rendre les séries temporelles stationnaires, c'est-à-dire de supprimer les composantes non stationnaires, afin de simplifier l'analyse et d'améliorer les performances des modèles prédictifs. Ces concepts seront illustrés à travers un exemple pratique de prévision météorologique.

La prévision des séries temporelles

La prévision, une application fondamentale du machine learning, consiste en l'estimation de l'avenir à partir de l'analyse des données historiques et des connaissances sur le futur. Essentielle pour la planification et l'évaluation des risques, elle aide les entreprises à comprendre et à anticiper les tendances du marché et les évolutions économiques et sociales, permettant ainsi de prendre des décisions stratégiques éclairées. 

Elle revêt une importance capitale dans de nombreux domaines pour plusieurs raisons :

Planification et prise de décision : En anticipant les tendances et les comportements futurs à partir des données historiques, la prévision des séries temporelles permet aux entreprises et aux organisations de planifier efficacement leurs ressources, leurs budgets et leurs opérations.

Optimisation des processus : En comprenant les modèles temporels des données, les entreprises peuvent optimiser leurs processus de production, de gestion de stock, d'approvisionnement, de distribution et de logistique.

Amélioration de la précision : Les prévisions des séries temporelles permettent d'estimer avec précision les valeurs futures des variables étudiées, qu'il s'agisse de ventes, de demandes de produits, de prix des matières premières, etc.

Gestion des risques : En identifiant les tendances et les schémas historiques, la prévision des séries temporelles aide à anticiper les fluctuations du marché, les variations de la demande, les crises économiques et d'autres événements susceptibles d'impacter les activités commerciales.

Caractéristiques des séries temporelles

Dans une série temporelle, plusieurs caractéristiques distinctives permettent de les différencier des autres types de données.

Caractéristiques des séries temporelles

En prenant l'exemple des données météorologiques de 2010 à 2023 illustrées ci-dessus, nous pouvons identifier les composantes suivantes :

Dépendance temporelle : La dépendance temporelle dans les séries temporelles se traduit par le fait que chaque observation dépend de celles qui l'ont précédée. Par exemple, la température d'aujourd'hui est souvent similaire à celle d'hier.

Niveau (level) : Représente la valeur moyenne de la série temporelle sur une période donnée. Par exemple, dans le contexte des données météorologiques, il pourrait être illustré par la température moyenne sur une période spécifique.

Tendance (Trend) (croissante ou décroissante si elle augmente ou décroît dans le temps)  : La tendance indique la direction générale des données au fil du temps. La tendance peut être :

  • Déterministe : Lorsque la tendance suit une trajectoire prévisible et régulière au fil du temps, c'est souvent le résultat de facteurs systématiques et prévisibles. Elle est déterministe et ne dépend pas du hasard.

    Déterministe

  • Stochastique : Une tendance stochastique se caractérise par son irrégularité et son imprévisibilité, souvent influencée par des facteurs aléatoires ou des fluctuations erratiques. Elle est aléatoire et sujette à des variations temporelles.

    Stochastique

  • Globale : La tendance à la hausse s'observe sur toute la période de 2010 à 2023.
  • Locale : On pourrait identifier des tendances à court terme sur des périodes plus restreintes.

Saisonnalité (Seasonality) : La saisonnalité se réfère aux motifs récurrents et périodiques dans les données, comme les variations saisonnières de température ou de précipitations, répétées chaque année.

Saisonnalité

Bruits ou irrégularités (Noise) : Le bruit représente les variations irrégulières et aléatoires dans les données, qui ne peuvent pas être expliquées par les tendances ou la saisonnalité. Dans les données météorologiques, cela pourrait inclure des anomalies climatiques soudaines ou des erreurs de mesure.

Bruits ou irrégularités

Stationnarité : Une série temporelle est dite stationnaire si ses propriétés statistiques, telles que la moyenne, la variance et la covariance, restent constantes dans le temps. En d'autres termes, cela signifie que la série ne présente pas de tendance globale, de saisonnalité ou de cycles, et que ses caractéristiques statistiques restent constantes sur toute sa période.

La stationnarité peut être divisée en deux types principaux :

  • Stationnarité en moyenne (ou stationnarité faible) : La moyenne de la série reste constante sur toute sa période, ce qui signifie qu'il n'y a pas de tendance globale.
  • Stationnarité en variance (ou stationnarité forte) : En plus d'avoir une moyenne constante, la variance de la série reste également constante au fil du temps.

Température et Moyenne Mobile

7 (1).png

À l’inverse, une série temporelle est considérée comme non-stationnaire si elle présente l'une des caractéristiques suivantes :

  • Présence d’une tendance ;
  • Présence d’une saisonnalité ;
  • Variations de la moyenne et de la variance au fil du temps ;

Température et Moyenne Mobile (Non Stationnairé)

Température et Variance Mobile (Non Stationnairé)

Interprétation des résultats attendus :

Série stationnaire en variance :

  • Série : Fluctuations autour de zéro avec amplitude constante
  • Variance mobile : Stable autour d'une valeur constante
  • Moyenne mobile : Fluctue autour de zéro sans tendance claire

Série non-stationnaire en variance :

  • Série : Fluctuations avec amplitude variable dans le temps
  • Variance mobile : Tendance croissante et fluctuations cycliques
  • Moyenne mobile : Généralement stable autour de zéro, possibles légères fluctuations

Afin de déterminer si une série temporelle est stationnaire ou non, on a recours à une méthode connue sous le nom de test d'hypothèse statistique.

Test d’hypothèse statistique (le test de Dickey-Fuller)

Tester la stationnarité d'une série temporelle est crucial pour l'analyse et la modélisation des données temporelles. La stationnarité garantit la stabilité des propriétés statistiques de la série au fil du temps, permettant d'appliquer des modèles appropriés et d'obtenir des résultats valides et des prévisions fiables. Pour tester la stationnarité, nous utilisons le test d'Augmented Dickey Fuller (ADF).  Ce test repose sur deux hypothèses opposées :

  • Hypothèse nulle (H0): suppose que la série temporelle est non stationnaire, elle contient une racine unitaire.
  • Hypothèse alternative (H1) : si l’hypothèse nulle est rejetée, alors la série temporelle est stationnaire.

Les résultats du test d'Augmented Dickey Fuller incluent :

  • Statistique du test
  • Valeur p
  • Nombre de retards utilisés
  • Nombre d'observations utilisées
  • Valeur critique (1 %)
  • Valeur critique (5 %)
  • Valeur critique (10 %)

Pour que l'hypothèse nulle soit rejetée et accepter que la série temporelle soit stationnaire, il y a deux conditions à remplir :

  • La valeur critique (5 %) doit être supérieure à la statistique du test.
  • La valeur p doit être inférieure à 0,05.

Interprétation :

  • Si ces conditions sont satisfaites, on rejette H0 et conclut que la série est stationnaire.
  • Sinon, on ne peut pas rejeter H0, suggérant une non-stationnarité de la série.

Le test ADF est un outil puissant pour détecter la présence de racines unitaires, indicatrices de non-stationnarité. Son utilisation permet de déterminer si des transformations (comme la différenciation) sont nécessaires pour rendre la série stationnaire avant la modélisation.

L'importance de rendre une série temporelle stationnaire

Travailler avec des séries temporelles stationnaires présente plusieurs avantages significatifs, notamment une meilleure interprétabilité des modèles et une meilleure fiabilité des prévisions. Convertir une série temporelle en une série stationnaire est important pour plusieurs raisons :

Stabilité des propriétés statistiques : Pour appliquer des modèles de prévision météorologique fiables, comme les modèles ARIMA, nous devons travailler avec des données stationnaires. Dans notre cas, cela signifierait éliminer la tendance à la hausse visible dans le deuxième graphique et la saisonnalité évidente dans le troisième. Ainsi, la moyenne et la variance des températures deviendraient constantes dans le temps, facilitant l'analyse.

Interprétation simplifiée : Les séries stationnaires sont plus faciles à interpréter car elles ne présentent pas de tendance globale ou de saisonnalité apparente.  Les météorologues peuvent alors se concentrer sur les anomalies climatiques plutôt que sur les variations saisonnières prévisibles. 

Meilleure prévision : Les modèles de prévision basés sur des séries stationnaires peuvent fournir des prévisions plus précises et fiables, car ils supposent que les schémas observés dans les données sont constants au fil du temps. Par exemple, ils pourraient mieux anticiper les vagues de chaleur ou les périodes inhabituellement froides.

Stabilité des relations entre les variables : Lors de l'analyse des relations entre plusieurs séries temporelles (analyse de la causalité, cointégration, etc.), il est souvent nécessaire que ces séries soient stationnaires pour que les relations soient stables et significatives.

Conclusion

En conclusion, l'analyse des séries temporelles est un aspect fondamental de l'analyse de données, ayant de nombreuses applications dans divers domaines. Cet article a introduit les notions essentielles pour approfondir par la suite les techniques de stationnarisation, les méthodes de modélisation et leur mise en œuvre pratique avec Python. 

Les prochains articles vous permettront d'approfondir votre compréhension des techniques avancées d'extraction d'informations précieuses à partir des séries temporelles grâce au machine learning. 

Bibliographie

Gourieroux, C., & Monfort, A. (1995). Séries temporelles et modèles dynamiques (2nd ed.). Economica.

Brockwell, P. J. & Davis, R. A. (1996). Introduction to Time Series and Forecasting. Springer-Verlag Inc., New York, USA.

Mélard, G. (2007). Initiation à l'analyse des séries temporelles et à la prévision. Université Libre de Bruxelles. 

EL IDRISSI MohamedWritten By EL IDRISSI Mohamed Data & Full-Stack DeveloperXelops Technology