Synthèse - Data Science

Méthode Scientifique

  • La méthode scientifique est un processus systématique qui inclut la formulation d'une théorie, la prédiction d'événements, la réalisation d'expériences et l'observation des résultats.

  • Les étapes d'un projet en science des données comprennent la collecte de données, le prétraitement, la modélisation et l'évaluation des résultats obtenus.

Notions sur les Données

  • Les données peuvent être classées en données numériques et variables primitives, qui sont essentielles pour les analyses quantitatives.

  • Les données sont également classées en structurées (organisées dans des formats fixes), semi-structurées (comme JSON ou XML) et non structurées (comme les textes ou les images).

Concepts Mathématiques

  • La Loi normale est une distribution en forme de cloche dont la moyenne et l'écart-type peuvent prednre n'improte quelles valeurs. Elle représente la distrbution réelle des données.

  • La Loi normale standard (centrée réduite) est une distribution dont ;a moyenne est de 0 et l'écart type est 1. ON y applique une formule pour la centrer autour de zéro et calculer un score Z standard abvec l'écart type de 1.

  • Le score Z est le nombre d'écarts-types entre une valeur et la moyenne. Peut etre postif ou négatif.

  • La variance est le niveau auquel les données sont dispersées autour de la moyenne. PLus la variance est haute plus la courbe est plate.

  • Un calcul de probabilité à partir d'un tableau en revient à additiionner les porbabilités des évenenements associées et les diviser par le nombre total de l'échantillon. Le total des probabilités est égale à 1.

  • La fonction de répartition (Cumulative Distributive function) donne la probabililté qu'une valeur aléatoire soit inferieure ou égale à une valeur x sous la distribution courante, dans ce cas ci, la distribution sous la loi normale.

Règles de probabilités

  • indépendance: La probabilité d'une variable n'a aucun effet sur la probabilité d'une autre

  • conditionnel: La probabilité d'une variable à un effet sur la probabiilité d'une autre

  • addition: La probabilité est donnée par la somme de deux évenements. probabiliité de C ou B, par exemple

  • multiplication: s'utilise pour trouver la chance que deux événements ou plus se produisent ensemble (le "et"), en multipliant leurs probabilités individuelles probabilité de C et B.

  • Théorème de Bayes: mettre à jour la probabilité d'une hypothèse (probabilité a posteriori) face à de nouvelles preuves ou informations

Algèbre linéaire

  • L'addition de vecteur additionne chaque composante correspondante pour donner le vecteur résultat. Le produit scalaire multiplie chanque composante du vecteur par une constante. La norme et la amgnitude sont synonymes, ils veuleut tous les duex dire la longueur du vecteur et sont calculés avec le théorème de Pythagore sur les composantes individuelles du vecteur (x,y devient la racine carrée de x à la deux + y à la deux)

  • L'adition de matrice se fait entre deux matrices de même dimensions et els composantes correspondantes sont additionnées pour former la matrice résultante. La multiplication de matrices de fait entre deux matrice de taille m x n et n x m et les composantes correspondantes sont multipliées et additionnées pour donne la matrice résultante c'est a dire que les lignes sont combinées avec les colonnes.

Représentation et manipulation de données

  • Les données sont les valeurs brutes avec lesquelles ont effectue les interprétations.

  • Les métadonnées sont les données qui décrivent les données brutes. Elles apportent des clarifications quant à la nature ou l'unité des donnée par exemple.

  • L'en-tête est le titre significatif assigné à une collection de même type

  • Les métadonnées descriptives ont pour but de faciliter l'identification et l'interprétation des données brutes. Ex. Le titre d'un livre dans un registre bibliothécaire

  • Les métadonnées structurelles décrivent la nature des données, leur format et leur connections avec le reste des données. Elle peuvent décrire des relations qui existent entre les données bruts. Ex clé primaire dans une base de données

  • Le métadonnées administratives sont utilisées pour la gestion, l'entreposage et la manipulation des données bruts. Ex. format de fichiers, date de collecte

  • Dans une table de données les opérations possibles sont les suivantes: La sélection(filtre els lignes selon des conditions), la projection(sélectionne des colonnes ou attributs), la jointure(combine des lignes de deux tables différentes), le regroupement(agrège des lignes ayant des valeurs identiques pour un ou plusieurs attributs)

Préparation et visualisation des données

Nettoyage de données

  • Standardiser les noms des en tête

  • Harmoniser le format des données collectées et les regrouper sous la même en-tête

  • Filtrage: pour la suppression des doublons, gestion des valeurs manquantes / aberrantes

  • Les erreurs dans un jeu de données peuvent être des erreurs de frappe, des entrées dans la mauvaise colonne ou liée à un caractère non accepté.

  • La gestion des données manquantes, aberrantes ou des doublons peut être faite en supprimant la ligne, en supprimant la colonne si elle ne participa pas à l'analyse ou en imputant les valeurs avec la médiane, la moyenne ou une approximation faite à partir des voisins immédiats ou d'une même classe. Dans tous les cas, on devrait éviter d'utiliser la donnée pour tirer des conclusions parce qu'elle ne fait pas réellement parmi de la distribution.

  • La validation des données vérifie la conformité des données à des règles prédéfinies (format, type, plage de valeurs), tandis que la vérification des données confirme leur exactitude et cohérence avec la réalité ou la source originale

Types de graphes

Utiliser un graphique en ligne pour les tendances temporelles, un diagramme en barres pour comparer des catégories, un histogramme pour la distribution de données continues, un nuage de points pour les relations entre deux variables, un graphe de proportion (circulaire) pour les parties d'un tout (avec prudence), et un graphe de distribution (histogramme, boîte à moustaches) pour voir comment les données sont réparties.

Apprentissage automatique

3 types d'apprentissage automatique. L'apprentissage supervisé sous lequel les données sont étiquetés et le modèle vise à prédire l'étiquette de nouvelles données, à partir des données d'entrainement, ex. classification, régression ou fonction objectif. L'apprentissage par renforcement cherche seulement a corriger le modèle quand il se trompe, au delà de quoi, on le laisse tirer ses propres conclusions à partir des données, ex. le principe de récompenses. L'apprentissage non supervisé cherche à exposer des patterns sous-tendants qui peuvent se trouver dans les données, ex clustering.

L'optimisation est le fait de minimiser ou maximiser l'effet ou la valeur d'une variable sur l'ensemble. Dans le cas de l'apprentissage automatique, l’objectif est souvent de minimiser une fonction de coût, qui mesure l'erreur entre les prédictions du modèle et les données réelles. Les extremum locaux sont représentés par la fonciton dérivée de l'originale égalant zéro., ce qui signifie que la pente est nulle et les dérives secondes (et potentiellement d’ordre supérieur), pour l’information de courbure. Le dérivé partielle d'une fonction à n dimensions est el gradient. Pour une position donnée, le gradient à ce point nous donne la direction de la pente. (la direction de montée, avec la pente la plus grande), donc pour « descendre » (minimiser), il faudra itérativement : faire un « pas » (step) dans la direction opposée au gradient. Le gradient nous indique comment ajuster nos variables, ou paramètres, afin de minimiser la fonction objectif.

Méthodes de régression

la régression est la collection de méthodes d'analyse destinées à estimer la relation entre plusieurs variables. La régression concerne la prédiction de variables quantitatives / continues (tandis que les problèmes de classification se focalisent sur la prédiction de classe).

Pour mesurer l'erreur, il faudra mesurer l’erreur entre les données mesurées (𝑥𝑖 ), et leur valeur associée (𝑦𝑖 ), Cette erreur (ou différence) est souvent notée : 𝜀𝑖 = ℎ𝜽(𝑥𝑖) − 𝑦𝑖

Fonctions de coût (d’erreur) courantes :

Somme des erreurs aux carrés (Sum Squared Error - SSE), lors de minimisation, équivaut à la moyenne des erreurs aux carrés (MSE)

Somme des erreurs absolue (Sum Absolute Error - SAE)

Pour la régression linéaire (1D), le modèle est une droite : ℎ𝜽 𝑥 = 𝜃1 𝑥 + 𝜃0 Paramètres : 𝜃1 représente la pente, et 𝜃0 l’ordonnée à l’origine / hauteur • On cherche donc à optimiser les paramètres 𝜃0 et 𝜃1 du modèle pour minimiser la distance entre nos points (observations) et la ligne (modèle).

La régression logistique est utilisée pour les problèmes de classification où la variable dépendante est binaire (vrai ou faux). Donne la probabilité d’appartenir à la classe 1 ( vrai) : Le lien avec la « matrice de confusion » est que le l'estimation des classes en utlisant cette regréssion est assez à point. La régression logistique n-dimensions sépare toujours deux classes, mais par un hyperplan.

Avec la régression polynomiale, on cherche à ajuster le polynome aux données observées. Il est possible de trop ajuster le modèle (degré de polynome trop haut) de manière à ce que le bruit fasse fluctuer le modèle au lieu de laisser celui-ci prédire la tendance.

L'estimation de l'apprentissage se fait en deux grandes catégories. Le sous-apprentissage se produit quand le modèle est trop simple pour capturer la tendance des données, ce qui produit une mauvaise performance sur les données dù,entrainement et sur les nouvelles données. Causé par des modèles trop basiques, comme appliquer une régression linéaire sur des données non lineaires. Le sur-apprentissage survient lorsque le modèle est trop complexe et capture non seulement les relations mains aussi les anomalie des données d'entrainement.

Pour éviter ou corriger le sur-apprentissage et vérifier que le modèle est robuste, on utililse une validation. On peut utiliser une validation croisée, qui utilise une ensemble de validation pour déterminer si le modèle généralise bien. On peut utiliser la validation k-folds qui divise les données en ensembles et testent le modèle sur celles-ci, on veut que la variation soit base entre les ensembles. La réduction de complexité permet de simplifier el modèle en limitant ses paramètres aux données dont l'influence est la plus significative, comme LDA, ICA,PCA et t-SNE.

Séries temporelles

Une série temporelle (ou série chronologique) est une série créée par plusieurs mesure d'une même variable à différents moments dans le temps. La tendance d'une série est son mouvement à long terme. la saisonnalité est plutôt la répétition de cycles à court terme, à des intervalles plutôt réguliers. Le résidu est tout ce qui reste après les tendances. Il s'agit de données aberrantes ou imprévisibles de la variable observées.

Les domaines fréquentiels et temporels désignent respectivement la manière dont fluctuation de la valeur et l'évolution de la variable dans le temps.  permet de décomposer une fonction temporelle en une somme ou une intégrale de sinus et cosinus de différentes fréquences. Cela facilite ainsi la transition du domaine temporel au domaine fréquentiel. La transformation de Fourier est exactement cela: La transition du domaine temporel au domaine fréquentiel.

Corrélation

La corrélation de Pearson est donnée par un coefficient (de Pearson) contenue entre -1 et 1 et il nous informe sur s'il existe une relation linéaire positive ou négative entre les données. L'autocorrelation mesure la corrélation entre une série temporelle et ses propres valeurs laguées à différents intervalles de temps, indiquant ainsi la tendance ou la saisonnalité dans les données. L'autocorrelation partielle se concentre sur la corrélation directe entre une observation actuelle et une observation laguée, en tenant compte des influences des valeurs intermédiaires. Ces outils sont cruciaux pour identifier des patterns et des relations dans les données temporelles, et sont souvent utilisés dans l'analyse des modèles autorégressifs.

L'interpolation est l'estimation d'une valeur la plus probable dans des conditions données dans le passé, l'extrapolation est l'estimation d'une valeur future probable selon les valeurs présentes.

L'Analyse Exploratoire des Données (AED) est une approche statistique et visuelle pour comprendre un jeu de données, découvrir des tendances, repérer des anomalies et générer des hypothèses avant une modélisation formelle. Dans el contexte des séries temporelles

L'ajustement de courbes de séries temporelles consiste à trouver une fonction (droite, courbe polynomiale, Gompertz, etc.) qui modélise la tendance générale d'une série de données dans le temps, souvent pour la simplifier, enlever les variations saisonnières et prévoir les valeurs futures en extrapolant cette tendance, avec des méthodes comme les moindres carrés, l'analyse des résidus pour détecter des aberrations, et l'identification des composantes (tendance, saisonnalité) via des techniques comme la désaisonnalisation pour une meilleure estimation. Le but est plutot de faire ressortir la tendance générale de la série.

Les modèles AR, MA, ARMA et ARIMA sont des techniques fondamentales pour la prédiction de séries temporelles, permettant d'anticiper les valeurs futures en se basant sur les données passées. Le modèle AR (AutoRégressif) utilise les valeurs passées pour prédire l'avenir ; MA (Moyenne Mobile) utilise les erreurs passées ; ARMA combine AR et MA ; et ARIMA ajoute une étape de différenciation (I) à l'ARMA pour rendre la série stationnaire, le rendant très efficace pour capturer les tendances et la saisonnalité, grâce à ses paramètres (p, d, q).

  1. Modèle AR (AutoRégressif)

  • Principe : La valeur actuelle est une combinaison linéaire des observations passées.

  • Utilité : Prédiction où les chocs se dissipent progressivement dans le temps. 

  1. Modèle MA (Moyenne Mobile)

  • Principe : La valeur actuelle est une combinaison linéaire des erreurs aléatoires (bruit blanc) passées.

  • Utilité : Capture les fluctuations autour d'une moyenne, modélisant l'impact des chocs passés. 

  1. Modèle ARMA (AutoRégressif à Moyenne Mobile)

  • Principe : Combine les approches AR et MA (p, q) pour modéliser les données stationnaires, en utilisant à la fois les valeurs passées et les erreurs passées. 

  1. Modèle ARIMA (AutoRégressif Intégré à Moyenne Mobile)

  • Principe : C'est un modèle ARMA qui intègre une composante de différenciation (I).

  • Utilité : Transforme les séries non stationnaires (avec tendance) en séries stationnaires (flottant autour d'une moyenne).

  • Paramètres (p, d, q) :

  • p : Ordre de la partie AutoRégressive (AR).

  • d : Ordre de la différenciation (I) pour la stationnarisation.

  • q : Ordre de la partie Moyenne Mobile (MA). 

Traitement de données

Les mesures de distance sont utilisées pour mesurer la distance entre deux points. Possiblement, on peut utiliser ceci pour mesurer la distance entre deux points créés par des modèles différents

  • Distance Euclidienne : La distance en ligne droite, la plus courante.

  • Distance de Manhattan (ou urbaine) : Somme des différences absolues des coordonnées (coût en "blocs").

  • Distance de Minkowski : Généralisation des deux précédentes.

  • Distance de Hamming : Utilisée pour comparer des chaînes de caractères ou des données binaires (nombre de positions différentes). 

Techniques de recherche

La valeur k dans l'algorithme k-NN détermine le nombre de voisins qui seront pris en compte pour établir la classification d'un point donné.

Son obejctif est l'estimation ou l'imputation de la classe d'une donnée.

Le processus est le suivant:

  1. Choisir le nombre de voisins

  2. calculer la distance entre le nouveau point et les k plus proches voisins

  3. Séparer els voisins les plus proches selon leur classe

  4. Associer le nouveau point de données à la classe la plus représentée

Structures de recherche de données:

  • Un Tableau/Chiffrier est une structure de données simple pour stocker des éléments de manière contiguë (indexée)

  • Arbre de Recherche Binaire (ARB) organise les données de façon hiérarchique (nœuds avec au plus deux enfants) pour des recherches efficaces (O(log n) en moyenne)

  • Arbre de Recherche Multidimensionnel (MD-Tree) généralise cela pour des données complexes dans des espaces de dimensions supérieures, optimisant les recherches spatiales (comme les voisins les plus proches) en divisant l'espace de manière adaptative

Arbres de décisions:

  • Principe et utilisation: Les arbres de décisions fonctionnent de manière à énumérer les variables ou les choix possibles pour arriver à une décision, qui composent les feuilles de l'arbre. Ils sont utilisé pour démontrer et effectuer le processus de décision d'un algorithme quelconque.

  • Construction de l'arbre: L'arbre démarre avec l'état initial de l'objet. Ces décisions primaires y sont connectées, et les décisions primaires à celles-ci sont connectées aux premiers noeuds, ainsi de suite, jusqu'à arriver à un noeud terminal (feuille) qui compose une décision

  • Avantages: Facilité d’interprétation : la logique booléenne et les représentations visuelles des arbres de décision facilitent leur compréhension et leur utilisation. La nature hiérarchique d’un arbre de décision permet également de voir facilement quels sont les attributs les plus importants, ce qui n’est pas toujours évident avec d’autres algorithmes, comme les réseaux neuronaux. Peu voire aucune préparation des données requise : les arbres de décision présentent un certain nombre de caractéristiques qui les rendent plus flexibles que les autres classificateurs. Ils peuvent gérer différents types de données, par exemple les valeurs discrètes ou continues et les valeurs continues peuvent être converties en valeurs catégorielles grâce à l’utilisation de seuils. De plus, ils peuvent gérer des valeurs avec des valeurs manquantes, ce qui peut être problématique pour d’autres classificateurs, comme la méthode de classification naïve bayésienne. Plus de flexibilité : les arbres de décision peuvent être utilisés à la fois pour les tâches de classification et de régression, ce qui les rend plus flexibles que certains autres algorithmes. Ils sont également insensibles aux relations sous-jacentes entre les attributs ; cela signifie que si deux variables sont hautement corrélées, l’algorithme ne choisira que l’une des fonctionnalités sur lesquelles se baser.

  • Limitations: Sujets au sur-ajustement : les arbres de décision complexes ont tendance à être surdimensionnés et ne se généralisent pas correctement aux nouvelles données. Ce scénario peut être évité grâce aux processus de pré-élagage ou de post-élagage. Le pré-élagage arrête la croissance de l’arbre en cas de données insuffisantes, tandis que le post-élagage supprime les branches dont les données sont inadéquates après la construction de l’arbre. Estimateurs de variance élevés : de petites variations dans les données peuvent produire un arbre de décision très différent. Le bagging ou moyenne des estimations peut être une méthode permettant de réduire la variance des arbres de décision. Cependant, cette approche est limitée car elle peut conduire à des prédicteurs hautement corrélés. Coût plus élevé : étant donné que les arbres de décision induisent une phase de recherche exigeante pendant la construction, leur formation peut être plus coûteuse que d’autres algorithmes.

  • L'arbre de régression est un type d'arbre de décisions. Il utilise la somme des carrés et l'analyse de régression pour prévoir des valeurs du champ cible et s'applique lorsque vous voulez prédire une valeur numérique continue. Cette méthode compare toutes les caractéristiques à la fois et en arrive à une conclusion.

  • La forêts d'arbres décisionnels permet de limiter le biais et le sur-ajustement en utilisant plusieurs arbres décisionnels avec moins de caractéristiques, ce qui permet de mieux représenter la variation des combinaisons et faire une estimation moins spécifique.

Big Data

Ce sont des ensembles de données gigantesques, diversifiés (structurés, non structurés), qui arrivent à une vitesse fulgurante, bien au-delà des capacités des logiciels traditionnels, et qui sont analysés par des outils avancés (IA, Machine Learning) pour en extraire des informations précieuses et prendre des décisions éclairées, améliorer les processus, personnaliser l'expérience client, innover et optimiser les opérations dans presque tous les secteurs, comme la santé, la finance, le commerce ou les villes intelligentes. Le volume est la quantité d'informations reçue, la vélocité est la vitesse à laquelle l'information arrive, la variété est la diversification des sources et des données, la véracité est l'exactitude des données reçues et la valeur est déterminée par ce que l'entreprise juge important de ce qu'ils peuvent tirer des données. La valeur peut être intrinsèque ou peut devoir être extraite ou minée.