1/75
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
Donnée
C'est l'enregistrement d'une observation, d'un objet ou d'un fait destiné à être interprété, traité par l'homme. Généralement objective.
Information
C'est le signifiant attaché à la donnée ou à un ensemble de données. Généralement subjective, définie selon un contexte.
Connaissance
C'est une nouvelle information, apprise par l'association d'informations de base, de règles, de raisonnement, d'expérience ou d'expertise.
OLTP
On-Line Transactional Processing
Bases de données transactionnelles permettant de traiter des données de manière transactionnelle et fiable, basées sur le modèle relationnel.
Transaction
Unité logique de travail sur la base de données.
Propriétés ACID
Atomicité, Cohérence, Isolation, Durabilité - propriétés respectées par le modèle relationnel.
Atomicité
Une transaction forme une unité indivisible.
Cohérence
Une transaction transforme la base de données d'un état cohérent à un autre état cohérent.
Isolation
Les transactions s'exécutent de manière indépendante les unes des autres.
Durabilité
Les effets d'une transaction achevée sont inscrits de manière durable et ne peuvent être perdus suite à une défaillance.
SGBD
Système de Gestion de Bases de Données : permet de stocker, manipuler et partager des données (ex : Oracle, SQL Server, DB2, INFORMIX).
Data Warehouse
Bases de données dédiées au stockage de l'ensemble des données utilisées pour la prise de décision et l'analyse décisionnelle.
ETL
Extract Transform Load
Permet d'extraire, transformer et charger les données dans le data warehouse.
OLAP
OnLine Analysis Processing
Technologie permettant d'effectuer des analyses de données multidimensionnelles sous forme de cubes.
Big Data
« Grosses données » ou méga-données : des ensembles de données si volumineux qu'ils dépassent l'intuition, les capacités humaines d'analyse et celles des outils informatiques classiques.
Volume
La masse d'informations produite qui doit être analysée et traitée ; en accroissement exponentiel.
Vélocité
La vitesse du déploiement des nouvelles données (analyser les données dès leur acquisition, avant même de les stocker).
Variété
Diversité des données : structurées (20%) et non structurées (80% : images, vidéos, textes, voix).
Véracité
La fiabilité et la crédibilité des informations collectées (dépend du volume, de la variété et de la vélocité).
Valeur
Le profit qu'on peut tirer de l'usage du Big Data.
Types de données
Données structurées : 20% des données, stockées dans des tables de bases de données relationnelles
Données semi-structurées : Données partiellement organisées sans format fixe
Données non structurées : 80% des données, sans schéma connu
Sources de données
Web et réseaux sociaux, Biométrique et génétique, Machine (RFID, GPS, IoT), Transaction de données, Humain.
MapReduce
Méthode de traitement massivement parallèle développée par Google ; stocke les données avec Google File System ; tolérante aux pannes.
Hadoop
Framework développé par Apache Software Foundation ; généralise l'usage du stockage et traitement parallèle de MapReduce et Google File System ; solution très utilisée pour analyser de grands volumes.
Bases NoSQL
Autorisent la redondance pour plus de flexibilité ; tolérantes aux pannes ; évolutives ; permettent de stocker des données sans schéma.
Domaines d'application du Big Data
Retail/Consommateur, Finances & Fraudes, Web & Médias numériques, Santé & Sciences de la vie, Télécommunications, E-commerce & service client.
Cluster
Ensemble de machines reliées entre elles travaillant comme un seul système.
Master
Machine principale d’un cluster Hadoop qui coordonne le travail.
Slave
Machine secondaire d’un cluster Hadoop qui exécute les tâches et stocke les données.
HDFS
Hadoop Distributed File System : système de fichiers distribué qui répartit les données sur plusieurs machines.
YARN
Yet Another Resource Negotiator : gestionnaire de ressources nécessaires à l’exécution des programmes.
Bloc HDFS
Unité de découpage d’un fichier dans HDFS, de taille fixe (128 Mo par défaut).
Réplication
Copie de chaque bloc sur plusieurs machines (3 par défaut) pour assurer la disponibilité des données.
Disponibilité des données
Garantie d’accéder aux données même en cas de panne grâce à la réplication.
Name Node
Pièce centrale de HDFS qui gère l’arborescence des fichiers, l’espace de nommage et la localisation des blocs.
Espace de nommage
Structure logique qui organise les noms et chemins des fichiers dans HDFS.
Méta-données
Informations décrivant les fichiers : nom, permissions, blocs, localisation, nombre de réplicas.
FsImage
Fichier système contenant la structure complète des répertoires et la liste des blocs de HDFS.
EditLog
Journal enregistrant toutes les modifications apportées à HDFS depuis la dernière FsImage.
Data Node
Nœud esclave qui stocke les blocs de données et communique leur liste au Name Node.
Secondary Name Node
Nœud de secours qui enregistre régulièrement des sauvegardes de l’annuaire du Name Node.
Machine cliente
Point d’accès au cluster permettant à l’utilisateur de se connecter et de travailler.
Spark
Framework de traitement Big Data conçu pour exécuter efficacement des traitements en mémoire, notamment les calculs itératifs.
Traitement itératif
Traitement qui répète plusieurs fois les mêmes opérations, comme PageRank ou le clustering.
PageRank
Algorithme itératif utilisé pour classer l’importance des pages web.
Clustering
Technique itérative de regroupement de données similaires.
Limite de Hadoop
Hadoop matérialise (écrit sur disque) les résultats intermédiaires, ce qui dégrade les performances.
Mémoire distribuée
Solution de Spark : garder les données en mémoire centrale et les partager entre les machines.
Mémoire centrale
Mémoire vive (RAM) où Spark conserve les données pour accélérer les traitements.
Driver
Programme principal qui lance et coordonne les tâches sur le cluster.
Exécuteurs
Processus indépendants qui réalisent les tâches de calcul sur les nœuds.
Application Spark
Ensemble composé du driver et des exécuteurs.
Worker Node
Nœud du cluster qui héberge des exécuteurs, des tâches et un cache.
Task
Unité de calcul exécutée par un exécuteur.
Cache (Spark)
Mémoire où un exécuteur conserve des données pour les réutiliser rapidement.
Cluster Manager
Composant qui gère les ressources et coordonne le driver et les workers.
SparkContext
Objet Java qui connecte l’application au cluster et permet de créer des RDD.
RDD
Resilient Distributed Dataset : structure de données distribuée, en lecture seule, stockée en mémoire.
Lecture seule (RDD)
Un RDD ne peut pas être modifié directement, on crée un nouveau RDD par transformation.
Opérations sur gros granules
Opérations appliquées à la structure entière plutôt qu’à des valeurs individuelles.
Journalisation (RDD)
Enregistrement des transformations permettant de reconstituer un RDD en cas de panne.
Tolérance aux fautes (Spark)
Capacité à récupérer les données perdues en rejouant les transformations.
Checkpointing
Sauvegarde de l’état d’un RDD sur disque pour la tolérance aux fautes.
Création de RDD
Obtenir un RDD soit en chargeant des données, soit en transformant un RDD existant.
Transformation
Opération qui produit un nouveau RDD à partir d’un RDD existant (map, filter, join…).
Persistance par défaut
Par défaut, les RDD sont conservés en mémoire ; en cas de manque d’espace, écrits sur disque.
Lazy evaluation
Évaluation paresseuse : les RDD ne sont construits que lorsqu’une action est appelée.
Mode pipelined
Exécution enchaînée des transformations seulement au moment d’une action.
Chargement sélectif
Conséquence du lazy evaluation : seules les données nécessaires sont chargées.
Limite de Hadoop
Hadoop matérialise (écrit sur disque) les résultats intermédiaires, ce qui dégrade les performances.
FsImage
Fichier système contenant la structure complète des répertoires et la liste des blocs de HDFS.
MAP
La fonction Map :
lit les données
extrait les informations utiles
produit des paires
REDUCE
regroupe les clés identiques
applique des calculs :
somme
moyenne
comptage
etc.
Étapes détaillées d’un Job MapReduce
1. Input Phase
Les données :
sont lues depuis HDFS
bloc par bloc
Chaque bloc est envoyé à un mapper.
2. Phase MAP
Chaque mapper :
traite son bloc
produit des paires intermédiaires
3. Shuffle and Sort
Cette étape est automatique.
MapReduce :
regroupe les mêmes clés
trie les données
4. Phase REDUCE
Le reducer applique des calculs.
5. Output Phase
Les résultats :
sont affichés
ou écrits dans HDFS
Fonctionnement complet d’un Job MapReduce
Étape 1 : Soumission du Job
Le client :
envoie le programme MapReduce
envoie les données vers HDFS
Étape 2 : YARN distribue les tâches
Apache Hadoop YARN :
choisit les serveurs
répartit les tâches
Étape 3 : Application Master
L’Application Master :
lance les tâches
coordonne Map et Reduce
surveille l’exécution
Étape 4 : Exécution sur les nœuds
Les machines esclaves :
exécutent les tâches MapReduce
utilisent les données HDFS
Le NodeManager :
surveille CPU et RAM
détecte les pannes