Big Data

0.0(0)

Studied by 0 people

Call Kai

Learn

Practice Test

Spaced Repetition

Match

Flashcards

Knowt Play

Card Sorting

1/75

There's no tags or description

Looks like no tags are added yet.

Last updated 11:32 PM on 5/28/26

Name	Mastery	Learn	Test	Matching	Spaced	Call with Kai

No analytics yet

Send a link to your students to track their progress

76 Terms

New cards

Donnée

C'est l'enregistrement d'une observation, d'un objet ou d'un fait destiné à être interprété, traité par l'homme. Généralement objective.

New cards

Information

C'est le signifiant attaché à la donnée ou à un ensemble de données. Généralement subjective, définie selon un contexte.

New cards

Connaissance

C'est une nouvelle information, apprise par l'association d'informations de base, de règles, de raisonnement, d'expérience ou d'expertise.

New cards

OLTP

On-Line Transactional Processing

Bases de données transactionnelles permettant de traiter des données de manière transactionnelle et fiable, basées sur le modèle relationnel.

New cards

Transaction

Unité logique de travail sur la base de données.

New cards

Propriétés ACID

Atomicité, Cohérence, Isolation, Durabilité - propriétés respectées par le modèle relationnel.

New cards

Atomicité

Une transaction forme une unité indivisible.

New cards

Cohérence

Une transaction transforme la base de données d'un état cohérent à un autre état cohérent.

New cards

Isolation

Les transactions s'exécutent de manière indépendante les unes des autres.

New cards

Durabilité

Les effets d'une transaction achevée sont inscrits de manière durable et ne peuvent être perdus suite à une défaillance.

New cards

SGBD

Système de Gestion de Bases de Données : permet de stocker, manipuler et partager des données (ex : Oracle, SQL Server, DB2, INFORMIX).

New cards

Data Warehouse

Bases de données dédiées au stockage de l'ensemble des données utilisées pour la prise de décision et l'analyse décisionnelle.

New cards

ETL

Extract Transform Load

Permet d'extraire, transformer et charger les données dans le data warehouse.

New cards

OLAP

OnLine Analysis Processing

Technologie permettant d'effectuer des analyses de données multidimensionnelles sous forme de cubes.

New cards

Big Data

« Grosses données » ou méga-données : des ensembles de données si volumineux qu'ils dépassent l'intuition, les capacités humaines d'analyse et celles des outils informatiques classiques.

New cards

Volume

La masse d'informations produite qui doit être analysée et traitée ; en accroissement exponentiel.

New cards

Vélocité

La vitesse du déploiement des nouvelles données (analyser les données dès leur acquisition, avant même de les stocker).

New cards

Variété

Diversité des données : structurées (20%) et non structurées (80% : images, vidéos, textes, voix).

New cards

Véracité

La fiabilité et la crédibilité des informations collectées (dépend du volume, de la variété et de la vélocité).

New cards

Valeur

Le profit qu'on peut tirer de l'usage du Big Data.

New cards

Types de données

Données structurées : 20% des données, stockées dans des tables de bases de données relationnelles
Données semi-structurées : Données partiellement organisées sans format fixe
Données non structurées : 80% des données, sans schéma connu

New cards

Sources de données

Web et réseaux sociaux, Biométrique et génétique, Machine (RFID, GPS, IoT), Transaction de données, Humain.

New cards

MapReduce

Méthode de traitement massivement parallèle développée par Google ; stocke les données avec Google File System ; tolérante aux pannes.

New cards

Hadoop

Framework développé par Apache Software Foundation ; généralise l'usage du stockage et traitement parallèle de MapReduce et Google File System ; solution très utilisée pour analyser de grands volumes.

New cards

Bases NoSQL

Autorisent la redondance pour plus de flexibilité ; tolérantes aux pannes ; évolutives ; permettent de stocker des données sans schéma.

New cards

Domaines d'application du Big Data

Retail/Consommateur, Finances & Fraudes, Web & Médias numériques, Santé & Sciences de la vie, Télécommunications, E-commerce & service client.

New cards

Cluster

Ensemble de machines reliées entre elles travaillant comme un seul système.

New cards

Master

Machine principale d’un cluster Hadoop qui coordonne le travail.

New cards

Slave

Machine secondaire d’un cluster Hadoop qui exécute les tâches et stocke les données.

New cards

HDFS

Hadoop Distributed File System : système de fichiers distribué qui répartit les données sur plusieurs machines.

New cards

YARN

Yet Another Resource Negotiator : gestionnaire de ressources nécessaires à l’exécution des programmes.

New cards

Bloc HDFS

Unité de découpage d’un fichier dans HDFS, de taille fixe (128 Mo par défaut).

New cards

Réplication

Copie de chaque bloc sur plusieurs machines (3 par défaut) pour assurer la disponibilité des données.

New cards

Disponibilité des données

Garantie d’accéder aux données même en cas de panne grâce à la réplication.

New cards

Name Node

Pièce centrale de HDFS qui gère l’arborescence des fichiers, l’espace de nommage et la localisation des blocs.

New cards

Espace de nommage

Structure logique qui organise les noms et chemins des fichiers dans HDFS.

New cards

Méta-données

Informations décrivant les fichiers : nom, permissions, blocs, localisation, nombre de réplicas.

New cards

FsImage

Fichier système contenant la structure complète des répertoires et la liste des blocs de HDFS.

New cards

EditLog

Journal enregistrant toutes les modifications apportées à HDFS depuis la dernière FsImage.

New cards

Data Node

Nœud esclave qui stocke les blocs de données et communique leur liste au Name Node.

New cards

Secondary Name Node

Nœud de secours qui enregistre régulièrement des sauvegardes de l’annuaire du Name Node.

New cards

Machine cliente

Point d’accès au cluster permettant à l’utilisateur de se connecter et de travailler.

New cards

Spark

Framework de traitement Big Data conçu pour exécuter efficacement des traitements en mémoire, notamment les calculs itératifs.

New cards

Traitement itératif

Traitement qui répète plusieurs fois les mêmes opérations, comme PageRank ou le clustering.

New cards

PageRank

Algorithme itératif utilisé pour classer l’importance des pages web.

New cards

Clustering

Technique itérative de regroupement de données similaires.

New cards

Limite de Hadoop

Hadoop matérialise (écrit sur disque) les résultats intermédiaires, ce qui dégrade les performances.

New cards

Mémoire distribuée

Solution de Spark : garder les données en mémoire centrale et les partager entre les machines.

New cards

Mémoire centrale

Mémoire vive (RAM) où Spark conserve les données pour accélérer les traitements.

New cards

Driver

Programme principal qui lance et coordonne les tâches sur le cluster.

New cards

Exécuteurs

Processus indépendants qui réalisent les tâches de calcul sur les nœuds.

New cards

Application Spark

Ensemble composé du driver et des exécuteurs.

New cards

Worker Node

Nœud du cluster qui héberge des exécuteurs, des tâches et un cache.

New cards

Task

Unité de calcul exécutée par un exécuteur.

New cards

Cache (Spark)

Mémoire où un exécuteur conserve des données pour les réutiliser rapidement.

New cards

Cluster Manager

Composant qui gère les ressources et coordonne le driver et les workers.

New cards

SparkContext

Objet Java qui connecte l’application au cluster et permet de créer des RDD.

New cards

RDD

Resilient Distributed Dataset : structure de données distribuée, en lecture seule, stockée en mémoire.

New cards

Lecture seule (RDD)

Un RDD ne peut pas être modifié directement, on crée un nouveau RDD par transformation.

New cards

Opérations sur gros granules

Opérations appliquées à la structure entière plutôt qu’à des valeurs individuelles.

New cards

Journalisation (RDD)

Enregistrement des transformations permettant de reconstituer un RDD en cas de panne.

New cards

Tolérance aux fautes (Spark)

Capacité à récupérer les données perdues en rejouant les transformations.

New cards

Checkpointing

Sauvegarde de l’état d’un RDD sur disque pour la tolérance aux fautes.

New cards

Création de RDD

Obtenir un RDD soit en chargeant des données, soit en transformant un RDD existant.

New cards

Transformation

Opération qui produit un nouveau RDD à partir d’un RDD existant (map, filter, join…).

New cards

Persistance par défaut

Par défaut, les RDD sont conservés en mémoire ; en cas de manque d’espace, écrits sur disque.

New cards

Lazy evaluation

Évaluation paresseuse : les RDD ne sont construits que lorsqu’une action est appelée.

New cards

Mode pipelined

Exécution enchaînée des transformations seulement au moment d’une action.

New cards

Chargement sélectif

Conséquence du lazy evaluation : seules les données nécessaires sont chargées.

New cards

Limite de Hadoop

Hadoop matérialise (écrit sur disque) les résultats intermédiaires, ce qui dégrade les performances.

New cards

FsImage

Fichier système contenant la structure complète des répertoires et la liste des blocs de HDFS.

New cards

MAP

La fonction Map :

lit les données
extrait les informations utiles
produit des paires

New cards

REDUCE

regroupe les clés identiques
applique des calculs :
- somme
- moyenne
- comptage
- etc.

New cards

Étapes détaillées d’un Job MapReduce

1. Input Phase

Les données :

sont lues depuis HDFS
bloc par bloc

Chaque bloc est envoyé à un mapper.

2. Phase MAP

Chaque mapper :

traite son bloc
produit des paires intermédiaires

3. Shuffle and Sort

Cette étape est automatique.

MapReduce :

regroupe les mêmes clés
trie les données

4. Phase REDUCE

Le reducer applique des calculs.

5. Output Phase

Les résultats :

sont affichés
ou écrits dans HDFS

New cards

Fonctionnement complet d’un Job MapReduce

Étape 1 : Soumission du Job

Le client :

envoie le programme MapReduce
envoie les données vers HDFS

Étape 2 : YARN distribue les tâches

Apache Hadoop YARN :

choisit les serveurs
répartit les tâches

Étape 3 : Application Master

L’Application Master :

lance les tâches
coordonne Map et Reduce
surveille l’exécution

Étape 4 : Exécution sur les nœuds

Les machines esclaves :

exécutent les tâches MapReduce
utilisent les données HDFS

Le NodeManager :

surveille CPU et RAM
détecte les pannes