Data management

0.0(0)
Studied by 0 people
call kaiCall Kai
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
GameKnowt Play
Card Sorting

1/90

encourage image

There's no tags or description

Looks like no tags are added yet.

Last updated 11:51 AM on 5/31/26
Name
Mastery
Learn
Test
Matching
Spaced
Call with Kai

No analytics yet

Send a link to your students to track their progress

91 Terms

1
New cards

Was sind die 5 V's von Big Data?

Volume (Datenmenge), Variety (Vielfalt), Velocity (Geschwindigkeit), Veracity (Richtigkeit/Qualität), Value (Mehrwert)

2
New cards

Was bedeutet Volume bei Big Data?

Die immense Menge an Daten, z.B. aus Social Media, Sensoren, E-Commerce.

3
New cards

Was bedeutet Variety bei Big Data?

Vielfalt der Datenformate: strukturiert (Tabellen), semi-strukturiert (JSON, XML), unstrukturiert (Bilder, Text).

4
New cards

Was bedeutet Velocity bei Big Data?

Geschwindigkeit der Datengenerierung und -verarbeitung, z.B. Echtzeitdaten aus IoT oder Streaming.

5
New cards

Was bedeutet Veracity bei Big Data?

Unsicherheit und Qualität der Daten, z.B. fehlerhafte Sensordaten oder fehlende Werte.

6
New cards

Was bedeutet Value bei Big Data?

Der geschäftliche Mehrwert, den man aus Daten zieht, z.B. personalisierte Werbung oder bessere Entscheidungen.

7
New cards

Nenne drei Arten von Machine Learning.

Supervised Learning, Unsupervised Learning, Reinforcement Learning.

8
New cards

Was ist Supervised Learning?

Lernen mit gekennzeichneten Daten (Input + erwarteter Output), z.B. Spam-Filter oder Hauspreisvorhersage.

9
New cards

Was ist Unsupervised Learning?

Lernen ohne Labels, der Algorithmus findet selbst Muster, z.B. Kunden-Clustering oder Spotify-Playlists.

10
New cards

Was ist Reinforcement Learning?

Lernen durch Belohnung/Bestrafung, z.B. selbstfahrendes Auto oder AlphaGo.

11
New cards

Definiere Data Literacy.

Die Fähigkeit, Daten kritisch zu sammeln, zu managen, zu bewerten und anzuwenden (Gartner: „read, write, communicate data in context“).

12
New cards

Nenne die vier Kernprozesse des integrierten Informationsmanagements (nach dem Brew & Beans Use Case).

Plan, Source, Make, Deliver (plus Enable als übergreifend).

13
New cards

Wofür steht der Prozess „Plan“ im integrierten Informationsmanagement?

Festlegen von Regeln, Zielen, Datenschutzbestimmungen (strategisch).

14
New cards

Wofür steht der Prozess „Source“?

Beschaffung von Daten, z.B. Kauf einer Cloud-Datenbank oder Befragung von Kunden.

15
New cards

Wofür steht der Prozess „Make“?

Aufbau und Betrieb des Systems, Datenanalyse, Erstellung von personalisierten Angeboten.

16
New cards

Wofür steht der Prozess „Deliver“?

Bereitstellung der Ergebnisse, z.B. Dashboards, Empfehlungen für das Personal.

17
New cards

Wofür steht der Prozess „Enable“?

Ermöglichende Massnahmen: Schulung des Personals, Budget, Organisation, Datenschutzumsetzung.

18
New cards

Unterscheide strategische, taktische und operative Ebene im Informationsmanagement.

Strategisch: langfristige Ziele, Regeln

19
New cards

Nenne die 6 Phasen von CRISP-DM.

  1. Business Understanding, 2. Data Understanding, 3. Data Preparation, 4. Modelling, 5. Evaluation, 6. Deployment.
20
New cards

Was ist der Unterschied zwischen CRISP-DM und KDD?

CRISP-DM löst ein konkretes Geschäftsproblem (6 Phasen), KDD ist allgemeiner für Wissensentdeckung in Datenbanken (8 Schritte).

21
New cards

Nenne die 8 Schritte des KDD-Prozesses.

  1. Ziel-Datensatz erstellen, 2. Datenbereinigung, 3. Datenreduktion/-transformation, 4. Data Mining-Funktion festlegen, 5. Algorithmus wählen, 6. Data Mining durchführen, 7. Ergebnisse interpretieren, 8. Wissen nutzen.
22
New cards

Was ist Clustering (Data Mining)?

Gruppierung von Daten mit unbekannten Klassen, z.B. Kundensegmente.

23
New cards

Was ist Klassifikation (Data Mining)?

Zuordnung zu bekannten Kategorien, z.B. Spam oder kein Spam.

24
New cards

Was ist eine Assoziationsanalyse?

Findet häufig gemeinsam vorkommende Variablen, z.B. Warenkorbanalyse (Bier und Windeln).

25
New cards

Was ist eine Regressionsanalyse?

Vorhersage eines kontinuierlichen Werts basierend auf anderen Variablen, z.B. Hauspreis aus Größe und Lage.

26
New cards

Was ist eine Anomalieerkennung?

Identifiziert ungewöhnliche Datenpunkte, z.B. Kreditkartenbetrug.

27
New cards

Was ist eine Zeitreihenanalyse?

Analyse von Daten in zeitlicher Abfolge, um Trends zu erkennen, z.B. Energieverbrauchsprognose.

28
New cards

Was sagt eine Korrelation von -1 aus?

Starke negative Korrelation: Wenn eine Variable steigt, sinkt die andere.

29
New cards

Was sagt eine Korrelation von +1 aus?

Starke positive Korrelation: Wenn eine Variable steigt, steigt auch die andere.

30
New cards

Was ist der Hauptunterschied zwischen OLAP und OLTP?

OLAP dient der Analyse (lesend, große Datenmengen, denormalisiert), OLTP dem Transaktionsgeschäft (schreibend, normalisiert, Echtzeit).

31
New cards

Nenne typische Tools für OLAP.

Data Warehouses, Power BI, Tableau, Snowflake, Google BigQuery, Amazon Redshift.

32
New cards

Nenne typische Tools für OLTP.

Relationale DBMS wie PostgreSQL, MySQL, Oracle Database, Microsoft SQL Server.

33
New cards

Wie ist die Datenstruktur bei OLAP typischerweise?

Denormalisiert (Stern-Schema oder Snowflake-Schema) für schnelle Abfragen.

34
New cards

Wie ist die Datenstruktur bei OLTP typischerweise?

Normalisiert (3. Normalform) zur Vermeidung von Redundanz.

35
New cards

Was ist ein Data Warehouse?

Ein zentrales Datenbanksystem, das Daten aus verschiedenen Quellen sammelt, speichert und für Analysen zugänglich macht.

36
New cards

Was ist ein Data Lake?

Ein Speichersystem für Rohdaten in beliebigem Format (strukturiert, semi, unstrukturiert), oft für Big Data.

37
New cards

Nenne drei Unterschiede zwischen Data Warehouse und Data Lake.

  1. Data Warehouse nur strukturiert, Data Lake alle Formate. 2. Data Warehouse: Schema-on-Write, Data Lake: Schema-on-Read. 3. Data Warehouse: teurer pro GB, Data Lake: günstiger.
38
New cards

Was bedeutet Schema-on-Write?

Das Datenbankschema wird vor dem Schreiben der Daten festgelegt (typisch für Data Warehouses).

39
New cards

Was bedeutet Schema-on-Read?

Das Schema wird erst beim Lesen der Daten definiert (typisch für Data Lakes).

40
New cards

Was sind ETL-Prozesse?

Extract, Transform, Load – Prozesse, die Daten aus Quellen extrahieren, bereinigen, transformieren und ins Data Warehouse laden.

41
New cards

Was ist eine Staging Area?

Temporärer Speicherbereich für Daten vor der Transformation und dem Laden ins Data Warehouse.

42
New cards

Was sind Data Marts?

Spezialisierte, benutzerfreundliche Subsets eines Data Warehouses für bestimmte Abteilungen.

43
New cards

Nenne die vier Schichten einer Data-Lake-Architektur.

Ingestion Layer, Storage Layer, Transformation Layer, Interaction Layer.

44
New cards

Wofür ist der Ingestion Layer im Data Lake zuständig?

Aufnahme von Daten aus unterschiedlichen Quellen im Rohformat (z.B. Apache Kafka).

45
New cards

Wofür ist der Storage Layer im Data Lake zuständig?

Speicherung der Rohdaten (z.B. Amazon S3, HDFS).

46
New cards

Wofür ist der Transformation Layer im Data Lake zuständig?

Verarbeitung und Aufbereitung der Rohdaten (z.B. Apache Spark, Flink).

47
New cards

Wofür ist der Interaction Layer im Data Lake zuständig?

Schnittstelle für Zugriff, Abfragen und Berichte.

48
New cards

Was ist der Unterschied zwischen Top-Down- und Bottom-Up-Datenmodellierung?

Top-Down: konzeptuell → logisch → physisch (klassisch). Bottom-Up: von vorhandenen Daten (JSON, XML) zum logischen Modell (Big Data/Data Science).

49
New cards

Was sind Metadaten?

„Daten über Daten“ – Informationen, die Datensätze beschreiben (Herkunft, Format, Qualität, Besitzer, Lizenz).

50
New cards

Nenne fünf Kategorien von Metadaten (laut Folie 23).

Inhalt, Herkunft, Datenqualität, Kontakt, Verfügbarkeit.

51
New cards

Was ist das Ziel der Datenharmonisierung?

Verschiedene Datenquellen in ein einheitliches, konsistentes Schema überführen.

52
New cards

Gib ein Beispiel für eine Herausforderung bei der Datenharmonisierung.

Unterschiedliche Spaltennamen (CustomerID vs. ClientID), unterschiedliche Ortsangaben (NY vs. New York), verschiedene Schreibweisen von Namen.

53
New cards

Wie löst man unterschiedliche Ortskürzel wie „NY“ und „New York“?

Mit einer Mapping-Tabelle oder Regel, die Kürzel in Vollnamen umwandelt.

54
New cards

Was ist der Unterschied zwischen SQL- und NoSQL-Datenbanken?

SQL: relational, festes Schema (Schema-on-Write), ACID, vertikal skalierbar. NoSQL: flexible Schemas (Schema-on-Read), Eventual Consistency, horizontal skalierbar.

55
New cards

Wann verwendet man eher SQL-Datenbanken?

Bei Finanztransaktionen, ERP, CRM, wenn vollständige Konsistenz (ACID) erforderlich ist.

56
New cards

Wann verwendet man eher NoSQL-Datenbanken?

Bei Big Data, Echtzeitanwendungen, sozialen Medien, wenn hohe Skalierbarkeit und Geschwindigkeit wichtiger sind als sofortige Konsistenz.

57
New cards

Was bedeutet ACID?

Atomicity (Alles oder nichts), Consistency (Konsistenz), Isolation (Isolation), Durability (Dauerhaftigkeit) – Eigenschaften von SQL-Transaktionen.

58
New cards

Was bedeutet Eventual Consistency?

Nach einer gewissen Zeit wird Konsistenz erreicht – Zwischenzustände können inkonsistent sein. Akzeptabel für Likes, nicht für Geldtransaktionen.

59
New cards

Für welche drei Anforderungen einer Social-Media-Plattform würdest du NoSQL empfehlen?

  1. Benachrichtigungen, 2. Likes/Kommentare, 3. (Weil schnell und skalierbar, Eventual Consistency reicht.)
60
New cards

Für welche Anforderung einer Social-Media-Plattform würdest du SQL empfehlen?

Für finanzielle Transaktionen (z.B. Werbeabrechnungen) wegen ACID.

61
New cards

Was sind typische Schritte der Datenbereinigung (Data Cleaning)?

Dubletten entfernen, Ausreißer behandeln, fehlende Werte ersetzen, Inkonsistenzen korrigieren.

62
New cards

Was versteht man unter „Quasi-Konstante“ in der Datenanalyse?

Eine Spalte, in der fast alle Werte gleich sind (z.B. 99% „männlich“) – kann entfernt werden.

63
New cards

Warum ist NoSQL gut für Big Data geeignet?

Horizontale Skalierbarkeit, flexible Datenmodelle, keine feste Schemaanforderung, Eventual Consistency ermöglicht hohe Geschwindigkeit.

64
New cards

Nenne drei NoSQL-Datenbank-Typen.

Key-Value (Redis), Dokumentenorientiert (MongoDB), Graph (Neo4j).

65
New cards

Was ist Hadoop HDFS?

Hadoop Distributed File System – verteiltes Dateisystem für grosse Datenmengen, Teil des Hadoop-Ökosystems.

66
New cards

Was macht MapReduce?

Verarbeitungsmodell: Map (zählen/filtern) und Reduce (aggregieren), z.B. Word Count.

67
New cards

Nenne drei Visualisierungstechniken aus dem Big Data-Kontext.

Dashboards, Word-Clouds, Donut-Charts, fortgeschrittene Diagramme, Echtzeit-Visualisierung.

68
New cards

Was ist der Unterschied zwischen Datenmanagement und Data Science?

Data Management: Verwaltung, Speicherung, Qualität, Zugriff. Data Science: Analyse, Mustererkennung, Vorhersagen.

69
New cards

Was ist ein datengetriebenes Geschäftsmodell?

Ein Geschäftsmodell, das Daten als zentralen Werttreiber nutzt, z.B. Analytics-as-a-Service, Data-as-a-Service.

70
New cards

Nenne zwei externe Datenquellen für einen Kaffee-Shop.

Wetterdaten (beeinflusst Nachfrage), Social-Media-Stimmungen, Bevölkerungsstatistiken.

71
New cards

Nenne zwei interne Datenquellen für einen Kaffee-Shop.

Verkaufsdaten (POS), Kundendaten (Treuekarten), Bestellhistorie.

72
New cards

Was ist die Wissenstreppe (Data Literacy Framework)?

Fakten → Daten → Information → Wissen → Handeln → Weisheit.

73
New cards

Gib ein Beispiel für die Wissenstreppe im Kaffee-Shop.

Fakten: 24 Verkäufe/h. Daten: 24. Information: 24 mehr als Durchschnitt. Wissen: wegen Werbekampagne. Handeln: Kampagne ausbauen. Weisheit: Kampagne saisonal wiederholen.

74
New cards

Was ist der Unterschied zwischen strukturierten, semi-strukturierten und unstrukturierten Daten?

Strukturiert: Tabellen. Semi-strukturiert: JSON/XML mit Tags. Unstrukturiert: Bilder, Videos, freie Texte.

75
New cards

Was versteht man unter „Data Wrangling“?

Datenaufbereitung: Bereinigen, Umformen, Anreichern von Rohdaten für die Analyse.

76
New cards

Was ist der Zweck von Metadaten-Management?

Organisation, Auffindbarkeit, Nachvollziehbarkeit, Sicherstellung von Datenqualität und Konsistenz.

77
New cards

Was ist eine Heatmap in der Korrelationsanalyse?

Eine farbliche Darstellung von Korrelationswerten zwischen Variablen (rot = stark positiv, blau = stark negativ).

78
New cards

Nenne ein Beispiel für positive Korrelation.

Alter eines Autos und Reparaturkosten (je älter, desto höhere Kosten).

79
New cards

Nenne ein Beispiel für negative Korrelation.

Aussentemperatur und Heizkosten (je wärmer, desto niedrigere Heizkosten).

80
New cards

Was ist der erste Schritt im DASC-PM-Vorgehensmodell?

Datenbereitstellung – Sammeln, Bereinigen, Zusammenführen.

81
New cards

Was ist der letzte Schritt im DASC-PM?

Nutzung – z.B. Kampagnen umsetzen, Wirksamkeit prüfen.

82
New cards

Welche drei Analysefragen könnte man mit einem Pizza-Verkaufsdatensatz beantworten?

  1. Beste/schlechteste Pizzas. 2. Durchschnittlicher Bestellwert. 3. Spitzentage und -zeiten.
83
New cards

Was ist das Ziel des Business Understanding in CRISP-DM?

Das Geschäftsproblem verstehen und Ziele definieren.

84
New cards

Was passiert in der Data Preparation von CRISP-DM?

Daten werden bereinigt, transformiert und für die Analyse nutzbar gemacht.

85
New cards

Was ist der Unterschied zwischen Data Mining und Data Engineering?

Data Engineering: Bereitstellung der Infrastruktur, ETL, Datenbanken. Data Mining: Mustererkennung, Algorithmen.

86
New cards

Nenne zwei Werkzeuge für ETL-Prozesse.

Talend, Informatica, Apache NiFi, auch SQL-basierte Skripte.

87
New cards

Was ist Polyglot Persistence?

Verwendung verschiedener Datenbanktechnologien (SQL + NoSQL) je nach Anforderung innerhalb eines Systems.

88
New cards

Nenne einen Vorteil von Polyglot Persistence.

Jede Datenbank ist spezialisiert auf einen Datentyp → Performance und Flexibilität.

89
New cards

Nenne einen Nachteil von Polyglot Persistence.

Höhere Komplexität und schwierigeres Konsistenzmanagement.

90
New cards

Was ist eine wichtige Massnahme für Datenschutz in Big Data-Projekten?

Anonymisierung oder Pseudonymisierung personenbezogener Daten.

91
New cards

Warum ist Aggregation von Daten aus Datenschutzsicht wichtig?

Einzelpersonen können nicht mehr identifiziert werden, aber statistische Muster bleiben erhalten.