1/90
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
Was sind die 5 V's von Big Data?
Volume (Datenmenge), Variety (Vielfalt), Velocity (Geschwindigkeit), Veracity (Richtigkeit/Qualität), Value (Mehrwert)
Was bedeutet Volume bei Big Data?
Die immense Menge an Daten, z.B. aus Social Media, Sensoren, E-Commerce.
Was bedeutet Variety bei Big Data?
Vielfalt der Datenformate: strukturiert (Tabellen), semi-strukturiert (JSON, XML), unstrukturiert (Bilder, Text).
Was bedeutet Velocity bei Big Data?
Geschwindigkeit der Datengenerierung und -verarbeitung, z.B. Echtzeitdaten aus IoT oder Streaming.
Was bedeutet Veracity bei Big Data?
Unsicherheit und Qualität der Daten, z.B. fehlerhafte Sensordaten oder fehlende Werte.
Was bedeutet Value bei Big Data?
Der geschäftliche Mehrwert, den man aus Daten zieht, z.B. personalisierte Werbung oder bessere Entscheidungen.
Nenne drei Arten von Machine Learning.
Supervised Learning, Unsupervised Learning, Reinforcement Learning.
Was ist Supervised Learning?
Lernen mit gekennzeichneten Daten (Input + erwarteter Output), z.B. Spam-Filter oder Hauspreisvorhersage.
Was ist Unsupervised Learning?
Lernen ohne Labels, der Algorithmus findet selbst Muster, z.B. Kunden-Clustering oder Spotify-Playlists.
Was ist Reinforcement Learning?
Lernen durch Belohnung/Bestrafung, z.B. selbstfahrendes Auto oder AlphaGo.
Definiere Data Literacy.
Die Fähigkeit, Daten kritisch zu sammeln, zu managen, zu bewerten und anzuwenden (Gartner: „read, write, communicate data in context“).
Nenne die vier Kernprozesse des integrierten Informationsmanagements (nach dem Brew & Beans Use Case).
Plan, Source, Make, Deliver (plus Enable als übergreifend).
Wofür steht der Prozess „Plan“ im integrierten Informationsmanagement?
Festlegen von Regeln, Zielen, Datenschutzbestimmungen (strategisch).
Wofür steht der Prozess „Source“?
Beschaffung von Daten, z.B. Kauf einer Cloud-Datenbank oder Befragung von Kunden.
Wofür steht der Prozess „Make“?
Aufbau und Betrieb des Systems, Datenanalyse, Erstellung von personalisierten Angeboten.
Wofür steht der Prozess „Deliver“?
Bereitstellung der Ergebnisse, z.B. Dashboards, Empfehlungen für das Personal.
Wofür steht der Prozess „Enable“?
Ermöglichende Massnahmen: Schulung des Personals, Budget, Organisation, Datenschutzumsetzung.
Unterscheide strategische, taktische und operative Ebene im Informationsmanagement.
Strategisch: langfristige Ziele, Regeln
Nenne die 6 Phasen von CRISP-DM.
Was ist der Unterschied zwischen CRISP-DM und KDD?
CRISP-DM löst ein konkretes Geschäftsproblem (6 Phasen), KDD ist allgemeiner für Wissensentdeckung in Datenbanken (8 Schritte).
Nenne die 8 Schritte des KDD-Prozesses.
Was ist Clustering (Data Mining)?
Gruppierung von Daten mit unbekannten Klassen, z.B. Kundensegmente.
Was ist Klassifikation (Data Mining)?
Zuordnung zu bekannten Kategorien, z.B. Spam oder kein Spam.
Was ist eine Assoziationsanalyse?
Findet häufig gemeinsam vorkommende Variablen, z.B. Warenkorbanalyse (Bier und Windeln).
Was ist eine Regressionsanalyse?
Vorhersage eines kontinuierlichen Werts basierend auf anderen Variablen, z.B. Hauspreis aus Größe und Lage.
Was ist eine Anomalieerkennung?
Identifiziert ungewöhnliche Datenpunkte, z.B. Kreditkartenbetrug.
Was ist eine Zeitreihenanalyse?
Analyse von Daten in zeitlicher Abfolge, um Trends zu erkennen, z.B. Energieverbrauchsprognose.
Was sagt eine Korrelation von -1 aus?
Starke negative Korrelation: Wenn eine Variable steigt, sinkt die andere.
Was sagt eine Korrelation von +1 aus?
Starke positive Korrelation: Wenn eine Variable steigt, steigt auch die andere.
Was ist der Hauptunterschied zwischen OLAP und OLTP?
OLAP dient der Analyse (lesend, große Datenmengen, denormalisiert), OLTP dem Transaktionsgeschäft (schreibend, normalisiert, Echtzeit).
Nenne typische Tools für OLAP.
Data Warehouses, Power BI, Tableau, Snowflake, Google BigQuery, Amazon Redshift.
Nenne typische Tools für OLTP.
Relationale DBMS wie PostgreSQL, MySQL, Oracle Database, Microsoft SQL Server.
Wie ist die Datenstruktur bei OLAP typischerweise?
Denormalisiert (Stern-Schema oder Snowflake-Schema) für schnelle Abfragen.
Wie ist die Datenstruktur bei OLTP typischerweise?
Normalisiert (3. Normalform) zur Vermeidung von Redundanz.
Was ist ein Data Warehouse?
Ein zentrales Datenbanksystem, das Daten aus verschiedenen Quellen sammelt, speichert und für Analysen zugänglich macht.
Was ist ein Data Lake?
Ein Speichersystem für Rohdaten in beliebigem Format (strukturiert, semi, unstrukturiert), oft für Big Data.
Nenne drei Unterschiede zwischen Data Warehouse und Data Lake.
Was bedeutet Schema-on-Write?
Das Datenbankschema wird vor dem Schreiben der Daten festgelegt (typisch für Data Warehouses).
Was bedeutet Schema-on-Read?
Das Schema wird erst beim Lesen der Daten definiert (typisch für Data Lakes).
Was sind ETL-Prozesse?
Extract, Transform, Load – Prozesse, die Daten aus Quellen extrahieren, bereinigen, transformieren und ins Data Warehouse laden.
Was ist eine Staging Area?
Temporärer Speicherbereich für Daten vor der Transformation und dem Laden ins Data Warehouse.
Was sind Data Marts?
Spezialisierte, benutzerfreundliche Subsets eines Data Warehouses für bestimmte Abteilungen.
Nenne die vier Schichten einer Data-Lake-Architektur.
Ingestion Layer, Storage Layer, Transformation Layer, Interaction Layer.
Wofür ist der Ingestion Layer im Data Lake zuständig?
Aufnahme von Daten aus unterschiedlichen Quellen im Rohformat (z.B. Apache Kafka).
Wofür ist der Storage Layer im Data Lake zuständig?
Speicherung der Rohdaten (z.B. Amazon S3, HDFS).
Wofür ist der Transformation Layer im Data Lake zuständig?
Verarbeitung und Aufbereitung der Rohdaten (z.B. Apache Spark, Flink).
Wofür ist der Interaction Layer im Data Lake zuständig?
Schnittstelle für Zugriff, Abfragen und Berichte.
Was ist der Unterschied zwischen Top-Down- und Bottom-Up-Datenmodellierung?
Top-Down: konzeptuell → logisch → physisch (klassisch). Bottom-Up: von vorhandenen Daten (JSON, XML) zum logischen Modell (Big Data/Data Science).
Was sind Metadaten?
„Daten über Daten“ – Informationen, die Datensätze beschreiben (Herkunft, Format, Qualität, Besitzer, Lizenz).
Nenne fünf Kategorien von Metadaten (laut Folie 23).
Inhalt, Herkunft, Datenqualität, Kontakt, Verfügbarkeit.
Was ist das Ziel der Datenharmonisierung?
Verschiedene Datenquellen in ein einheitliches, konsistentes Schema überführen.
Gib ein Beispiel für eine Herausforderung bei der Datenharmonisierung.
Unterschiedliche Spaltennamen (CustomerID vs. ClientID), unterschiedliche Ortsangaben (NY vs. New York), verschiedene Schreibweisen von Namen.
Wie löst man unterschiedliche Ortskürzel wie „NY“ und „New York“?
Mit einer Mapping-Tabelle oder Regel, die Kürzel in Vollnamen umwandelt.
Was ist der Unterschied zwischen SQL- und NoSQL-Datenbanken?
SQL: relational, festes Schema (Schema-on-Write), ACID, vertikal skalierbar. NoSQL: flexible Schemas (Schema-on-Read), Eventual Consistency, horizontal skalierbar.
Wann verwendet man eher SQL-Datenbanken?
Bei Finanztransaktionen, ERP, CRM, wenn vollständige Konsistenz (ACID) erforderlich ist.
Wann verwendet man eher NoSQL-Datenbanken?
Bei Big Data, Echtzeitanwendungen, sozialen Medien, wenn hohe Skalierbarkeit und Geschwindigkeit wichtiger sind als sofortige Konsistenz.
Was bedeutet ACID?
Atomicity (Alles oder nichts), Consistency (Konsistenz), Isolation (Isolation), Durability (Dauerhaftigkeit) – Eigenschaften von SQL-Transaktionen.
Was bedeutet Eventual Consistency?
Nach einer gewissen Zeit wird Konsistenz erreicht – Zwischenzustände können inkonsistent sein. Akzeptabel für Likes, nicht für Geldtransaktionen.
Für welche drei Anforderungen einer Social-Media-Plattform würdest du NoSQL empfehlen?
Für welche Anforderung einer Social-Media-Plattform würdest du SQL empfehlen?
Für finanzielle Transaktionen (z.B. Werbeabrechnungen) wegen ACID.
Was sind typische Schritte der Datenbereinigung (Data Cleaning)?
Dubletten entfernen, Ausreißer behandeln, fehlende Werte ersetzen, Inkonsistenzen korrigieren.
Was versteht man unter „Quasi-Konstante“ in der Datenanalyse?
Eine Spalte, in der fast alle Werte gleich sind (z.B. 99% „männlich“) – kann entfernt werden.
Warum ist NoSQL gut für Big Data geeignet?
Horizontale Skalierbarkeit, flexible Datenmodelle, keine feste Schemaanforderung, Eventual Consistency ermöglicht hohe Geschwindigkeit.
Nenne drei NoSQL-Datenbank-Typen.
Key-Value (Redis), Dokumentenorientiert (MongoDB), Graph (Neo4j).
Was ist Hadoop HDFS?
Hadoop Distributed File System – verteiltes Dateisystem für grosse Datenmengen, Teil des Hadoop-Ökosystems.
Was macht MapReduce?
Verarbeitungsmodell: Map (zählen/filtern) und Reduce (aggregieren), z.B. Word Count.
Nenne drei Visualisierungstechniken aus dem Big Data-Kontext.
Dashboards, Word-Clouds, Donut-Charts, fortgeschrittene Diagramme, Echtzeit-Visualisierung.
Was ist der Unterschied zwischen Datenmanagement und Data Science?
Data Management: Verwaltung, Speicherung, Qualität, Zugriff. Data Science: Analyse, Mustererkennung, Vorhersagen.
Was ist ein datengetriebenes Geschäftsmodell?
Ein Geschäftsmodell, das Daten als zentralen Werttreiber nutzt, z.B. Analytics-as-a-Service, Data-as-a-Service.
Nenne zwei externe Datenquellen für einen Kaffee-Shop.
Wetterdaten (beeinflusst Nachfrage), Social-Media-Stimmungen, Bevölkerungsstatistiken.
Nenne zwei interne Datenquellen für einen Kaffee-Shop.
Verkaufsdaten (POS), Kundendaten (Treuekarten), Bestellhistorie.
Was ist die Wissenstreppe (Data Literacy Framework)?
Fakten → Daten → Information → Wissen → Handeln → Weisheit.
Gib ein Beispiel für die Wissenstreppe im Kaffee-Shop.
Fakten: 24 Verkäufe/h. Daten: 24. Information: 24 mehr als Durchschnitt. Wissen: wegen Werbekampagne. Handeln: Kampagne ausbauen. Weisheit: Kampagne saisonal wiederholen.
Was ist der Unterschied zwischen strukturierten, semi-strukturierten und unstrukturierten Daten?
Strukturiert: Tabellen. Semi-strukturiert: JSON/XML mit Tags. Unstrukturiert: Bilder, Videos, freie Texte.
Was versteht man unter „Data Wrangling“?
Datenaufbereitung: Bereinigen, Umformen, Anreichern von Rohdaten für die Analyse.
Was ist der Zweck von Metadaten-Management?
Organisation, Auffindbarkeit, Nachvollziehbarkeit, Sicherstellung von Datenqualität und Konsistenz.
Was ist eine Heatmap in der Korrelationsanalyse?
Eine farbliche Darstellung von Korrelationswerten zwischen Variablen (rot = stark positiv, blau = stark negativ).
Nenne ein Beispiel für positive Korrelation.
Alter eines Autos und Reparaturkosten (je älter, desto höhere Kosten).
Nenne ein Beispiel für negative Korrelation.
Aussentemperatur und Heizkosten (je wärmer, desto niedrigere Heizkosten).
Was ist der erste Schritt im DASC-PM-Vorgehensmodell?
Datenbereitstellung – Sammeln, Bereinigen, Zusammenführen.
Was ist der letzte Schritt im DASC-PM?
Nutzung – z.B. Kampagnen umsetzen, Wirksamkeit prüfen.
Welche drei Analysefragen könnte man mit einem Pizza-Verkaufsdatensatz beantworten?
Was ist das Ziel des Business Understanding in CRISP-DM?
Das Geschäftsproblem verstehen und Ziele definieren.
Was passiert in der Data Preparation von CRISP-DM?
Daten werden bereinigt, transformiert und für die Analyse nutzbar gemacht.
Was ist der Unterschied zwischen Data Mining und Data Engineering?
Data Engineering: Bereitstellung der Infrastruktur, ETL, Datenbanken. Data Mining: Mustererkennung, Algorithmen.
Nenne zwei Werkzeuge für ETL-Prozesse.
Talend, Informatica, Apache NiFi, auch SQL-basierte Skripte.
Was ist Polyglot Persistence?
Verwendung verschiedener Datenbanktechnologien (SQL + NoSQL) je nach Anforderung innerhalb eines Systems.
Nenne einen Vorteil von Polyglot Persistence.
Jede Datenbank ist spezialisiert auf einen Datentyp → Performance und Flexibilität.
Nenne einen Nachteil von Polyglot Persistence.
Höhere Komplexität und schwierigeres Konsistenzmanagement.
Was ist eine wichtige Massnahme für Datenschutz in Big Data-Projekten?
Anonymisierung oder Pseudonymisierung personenbezogener Daten.
Warum ist Aggregation von Daten aus Datenschutzsicht wichtig?
Einzelpersonen können nicht mehr identifiziert werden, aber statistische Muster bleiben erhalten.