1/174
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
LLMs (Large Language Models)
KI-Systeme, die mit sehr großen Textmengen trainiert wurden und menschliche Sprache verstehen und erzeugen können
Beispiele für LLMs
ChatGPT, Gemini
Funktionsweise von LLMs
Training mit Milliarden Textbeispielen – Lernen statistischer Sprachmuster – Vorhersage des wahrscheinlich nächsten Wortes – dadurch entstehen Sätze, Absätze oder Dokumente
Einsatz von LLMs
Chatbots, KI-Assistenten, Support, Analyse, digitale Teammitglieder
Arithmetisches Mittel
Addiert alle Werte und teilt durch die Anzahl der Werte (klassischer Durchschnitt)
Geometrisches Mittel
Multipliziert alle Werte und zieht die n-te Wurzel – genutzt bei Wachstumsraten und Renditen
Harmonisches Mittel
Kehrwert bilden → arithmetisches Mittel berechnen → wieder Kehrwert – genutzt bei Durchschnittsgeschwindigkeiten und Preisen pro Einheit
Median
Mittlerer Wert einer sortierten Datenreihe – bei gerader Anzahl Durchschnitt der beiden mittleren Werte
Modus
Am häufigsten vorkommender Wert einer Datenreihe
Offene Daten (Open Data)
Öffentlich zugängliche Daten wie Linked Open Data, Regierungsdaten oder wissenschaftliche Daten
Interne Daten
Unternehmensinterne, nicht öffentliche Daten wie Stammdaten, Transaktionsdaten und Sensordaten
Strukturierte Daten
Jeder Datensatz folgt exakt derselben Struktur (z. B. Excel, CSV, relationale Datenbanken)
Semi-strukturierte Daten
Struktur vorhanden, aber flexibel (z. B. XML, JSON)
Unstrukturierte Daten
Kein festes Schema – Bedeutung steckt im Inhalt (z. B. PDF, Textfiles, Word, E-Mail, Bilder)
Big Data 5V
Volume – Velocity – Variety – Veracity – Value
Volumen – Geschwindigkeit – Vielfalt – Wahrhaftigkeit – Wert
Volume
Extrem große Datenmengen
Velocity
Daten entstehen sehr schnell und müssen in Echtzeit verarbeitet werden
Variety
Viele verschiedene Datenarten und Formate
Veracity
Datenqualität ist unsicher oder unterschiedlich gut
Value
Daten sind nur sinnvoll, wenn daraus ein Nutzen entsteht
NoSQL
Nicht-relationale Datenbanken mit flexiblem Schema, horizontaler Skalierung und Abfragen ohne komplexe JOINs
Key-Value-Datenbank
Speichert Daten als Schlüssel-Wert-Paare – sehr schnell – einfache Struktur
Wide-Column-Datenbank
Spaltenorientierte Speicherung mit dynamischen Spalten – ideal für große Datenmengen und hohe Schreiblast
Dokumentenorientierte Datenbank
Speichert hierarchische Dokumente (JSON/XML) mit flexiblem Schema
Graphendatenbank
Speichert Daten als Knoten und Beziehungen – effizient bei stark vernetzten Daten
Descriptive Analytics
„Was ist passiert?“ – Analyse vergangener Daten – Reports, Dashboards, KPIs
Diagnostic Analytics
„Warum ist es passiert?“ – Ursachenanalyse und Mustererkennung
Predictive Analytics
„Was wird passieren?“ – Prognosen mithilfe von Statistik und Machine Learning
Prescriptive Analytics
„Was sollen wir tun?“ – Handlungsempfehlungen und Optimierung
Anwendungsgebiete von Data Science
Vorhersage – Optimierung – Personalisierung – Komfort – Intelligenz
CRISP-DM
Cross-Industry Standard Process for Data Mining – Standard-Vorgehensmodell für Data-Science-Projekte
Phasen von CRISP-DM
Business Understanding – Data Understanding – Data Preparation – Modeling – Evaluation – Deployment
Business Understanding
Geschäftsproblem verstehen, Ziele definieren, Erfolgskriterien festlegen
Data Understanding
Daten sammeln, beschreiben, erste Analyse durchführen, Datenqualität prüfen
Data Preparation
Daten auswählen, bereinigen, transformieren und zusammenführen (70–80 % der Arbeit)
Modeling
Modell auswählen, trainieren, Parameter einstellen und Testdesign erstellen
Evaluation
Ergebnisse bewerten und prüfen, ob das Business-Ziel erreicht wurde
Deployment
Modell produktiv einsetzen sowie Monitoring und Wartung durchführen
Trainingsdaten
Ca. 70 % – Modell wird gelernt
Validierungsdaten
Ca. 15 % – Modell wird geprüft und optimiert
Testdaten
Ca. 15 % – finale Überprüfung des Modells
Aufgaben Data Engineering
Erfassung
Extraktion
Bereinigung
Speicherung
Verbreitung
Suche
Erfassung/Capture
Daten sammeln
Extraktion/Extraction
Daten aus Quellen holen
Bereinigung/Curation
Fehler korrigieren (Bereinigung)
Speicherung/Storage
Daten speichern
Verbreitung/Sharing
Daten zugänglich machen
Suche/Search
Daten auffindbar machen
Aufgaben Data Science
Anfragen
Analyse
Visualisierung
Anfragen/Querying
Daten abfragen
Analyse/Analysis
Modelle und Auswertungen durchführen
Visualisierung/Visualization
Ergebnisse darstellen
Bestandteile eines Data-Science-Projekts
Daten aufbereiten – Modell entwickeln und bewerten – Ergebnisse analysieren und nutzen
ROC-Analyse (Receiver Operating Characteristic)
Bewertung binärer Klassifikationsmodelle – zeigt, wie gut ein Modell zwischen zwei Klassen unterscheidet
Bestandteile der ROC-Matrix
True Positive – False Positive – True Negative – False Negative
True Positive (TP)
Modell sagt positiv und es ist wirklich positiv
False Positive (FP)
Modell sagt positiv, aber es ist negativ
True Negative (TN)
Modell sagt negativ und es ist wirklich negativ
False Negative (FN)
Modell sagt negativ, aber es ist positiv
Daten
Zeichen, Zahlen oder Werte, die geordnet vorliegen und im Zusammenhang Bedeutung bekommen
Datenhierarchie
Bit – Byte – Field – Record – File – Database
Bit
Kleinste Einheit
Byte
8 Bits
Field (Feld)
Einzelner Wert
Record (Datensatz)
Mehrere Felder zusammen
File (Datei)
Viele Datensätze zusammen
Database (Datenbank)
Mehrere Dateien zusammen
Kategorisierung von ERP-Daten
Stammdaten – Bewegungsdaten – Referenzdaten – Setup-Daten
Stammdaten
Ändern sich selten – beschreiben grundlegende Dinge
Bewegungsdaten
Entstehen durch Vorgänge – ändern sich ständig
Referenzdaten
Standardisierte feste Werte zur Einordnung
Setup-Daten
Definieren Regeln und Systemeinstellungen
Datenqualität - KPI
Vollständigkeit – Gültigkeit – Aktualität – Konsistenz – Genauigkeit – Monitoring & Risiken
Vollständigkeit
Sind alle Pflichtfelder ausgefüllt?
Gültigkeit
Entsprechen Daten den Regeln?
Aktualität
Sind Daten auf dem neuesten Stand?
Konsistenz
Gibt es Widersprüche?
Genauigkeit
Spiegeln Daten die Realität korrekt wider?
Monitoring & Risiken
Werden Datenfehler erkannt und überwacht?
Arten von Datenaustauschformaten
Proprietäre Formate – Offene Formate – Bildformate – Plain Text
Proprietäre Formate
.doc, .xls, .ppt – softwaregebunden
Offene Formate
.docx, .txt, .rtf, .pdf, .html – breiter nutzbar
Bildformate
.jpeg, .png, .gif
Plain Text
Nur Text ohne Formatierung – überall lesbar
CSV
Tabellenformat – Zeilen/Spalten – Trennung durch Komma oder Semikolon – einfacher Datenaustausch
XML
Hierarchische strukturierte Daten mit Tags – System-zu-System-Austausch
RDF (Resource Description Framework)
Strukturierte und verknüpfte Webdaten – genutzt in KI und Wissensgraphen
Aufgaben des Datenmanagements
Speichern – Verwalten – Schützen – Analysieren – Löschen
Datenmanagementsystem (DMS)
Software zum Speichern, Organisieren, Bereitstellen und sicheren Verwalten von Daten
ERP-System
Software zur Verbindung aller wichtigen Geschäftsbereiche
Datenbankmanagementsystem (DBMS)
Software zur Verwaltung von Datenbanken
Aufgaben eines DBMS
Datenschutz – Datenunabhängigkeit – Datensicherheit
Zugriffsarten im DBMS
Abfrage (Query)
Mutation
Transaktion
Anfrage/Query
Nur Lesen von Daten
Mutation
Einfügen, Aktualisieren oder Löschen von Daten
Transaktion
Mehrere Lese- oder Schreibvorgänge zusammen
Datenbank
Strukturierte Sammlung von Daten
ACID-Modell
Atomarität – Konsistenz – Isolation – Dauerhaftigkeit
Atomarität
Ganz oder gar nicht – Rollback oder Commit – kein Zwischenzustand
Konsistenz (ACID)
Datenbank bleibt korrekt und regelkonform