1/36
Diese Flashcards decken die technischen Grundlagen, die Methodik (DSR, SLR), die KI-Modelle (LayoutLMv3, EasyOCR), die XAI-Komponenten und die ERP-Integration der Masterarbeit ab.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
Masterarbeits-Ziel
Konzeption, prototypische Umsetzung und Evaluation einer adaptiven, erklärbaren End-to-End-Pipeline zur Rechnungsverarbeitung mit Human-in-the-Loop (HITL) zur Senkung des manuellen Prüfaufwands.
Evaluationskriterien (4 Lücken)
1) Auditierbarkeit, 2) Erklärbarkeit, 3) Zeitaufwand, 4) Fehlerquote.
Design Science Research (DSR)
Forschungsansatz nach Peffers et al. (2007), bei dem ein IT-Artefakt gebaut und evaluiert wird, um ein reales Problem zu lösen.
Systematische Literaturrecherche (SLR)
Eine reproduzierbare Literatursuche nach Kitchenham & Charters (2007) mit vorab definierten Suchbegriffen und Ein-/Ausschlusskriterien.
OCR (Optical Character Recognition)
Die Umwandlung von Bild- oder Scaninhalten in maschinenlesbaren Text.
EasyOCR
Eine quelloffene Python-Library, die Deep Learning für die Texterkennung nutzt (bestehend aus CRAFT und einem CRNN).
CRAFT
Character Region Awareness for Text detection; der Teil von EasyOCR, der detektiert, WO Text steht und Bounding-Boxes erstellt.
CRNN
Convolutional Recurrent Neural Network; der Teil von EasyOCR, der liest, WAS in einer Text-Box steht.
LayoutLMv3
Ein multimodales Transformer-Modell für Dokumentenverständnis, das Text, Layout (Position) und Bild gemeinsam verarbeitet.
Multimodaler Transformer
Eine Architektur, die unterschiedliche Datentypen (hier: Text + Layout-Positionen + Bildinformationen) kombiniert verarbeitet.
Token Classification
Die Machine-Learning-Aufgabe, bei der jedem einzelnen Wort oder Token ein Label (z. B. Rechnungsnummer) zugewiesen wird.
BIO-Tagging
Ein Schema zur Kennzeichnung von Feldern: B (Beginn eines Felds), I (Inside/Fortsetzung), O (Outside/kein Feld).
Human-in-the-Loop (HITL)
Ein Prinzip, bei dem Menschen gezielt unsichere Modellausgaben prüfen und korrigieren, wobei diese Korrekturen als Trainingssignal zurückfließen.
HuggingFace
Firma und Plattform, die einen Model Hub für vortrainierte Modelle sowie die Python-Library 'transformers' bereitstellt.
PyTorch
Ein Deep-Learning-Framework für Python, das für das Training und die Inferenz (Tensoren, Backpropagation) genutzt wird.
MPS (Metal Performance Shaders)
Das GPU-Backend von Apple Silicon, das PyTorch zur Beschleunigung des Trainings auf Mac-Hardware nutzt.
LIME (Local Interpretable Model-agnostic Explanations)
Eine Python-Library für erklärbare KI (XAI), die lokale Erklärungen für Einzelvorhersagen durch Variation der Eingabe erzeugt.
Flask & Jinja2
Flask ist ein leichtgewichtiges Web-Framework für Python; Jinja2 ist die zugehörige Template-Engine für dynamische HTML-Seiten.
Pseudo-Ground-Truth
Trainingslabels, die aus einer ursprünglichen Basis und den manuellen HITL-Korrekturen der Reviewer zusammengesetzt werden.
Label-Poisoning-Bug
Ein kritischer Fehler im Code, bei dem nicht korrigierte Felder fälschlich als 'O' gelabelt wurden, was zu einer Verschlechterung der Modellleistung führte.
Konfidenz-Schwellenwert (0,85)
Die Untergrenze der modellinternen Sicherheit; Vorhersagen darunter werden automatisch zur menschlichen Prüfung (HITL) geroutet.
Validierungsregeln (arithmetisch)
Ein deterministisches Sicherheitsnetz (z. B. Netto + Steuer = Brutto), das Fehler bei hoher Konfidenz (Silent Failures) abfangen soll.
Touchless / Dunkelverarbeitung
Die vollautomatische Bearbeitung einer Rechnung ohne jeglichen menschlichen Eingriff.
F1-Score
Das harmonische Mittel aus Precision und Recall; dient zur Bewertung der tatsächlichen Modellgüte gegen die Ground Truth.
Silent Failure
Ein Fehlerfall, bei dem das Modell einen falschen Wert liefert, dabei aber eine sehr hohe Konfidenz aufweist.
Modellkalibrierung
Das Ausmaß der Übereinstimmung zwischen der statistischen Konfidenz des Modells und seiner tatsächlichen Korrektheit.
Ablationsstudie
Eine Untersuchung, bei der eine Komponente (z. B. das HITL-Retraining) gezielt variiert oder weggelassen wird, um deren kausalen Effekt zu messen.
XAI (Explainable AI)
Methoden, die die Entscheidungsfindung von KI-Modellen für Menschen nachvollziehbar machen (z. B. LIME oder Attention).
Attention (Aufmerksamkeitsgewichte)
Ein Transformer-interner Mechanismus, der zeigt, auf welche Regionen oder Wörter das Modell bei einer Entscheidung fokussiert hat.
SAP-Schnittstelle (Prototyp)
Eine file-basierte Batch-Übergabe mittels CSV-Dateien im Zielformat (Alternative zu Live-APIs wie IDoc oder BAPI).
ERP (Enterprise Resource Planning)
Integriertes Unternehmenssystem (z. B. SAP), das alle Kernprozesse auf einer gemeinsamen Datenbasis bündelt.
Purchase-to-Pay (P2P)
Der betriebliche Gesamtprozess von der Bestellung über den Wareneingang und die Rechnungsprüfung bis zur Zahlung.
3-Way-Match
Der automatisierte Abgleich zwischen Bestellung, Wareneingang und Rechnung zur Verifizierung der Zahlungsfreigabe.
BPM (Business Process Management)
Ansatz zur Modellierung, Ausführung, Überwachung und Optimierung von Geschäftsprozessen.
Medienbruch
Der Wechsel des Datenmediums (z. B. von digitalem PDF zu manueller Tastatureingabe), der im Projekt durch IDP eliminiert wird.
IDP vs. RPA
RPA automatisiert strukturierte Klickfolgen; IDP (Intelligent Document Processing) nutzt KI, um unstrukturierte Dokumente inhaltlich zu verstehen.
GoBD
Grundsätze zur ordnungsmäßigen Führung und Aufbewahrung von Büchern in elektronischer Form; relevant für die Revisionssicherheit.