Einführung in die Methoden der Künstlichen Intelligenz
Einführung
Vorstellung der Dozenten: PD Dr. David Sabel, Prof. Dr. Manfred Schmidt-Schauß, Prof. Dr. Florian Buettner.
Semester: SoSe 2054.
Stand der Folien: 4. Mai 2025.
Themenübersicht
KI-Ziel.
Philosophische Aspekte der KI.
KI-Paradigmen.
KI-Geschichte.
Agenten.
Foundation Agents.
KI-Ansätze.
Chain-of-Thought (CoT).
Tool-Using-Fähigkeiten.
Multi-Agent-Systeme.
Interaktives Element: menti.com
Was ist Künstliche Intelligenz?
Ziel: Herstellung eines intelligenten Agenten.
Auch: Herstellung eines möglichst guten autonomen lernenden intelligenten automatischen Informationssystems.
Beispiele für KI-Systeme
Taschenrechner.
Schachspielende Computer (Deep Blue, Deep Thought, Deep Fritz).
Sprachübersetzer (GoogleTranslate, DeepL).
Large Language Models (LLMs) (chatGPT, perplexity.ai, langchain).
Text-to-Image Modelle (Stable diffusion).
Multimodale generative KI Systeme (Text/Bild/Video/Audio -¿ Text/Bild/Video/Audio).
Wissensbasierte Systeme (retrieval-augmented generation - RAG).
Roboter (Haushaltsroboter, Industrieroboter).
Roboter-Programmierung
25 Gelenke mit Coreless-DC-Motoren und Getriebe.
Intel ATOM 1.6 GHz CPU.
Zwei Kameras.
WLAN.
Ultraschall.
Beschleunigungssensoren.
Gyroskope.
Fähigkeiten von Robotern
Bildverarbeitung: Farberkennung und Objekterkennung.
Lokalisierung: Positionsbestimmung via GPS, Bildverarbeitung und Kalman-Filter.
Bewegung: Algorithmen unter Nutzung der Sensorik und Aktorik.
Verhalten: Übergeordnete Planungs-Algorithmen.
Kommunikation: WLAN-basierte Kommunikation.
Beispiel: Go Spiel (2016)
AlphaGo (Google) schlägt Lee Sedol.
Go hat einen sehr großen Suchraum: 19 × 19 Feld, d.h. 361 Möglichkeiten für den ersten Zug.
Algorithmische Bewertung der Spielsituation ist schwierig.
Methoden von AlphaGo:
Durchmustern der Suchräume.
Zufälliges Ausprobieren (Monte Carlo Tree Search).
Künstliche neuronale Netze zum Bewerten der Stellungen.
Lernverfahren.
Massiv parallele Berechnungen.
Erfolgreich, weil es viele sehr gute Züge gibt.
Schach: man muss i.a. den einzigen richtigen Zug finden.
Beispiel: Das Proteinfaltungsproblem
Proteine sind Ketten aus Aminosäuren, die sich in komplexe 3D-Strukturen falten.
Die 3D-Struktur bestimmt die Funktion.
Das Problem: Wie faltet sich eine gegebene Sequenz?
Extrem großer Suchraum: mögliche Konfigurationen.
Levinthal-Paradoxon: Rein zufällige Suche würde länger als das Alter des Universums dauern.
AlphaFold als modernes Suchverfahren
Zentrale Elemente:
Kombination aus Suchverfahren und neuronalen Netzen.
Geführte Suche durch heuristische Bewertungsfunktionen.
Monte Carlo Tree Search (MCTS) zur Exploration des Suchraums.
Verbindung zu Vorlesungsthemen:
Informierte Suche: Heuristiken basierend auf physikalischen Prinzipien; Optimierung mit Bewertungsfunktion (A*).
Neuronale Netzte: Verarbeitung von Aminosäuresequenzen.
Evolutionäre Algorithmen: Iterative Verbesserung der Strukturvorhersagen.
Von klassischen Suchverfahren zu AlphaFold
Klassische Suchverfahren.
Heuristische Suche.
Monte Carlo Tree Search.
AlphaFold + Heuristiken + Stochastik + DL + Exploration.
AlphaFold verwendet Attention-Mechanismen, um wichtige Bereiche des Suchraums zu identifizieren (analog zu verbesserter Heuristik in A*-Suche).
Moderne KI-Systeme kombinieren klassische Algorithmen mit neuronalen Netzen.
Ergebnisse und Bedeutung von AlphaFold
Wissenschaftliche Durchbrüche.
AlphaFold 2 erreichte in CASP14 (2020) eine Genauigkeit nahe experimenteller Methoden.
Mehr als 200 Millionen Proteinstrukturen vorhergesagt.
Open-Source-Version verfügbar.
Anwendungen:
Medikamentenentwicklung.
Materialwissenschaften.
Grundlagenforschung in der Biologie.
“AI for science” ausgezeichnet mit Chemie Nobelpreis 2024.
Roboter und weitere Begriffe
Roboter = Intelligenter Agent, Computer im Kern, agiert mit der physikalischen Umwelt.
Softbot = Software-Roboter, Umwelt ist i.A. nicht physikalisch, hat Wissensbasis und gibt Antworten und Ratschläge.
Webbot = Web-Roboter, (inter-)agiert im WWW, z.B. um Suchdatenbanken zu erstellen.
Chatbot = Chat-Roboter, interagiert in einem Chat.
Agent, allgemein
Agent:
Vorwissen: Wissen über die Umgebung (z.B. Karte).
Erfahrungswissen: erlerntes Wissen, Testfälle.
Ziele: üblicherweise mit Prioritäten und Wichtigkeiten versehen.
Beobachtungen: über die Umgebung und über sich selbst.
Nächste Aktion als Ausgabe (aufgrund von Schlussfolgern, Lernen, …).
Fragestellungen der KI
Was ist Künstliche Intelligenz?
Was zeichnet eine Methode als KI-Methode aus?
Was ist ein intelligenter Agent?
Können Computer denken?
Es gibt keine allgemein richtige Antwort auf diese Fragen!
Klassifizierung der Ansätze nach Russel & Norvig
Menschlich vs. Rational.
Handeln vs. Denken.
menschliches Handeln, rationales Handeln, menschliches Denken, rationales Denken.
Menschliches Handeln
Fernziel: Systeme erschaffen, die analog zu Menschen handeln.
Entwickle Methoden, so dass der Computer Dinge tun kann, die momentan nur der Mensch kann in denen der Mensch noch den Computern überlegen ist.
Zum Nachweis, dass Ziel erreicht: Vergleich von Maschine und Mensch (z.B. Turing-Test, folgt noch).
Menschliches Denken (1)
Ziel: Computer ”denkt wie ein Mensch“.
Forschung: Wie denkt der Mensch: entwickle Modelle dafür.
Z.B. durch psychologische Experimente, Hirntomografie . . .
Stelle Theorie auf, setze danach in ein System um.
Ziel erreicht: Wenn Ein-/Ausgaben dem menschlichen Verhalten gleichen.
Menschliches Denken (2)
Ansatz ist eher interdisziplinär: Kognitionswissenschaft.
Beispiele: Wie erkennen wir Gesichter, Verständnis des Spracherwerbs, . . .
System ist kognitiv adäquat, wenn:
arbeitet strukturell und methodisch wie ein Mensch.
erzielt entsprechende Leistungen.
Achtung: Taschenrechner ist nicht kognitiv adäquat, da er anders addiert als der Mensch
Daher eher: kognitive Simulation != künstliche Intelligenz
Betonung eher: exakte Nachahmung des menschlichen Denkens.
Rationales Denken
Formalisierung von Denken durch Axiome und korrekte Schlussregeln.
Üblich: Verwendung einer Logik (”logischer Ansatz“).
Ziel: Implementiere Deduktionssystem, das sich intelligent verhält.
Vorteil: mathematisch eindeutig.
Hürden: Formalisierung des Problems & Wissens in einer Logik.
Rationales Handeln (1)
Agenten-Ansatz.
Agent = System, dass auf seine Umgebung (Eingaben) eine Reaktion (Ausgaben) durchführt.
Agent sollte autonom agieren, sich an Änderungen anpassen und ein Ziel verfolgen.
Rationales Handeln (2)
Rationaler Agent: Agent maximiert Ergebnis, bestmögliches Ergebnis.
Allgemeiner Ansatz, kann auch die anderen Ansätze miteinbeziehen:
z.B. Verwenden einer Logik kann menschlich denken / handeln, wenn dies auch rational ist, aber keine Vorbedingung (daher mehr Freiheit in der Methodik).
Rationalität kann mathematisch “sauber” definiert werden.
Begriffsklärung ”Intelligenz“: ist in mehrerer Hinsicht anders (eine Einschränkung).
Ausrichtungen der KI
Kognitionswissenschaft: Menschliches Handeln / Denken analysieren, modellieren, nachahmen.
Ingenieurmäßig ausgerichtete KI: Entwickle Methoden, Techniken, Werkzeuge zum (rationalen/ intelligenten) Lösen komplexer Anwendungsprobleme.
Z.B. Deduktionstechniken
KI-Programmiersprachen
neuronale Netze
Lernalgorithmen
wissensbasierte Systeme
Ausrichtung der Vorlesung
ingenieurmäßige Ausrichtung.
direkt programmierbare KI-Methoden.
insbesondere Systeme die auf Methoden maschinellen Lernens basieren.
Gebiete der Künstlichen Intelligenz (Auswahl)
Programmierung strategischer Spiele (Go, Minecraft, …).
Automatisches/Interaktives Problemlösen und Beweisen.
Natürlichsprachliche Systeme (Large Languange Models).
(Intelligente) Bildverarbeitung.
Robotik.
(medizinische) Expertensysteme (Diagnose, Therapieempfehlung,…).
AI for science: Hypothesengenerierung, Problemlösung und Mustererkennung in den Naturwissenschaften (AlphaFold2, Design neuer Werkstoffe…).
Ansätze: Maschinelles Lernen, Regeln/Logik, Suchverfahren.
Was bedeutet Denken in großen Sprachmodellen?
(Offene Frage)
Was sind Foundation Models?
Definition: Große, auf enormen Datenmengen trainierte neuronale Netze, die als Basis für zahlreiche Anwendungen dienen können.
Trainingsmethode: Self-supervised Learning auf umfangreichen Textkorpora (next token prediction).
Schlüsselmerkmal: Emergente Fähigkeiten, die nicht explizit trainiert wurden.
Chain-of-Thought Prompting: Einführung
Definition: Eine Prompting-Technik, bei der große Sprachmodelle angewiesen werden, ihren Denkprozess (Reasoning) schrittweise darzulegen, bevor sie zu einer finalen Antwort kommen.
Standardprompting: Direkte Frage → Direkte Antwort (“Black Box”-Verhalten, Keine Einsicht in den Lösungsweg).
CoT-Prompting: Expliziter Reasoning-Prozess (Zwischenschritte werden sichtbar gemacht, Nachvollziehbarer Lösungsweg).
Einführung durch Wei et al. (2022) - Paper “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”.
Chain-of-Thought: Beispiel
Standard-Prompting:
Frage: Peter kauft 5 Äpfel für jeweils 2 Euro und 3 Orangen für jeweils 3 Euro. Wie viel Geld gibt er insgesamt aus?
Antwort: 19 Euro.
Chain-of-Thought Prompting:
Frage: Peter kauft 5 Äpfel für jeweils 2 Euro und 3 Orangen für jeweils 3 Euro. Wie viel Geld gibt er insgesamt aus?
Antwort:
Für 5 Äpfel a 2 Euro zahlt er: Euro
Für 3 Orangen a 3 Euro zahlt er: Euro
Insgesamt zahlt er: Euro
Erkenntnisse: Bei komplexen Aufgaben führt CoT zu genaueren Ergebnissen.
Methoden zur Induktion von CoT
Zero-Shot-CoT:
Einfache Aufforderung: Lass uns das Schritt für Schritt durchdenken.
Überraschend effektiv bei großen Modellen.
Funktioniert bei Modellen ab einer bestimmten Größe (Emergente Fähigkeit).
Few-Shot-CoT:
Demonstration von 2-8 Beispielen mit ausgeführten Gedankenschritten.
Das Modell übernimmt das Muster des schrittweisen Denkens.
Besonders effektiv bei komplexen Reasoning-Aufgaben.
Von “Human-like reasoning” zu Chain-of-Thought
Chain-of-Thought als Methode zur Annäherung an menschliche Denkprozesse.
Ermöglicht Einblick in das “Denken” des Modells.
Verbessert die Nachvollziehbarkeit (Explainable AI).
Was bedeutet “Denken” im Kontext von LLMs?
Traditionelles Verständnis von “Denken”:
Bewusstsein und Intentionalität.
Selbstreflexion.
Neuronale Prozesse im biologischen Gehirn.
Verbindung zu subjektiven Erfahrungen.
“Denken” in LLMs:
Prädiktionsmodell für nächste Tokens.
Statistische Muster in großen Datenmengen.
Kein Bewusstsein oder Intentionalität.
Keine intrinsische Bedeutungsverarbeitung.
Chain-of-Thought als simuliertes Denken - CoT produziert Texte, die menschlichen Gedankengängen ähneln, aber nicht auf denselben kognitiven Prozessen basieren.
Vergleich zwischen menschlichem Denken und LLM-Prozessen
Menschliches Denken:
Basiert auf Erfahrung.
Hat Zielorientiertheit.
Integriert diverse kognitive Prozesse (Wahrnehmung, Emotionen, Erinnerungen).
Introspektionsfähigkeit.
Versteht die Bedeutung der Konzepte.
LLM-“Denken”:
Basiert auf statistischen Mustern in Trainingsdaten.
Keine eigenen Ziele oder Intentionen.
Fokus auf Sprachmodellierung.
Keine echte Selbstreflexion (kann diese aber imitieren).
Verarbeitet Symbole ohne intrinsisches Verständnis.
Zentraler Unterschied: LLMs erzeugen plausible Fortsetzungen von Text und können Reasoning-Schritte überzeugend nachahmen.
Chain-of-Thought: Echtes oder simuliertes Denken?
Chain-of-Thought als Emergentes Phänomen (Emergierende Fähigkeit in Modellen ab einer bestimmten Größe, Übereinstimmung mit menschlichen Problemlösungsmustern).
Argumente für “Simuliertes Denken”:
Kein Bewusstsein oder Intentionalität.
Kein echtes Weltwissen.
Reproduktion menschlicher Denkmuster aus Trainingsdaten.
Argumente für “Neuartige Form des Denkens”:
Funktionale Äquivalenz zum Problemlösen.
Fähigkeit zur Abstraktion und Transfer.
Erzeugung von originellem, nicht-trivialem Output.
Vorteile von Chain-of-Thought in der Praxis
Erhöhte Genauigkeit (Bessere Ergebnisse bei arithmetischen Aufgaben, Verbesserte logische Schlussfolgerungen, Komplexere Probleme lösbar, Reduzierung von “Halluzinationen”).
Erhöhte Transparenz (Nachvollziehbare Entscheidungsprozesse, Debugging von Reasoning-Fehlern, Vertrauensbildung bei Nutzern - Wichtig für verantwortungsvolle KI).
Von symbolischer Verarbeitung zu Chain-of-Thought Chain-of-Thought verbindet den traditionellen symbolischen Ansatz der KI (schrittweise logische Inferenz) mit der neuronalen Leistungsfähigkeit moderner LLMs - ein “Best of Both Worlds”.
Chain-of-Thought als Brücke zwischen KI-Paradigmen
Symbolische KI + Neuronale KI --> Chain-of-Thought Integration (Explizites Reasoning + Implizites Wissen).
Neurosymbolische KI - CoT nutzt implizite Fähigkeiten neuronaler Netze für explizites symbolisches Reasoning - Wegbereiter für neurosymbolische KI-Systeme.
Zusammenfassung: “Denken” in LLM-basierten Systemen
Chain-of-Thought und das Konzept des Denkens (CoT macht interne Prozesse von LLMs explizit sichtbar).
LLM-basiertes “Denken” unterscheidet sich fundamental vom menschlichen Denken (Kein Bewusstsein oder Verstehen, aber funktional äquivalente Outputs).
Nützliches Werkzeug für komplexe Problemlösung.
Philosophische Perspektive (LLMs zeigen funktionales “Denken” ohne Verständnis - philosophische Aspekte?).
Philosophische Aspekte
Philosophische Richtungen: Materialismus, Behaviorismus, Funktionalismus.
Materialismus
Grundgedanke: Es gibt nichts außer Materie (Insbesondere auch Geist, Gedanken, Wille, … entsteht aus der Materie).
Prinzip: Alles was den Menschen ausmacht, kann durch Naturwissenschaft erforscht / analysiert werden.
Konsequenz: Alles ist grundsätzlich auch konstruierbar (Insbesondere: Prinzipiell ist auch der denkende, intelligente Mensch konstruierbar).
Behaviorismus
Grundprinzip: Nur das Beobachtbare ist Gegenstand der Wissenschaft.
Folgerung: Nur verifizierbare/falsifizierbare Fragen sind sinnvoll (Verifizieren benötigt evtl. unendlich viele Beobachtungen, Falsifizieren: Eine Beobachtung genügt).
Glauben, Ideen, Wissen nur indirekt beobachtbar (gibt es nicht).
Bewusstsein, Ideen, Furcht, … sind Umschreibungen für Verhaltensmuster.
Äquivalenz von Systemen (z.B. Mensch vs. Maschine) gegeben bei gleichem Ein-/Ausgabe-Verhalten.
Funktionalismus
Grundidee: Geistige Zustände (Ideen, Glauben, Furcht,…) sind interne Zustände eines komplexen Systems.
Einzig die Funktion definiert die Semantik eines Systems
Zustand S1 des Systems A ist funktional äquivalent zu Zustand S2 des Systems B, wenn:
A im Zustand S1 und B im Zustand S2 liefern bei gleicher Eingabe die gleiche Ausgabe
Nachfolgezustände von A und B sind funktional äquivalent
Z.B. DAB Radio (digital) und UKW Radio (analog) sind funktional äquivalent.
Aber: Streaming Dienst und Radio sind nicht äquivalent.
Konsequenz: Mensch ist im Prinzip ein endlicher Automat mit Ein-/Ausgabe, definiert durch interne Zustände.
Starke und schwache KI-Hypothese
Schwache KI-Hypothese: Maschinen (Computer, Roboter,…) können agieren, als ob sie intelligent wären.
Starke KI-Hypothese: Maschinen (Computer, Roboter,…) können wirklich denken und simulieren nicht nur das Denken. Sie haben ein Bewusstsein.
In der KI-Forschung:
Schwache KI-Hypothese wird als gegeben hingenommen.
Starke KI-Hypothese: Pragmatische Sichtweise: irrelevant, Hauptsache ist, dass das System funktioniert.
Turing-Test
Test zum Nachweis der starken KI-Hypothese, vorgeschlagen von Alan Turing:
menschlicher Fragesteller
Gegenstelle (Mensch oder Computer)
Kommunikationsleitung (Textübertragung)
Mensch stellt schriftliche Fragen an Computer / Mensch
Begrenzte Zeit
Test ist bestanden, wenn Fragesteller nicht unterscheiden kann, ob Gegenstelle Mensch oder Computer ist.
Turing-Test (2)
Kritik: Nicht objektiv, da der Test von den Fähigkeiten des Fragestellers abhängt (Auch z.B. vom Wissen des Fragestellers über Fähigkeiten eines Computers).
Abhilfe: Test mit mehreren Personen als Fragesteller wiederholen.
Totaler Turing-Test: Unterschied zum (normalen) Turing-Test: Zusätzlich Videoübertragung und Objekterkennung.
Turing-Test: Pro / Contra
Pro: Halbwegs einsichtiges Kriterium für “Intelligenz”.
Contra: System als riesige Datenbank mit vorgefertigten Antworten - Ist das System intelligent?
ELIZA
Von J. Weizenbaum entwickeltes Programm, das als Softbot einen Psychotherapeuten simuliert (Konnte manche Menschen täuschen).
Techniken:
Vorgefertigte Phrasen, falls das System nichts versteht (“Erzählen Sie mir aus Ihrer Jugend”).
Mustererkennung: in der Eingabe wird nach Schlüsselwörtern xyz gesucht; und danach in der nächsten Frage verwendet (“Erzählen Sie mir mehr über xyz”).
Alternative Tests für AGI
Ist ein KI System in der Lage, jede intellektuelle Aufgabe auszuführen, die ein Mensch bewältigen kann?
Kaffeezubereitungstest: KI-gesteuerter Roboter soll Kaffee in beliebiger Küche zubereiten.
IKEA-test: KI-gesteuerter Roboter soll ein in einem Paket verpacktes, zerlegtes IKEA-Möbel aufbauen.
Studierendentest: KI soll standardisierte Tests lösen (jurst. Staatsexamen, SAT, …).
Der ARC Prize als AGI-Benchmark
Was ist der ARC Prize?
dotierter, gemeinnütziger Wettbewerb.
Ziel: Lösung des ARC-AGI-Benchmarks mit Open-Source-Implementierung
Grundidee: Messung der Generalisierungsfähigkeit bei neuartigen Aufgaben
Bedeutung für AGI
Erfasst das Wesen der Intelligenz: Anpassung an neue Situationen
Test für Reasoning-Fähigkeiten jenseits des Trainingskontextes
*Beispielaufgabe aus dem ARC-Benchmark (https://arcprize.org/)
ARC Prize: Technische Details und Entwicklung
Evolution des Benchmarks
ARC-AGI-1: Grundlegende fluide Intelligenz
ARC-AGI-2: Fokus auf Anpassungsfähigkeit und Effizienz
Menschliche Referenz: 98,7% aller ARC-Aufgaben von Menschen lösbar.
Diskrepanz zwischen menschlicher und künstlicher Intelligenz
ARC testet die Kernfähigkeit intelligenter Systeme: Lösung völlig neuartiger Probleme durch Abstraktion und Reasoning
Chinesischer Raum
Gedankenexperiment von John Searle als Gegenargument zur starken KI-Hypothese:
Jemand, der kein Chinesisch versteht, sitzt in einen Raum.
Im Raum: Stapel mit chinesischen Zetteln
Handbuch (in Muttersprache der Person im Raum) mit Regeln wie aus eingegebenen chinesischen Zetteln neue chinesische Zettel erzeugt werden können.
Ein chinesischer Zettel wird durch Schlitz reingereicht
Person erzeugt neue Zettel auf Stapel und gibt einen Zettel nach außen
Chinesischer Raum (2)
Fragen
Versteht die Person Chinesisch?
Versteht das Gesamtsystem etwas?
J. Searle: Kein Teil des System versteht irgendetwas
Gegenargument (Behaviorismus): Das Gesamtsystem versteht etwas, da das Verständnis beobachtbar ist.
Das Prothesenexperiment
Annahme: Neuronen können künstlich nachgebaut werden (elektronische Neuronen).
Experiment: Ersetze einzelne Neuronen durch elektronische Neuronen
Frage: Ab welcher Anzahl verwandelt sich das Prothesen-Gehirn in einen Computer, der nichts versteht?
Folgerungen:
Entweder: Starke KI-Hypothese gilt und nichts ändert sich
Oder: Es gibt etwas, das noch unbekannt ist (Geist,…)
Symbolverarbeitungshypothese
Physikalisches Symbolsystem:
Symbole, denen eine Bedeutung in der Realität zugeordnet werden kann
System erzeugt aus eingegebener Symbolstruktur (z.B. String von Symbolen) weitere Symbolstrukturen
Symbolverarbeitungshypothese (Alan Newell und Herbert Simon)
Es kann ein physikalisches Symbolsystem konstruiert werden, das intelligentes Verhalten zeigt (den Turingtest besteht).
Matt Ginsberg: Ziel der Künstlichen Intelligenz: Konstruktion eines physikalischen Symbolsystems, das zuverlässig den Turingtest besteht.
Konnektionismus
Hypothese des Konnektionismus
Man benötigt subsymbolische, verteilte, parallele Verarbeitung, um eine intelligente Maschine zu konstruieren
Implikation: Man benötigt künstliche neuronale Netze
Gegenargument: Man kann künstliche neuronale Netze auch (als Software) auf normaler Hardware programmieren
KI-Paradigmen
Zwei wesentliche Paradigmen
Physikalisches Symbolsystem
explizites Programmieren
verwenden von Logiken, Schlussregeln, Inferenzverfahren
Stärken: Ziehen von Schlüssen, Interpretierbarkeit, mathematische Garantien,…
Lernverfahren insbesondere durch künstliche neuronale Netze
Stärken: Bilderkennung, Musterverarbeitung, verrauschte Daten, maschinelles Lernen, adaptive Systeme
Komplexes KI-System benötigt i.A. alle Paradigmen
Wissensrepräsentationssysteme
Wissensrepräsentationshypothese (Brian Smith)
Die Verarbeitung von Wissen lässt sich trennen in:
Repräsentation von Wissen, wobei dieses Wissen eine Entsprechung in der realen Welt hat.
Inferenzmechanismus, der Schlüsse daraus zieht.
⇒ Basis für Programme, deren innere Struktur als Modellierung von Fakten, Wissen, Beziehungen und als Operationen, Simulationen verstanden werden kann.
Repräsentations- und Inferenz-Systeme
Komponenten:
1 Formale Sprache: Festlegung der gültigen syntaktischen Formen (Wissensbasis, Anfragen)
2 Semantik: Bedeutung der Sätze der formalen Sprache (i.A. modular aufgebaut)
3 Inferenz-Prozedur (operationale Semantik) Wie kann man Schlüsse ziehen? Diese Inferenzen müssen korrekt bzgl. der Semantik sein.
Implementierung:
Parser für die formale Sprache
Implementierung der Inferenzprozedur.
Wissensrepräsentation in Large Language Models
Repräsentation: Wissen wird in Form von statistischen Mustern in den Daten repräsentiert.
LLMs haben kein explizites Wissen im Sinne von Fakten oder Informationen.
Statistische Muster menschlicher Sprache werden imitiert.
Inferenz-Prozedur
Antworten und Schlüsse werden auf der Grundlage der gelernten Muster gezogen
Schlüsse können fehlerhaft und inkonsistent sein
Repräsentation von Wissen und Inferenzsystem als ein neuronales Netzwerk
Geschichte der KI (1)
1950 A. Turing: Imitationsspiel
1956 J. McCarthy Dartmouth Konferenz: Start des Gebietes “artificial intelligence“ und Formulierung der Ziele.
1970-2005 Wissensverarbeitung als Technologie
medizinisches Expertensystem: MYCIN
Schach: Deep Blue
Computerlinguistik
neuronale Netze (LeNet)
Geschichte der KI (2)
2006-2012 Fortschritte im maschinellen Lernen
Deep Learning mit mehrschichtigen neuronalen Netzen (ConvNets, LSTMs)
Anwendungen in Objekterkennung, Spracherkennung
Sieg von IBM Watson bei Jeopardy! gegen menschliche Champions (2011)
2012-2016 Durchbruch von Deep Learning
AlexNet gewinnt ImageNet Wettbewerb (2012)
Fortschritte bei Bildverarbeitung, maschineller Übersetzung
Sieg von AlphaGo gegen Go-Weltmeister (2016)
Geschichte der KI (3)
2017-2022 Zeitalter der großen Sprachmodelle
Transformer-Architektur ermöglicht vortrainierte Sprachmodelle
GPT-3 (2020) und andere große Modelle mit erstaunlichen Fähigkeiten
Modelle wie DALL-E für Bildgenerierung aus Text
2023+ Generative KI und Weiterentwicklung
GPT-4, Claude, LLama3 und andere dialogfähige multimodale Sprachmodelle
Ethische Fragen und Regulierungsbedarf
Integration von KI(s) in immer mehr Anwendungsbereiche
Geschichte der KI (4)
Aktuelle Forschungsrichtungen
Allgemeine künstliche Intelligenz (AGI) (eine KI, die die Fähigkeit besitzt, jede intellektuelle Aufgabe zu verstehen oder zu lernen, die ein Mensch ausführen kann)
Technologie zur Ermöglichung von multi-modalen Mensch-Computer-Dialogen.
Robotik-Ansatz: (Embodied artificial intelligence, Sensorik und Motorik)
AI safety, trustworthiness and ethics (alignment)
physics-informed AI
AI for science, general medical AI
Retrieval-augmented generation (RAG)
…
Fazit der bisherigen Erfahrungen
Motivationen und Visionen der Allgemeinen KI sind in der Informatik verbreitet
Fernziel scheint (schien?) mit aktuellen Methoden, Techniken, Hardware und Software nicht erreichbar
Scaling Laws momentan vielversprechendster Ansatz
Mechanismen zur Verbesserung der kollektiven Intelligenz?
Offenes Lernen und Selbstverbesserung (open ended learning and self-play)?
Teilbereiche sind eigenständige Forschungsgebiete
Benchmarks für AGI
Herausvorderungen Wie können sinnvolle benchmarks definiert werden? (IQ test)
Overfitting auf benchmarks?
Chatbot Arena (kollaborativer Raum für die Entwicklung, Bewertung und Benchmarking von Chatbot-Modellen)
Spezifische Anwendungsfälle vs Generalisierung über Tasks
Intelligente Agenten
Agent = Oberbegriff für alle KI-Systeme.
Ein Agent hat Sensoren zum Beobachten seiner Umgebung und Aktuatoren (Aktoren; Effektoren) um die Umgebung zu manipulieren.
[Diagramm: Agent, Umgebung, Sensoren, Agentensteuerung, Aktuatoren, Beobachtungen, Aktionen]
Intelligente Agenten (2)
Agent macht Beobachtungen (Folge = Beobachtungssequenz)
Aktionen beeinflussen die Umgebung und evtl. ihn selbst (z.B. Position)
Agentenfunktion: {Beobachtungsfolgen} → {Aktionen}. Agentfunktion kann durch das Agentenprogramm implementiert werden
Beispiel: Staubsaugerwelt (Russel & Norvig)
Orte: A oder B
Jeder Ort: Dreckig / Sauber
Agent kann nur aktuellen Ort beobachten (Sauber/Dreckig)
Aktionen: InsAndereQuadrat, Saugen und NichtsTun.
Beispiel: Staubsaugerwelt (Russel & Norvig) (2)
Problem: Wann ist der Agent (das zugehörige Programm) gut / vernünftig bzw. intelligent ?
Notwendig: Performanzmaß, d.h. eine Leistungsbewertung des Agenten (Z.B. Alles immer maximal sauber, Möglichst sauber, aber wenig Stromverbrauch, Möglichst sauber, aber wenig störend …).
Der optimale agierende Agent ist der intelligente Agent.
Beispiel: Staubsaugerwelt, kommerziell
(Bild eines kommerziellen Staubsaugerroboters)
Intelligenter Agent
Definition: Ein vernünftiger (intelligenter, rationaler) Agent ist derjenige, der stets die optimale Aktion bzgl des Performanzmaßes wählt, aufgrund seiner Beobachtungsfolge und seines Vorwissens über die Umgebung.
Aufgabe: Wählen des Performanzmaßes ?
Lernen
Guter Agent: mittels der Sensoren Wissen über die Umgebung sammeln; lernfähig, bzw. fähig, sich adaptiv zu verhalten, aufgrund der Beobachtungssequenz
Agent wird als autonom bezeichnet, wenn der Agent eher aus seinen Beobachtungen lernt und nicht auf vorprogrammierte Aktionen angewiesen ist.
Umgebungen
Klassifikationen
Vollständig beobachtbar vs. teilweise beobachtbar (Der Staubsauger kann z.B. nur sein eigenes Quadrat beobachten).
Deterministisch vs. Stochastisch (Der Dreck erscheint zufällig in den Quadraten).