Michael Chen | Content Strategist | 3. April 2024
„Reinforcement Learning“ oder bestärkendes Lernen ist eine Form des maschinellen Lernens (ML), mit der KI-Modelle ihren Entscheidungsprozess auf der Grundlage von positivem, neutralem und negativem Feedback verfeinern können, das ihnen bei der Entscheidung hilft, ob eine Aktion unter ähnlichen Umständen wiederholt werden soll. Beim Reinforcement Learning verfolgen Entwickler in einer explorativen Umgebung ein bestimmtes Ziel, was es von überwachtem und unüberwachtem Lernen unterscheidet.
Im Rahmen des Reinforcement Learning arbeitet der Algorithmus mit einem nicht gekennzeichneten Datensatz, der auf ein bestimmtes Ergebnis ausgerichtet ist. Jeder Schritt, den der Algorithmus zur Untersuchung des Datensatzes unternimmt, erzeugt Feedback, entweder positiv, negativ oder neutral. Dieses Feedback ist der „Reinforcement“-Teil des Lernprozesses – wenn es sich ansammelt, unterstützt es die Entscheidung, entweder einen positiven Weg einzuschlagen oder einen negativen Weg zu vermeiden. Irgendwann kann das Modell die beste Strategie ermitteln, um ein Ergebnis zu erzielen. Da der Algorithmus das übergeordnete Hauptziel berücksichtigt, kann dieser Weg einen Prozess der verzögerten Belohnung beinhalten, bei dem kleinere negative Konsequenzen angehäuft werden, um das gewünschte Ergebnis zu erzielen.
Wenn Ihnen das bekannt vorkommt, dann deshalb, weil Reinforcement Learning den natürlichen Lernprozess nachahmt. Lob und Belohnungen sowie negative Konsequenzen bilden die Grenzen für die Entwicklung des Geistes und stärken die Richtlinien für den Umgang mit der Welt und den Erfolg in der Welt, sei es bei einem jungen Tier, das auf Nahrungssuche ist, oder bei einem Menschenkind, das lernt, Symbole zu erkennen. Da Reinforcement Learning dem Lernen in der realen Welt ähnelt, ist es für komplexe und offene Szenarien nützlich, bei denen eine längerfristige Strategie wichtiger sein kann als ein sofortiges Ergebnis.
In Umgebungen, die von Regeln, Einschränkungen und verbundenen oder dynamischen Beziehungen geprägt sind, bringt das bestärkende Lernen Nuancen in die modellhafte Entscheidungsfindung, indem es das Verständnis für die Folgen von Handlungen fördert. Auf technischer Ebene bietet bestärkendes Lernen viel mehr Flexibilität als das überwachte Lernen, da es nicht auf etikettierten Datensätzen beruht. Stattdessen lernen Modelle durch Experimentieren und schaffen so eine Anpassungsfähigkeit, die zu einer breiteren Palette von Lösungen über das gesamte Erfolgsspektrum hinweg führt. Die Modelle können sich an die Umstände anpassen.
Beim bestärkenden Lernen verfeinern Modelle ihren Entscheidungsprozess auf der Grundlage positiver, neutraler und negativer Verstärkung. Unter verschiedensten Umständen ist das eine effektive Wahl für das Training von Modellen für maschinelles Lernen. Reinforcement Learning eignet sich besonders, wenn das Ziel darin besteht, die Strategien hinter erfolgreichen Ergebnissen zu verstehen, anstatt einfachere Entscheidungsbäume zu erstellen.
Wenn ein KI-Modell beispielsweise ein Level in einem Spiel erfolgreich abschließt, kann es mit Bonuspunkten oder einem Levelaufstieg belohnt werden. Neutrale Verstärkung hingegen bezieht sich auf Situationen, in denen keine Belohnungen oder Strafen verhängt werden, und wird in der Regel verwendet, wenn die Handlungen des Modells keinen wesentlichen Einfluss auf das Gesamtziel haben. Negative Verstärkung beinhaltet Strafen, wenn das Modell unerwünschte Handlungen ausführt oder das gewünschte Ergebnis nicht erreicht. Wenn die KI beispielsweise in einem Spiel einen nicht erlaubten oder erfolglosen Zug macht, kann sie mit einem Punkteabzug oder einer Herabstufung bestraft werden.
Anwendungsfälle, die ideal für bestärkendes Lernen sind, umfassen:
In all diesen Fällen ähneln die ersten Phasen des Trainings einem Kleinkind, das beginnt, die Welt zu verstehen. Wenn das Modell die Produktionsphase erreicht, kann es als ausgereift oder erwachsen betrachtet werden, da es in der Lage ist, im Allgemeinen richtige Entscheidungen zu treffen, während es kontinuierlich lernt, diese Genauigkeit zu verfeinern – und mit den richtigen Umständen und Ressourcen sogar die Beherrschung des Themas erlangt, sei es beim Spielen eines Spiels wie Schach oder bei der Abgabe von Empfehlungen, die einen Kunden immer interessieren.
KI kann CIOs dabei helfen, Daten zu analysieren, um die Cloud-Ausgaben zu optimieren und dem Architekten Code-Optimierungen vorzuschlagen, um den Datenverkehr zu minimieren. Erfahren Sie, wie Sie das Potenzial der künstlichen Intelligenz jetzt nutzen können, um Talente, Sicherheit und andere Herausforderungen anzugehen.
Gehört bestärkendes Lernen zu ML oder KI?
Bestärkendes Lernen ist eine Technik des maschinellen Lernens, mit der Systeme trainiert werden können, Entscheidungen auf der Grundlage von positivem, neutralem und negativem Feedback zu treffen. Ein Modell des maschinellen Lernens, das auf bestärkendem Lernen basiert, kann Teil eines umfassenderen Modells der künstlichen Intelligenz sein, das menschliche Reaktionen auf bestimmte Umstände oder Situationen simuliert.
Was sind die drei Hauptarten des bestärkenden Lernens?
Die drei Hauptarten des bestärkenden Lernens sind
Was ist der Unterschied zwischen überwachtem Lernen und bestärkendem Lernen?
Beim überwachten Lernen werden Modelle anhand gekennzeichneter Datensätze trainiert, damit sie die erwarteten Ergebnisse präzise erzielen können. Das bestärkende Lernen verfolgt einen eher explorativen Ansatz und bietet eine offene Umgebung, in der das Modell verschiedene Strategien und Entscheidungen ausprobieren kann, bis das gewünschte Ergebnis erreicht ist.