Was ist Reinforcement Learning?

Michael Chen | Content Strategist | 3. April 2024

„Reinforcement Learning“ oder bestärkendes Lernen ist eine Form des maschinellen Lernens (ML), mit der KI-Modelle ihren Entscheidungsprozess auf der Grundlage von positivem, neutralem und negativem Feedback verfeinern können, das ihnen bei der Entscheidung hilft, ob eine Aktion unter ähnlichen Umständen wiederholt werden soll. Beim Reinforcement Learning verfolgen Entwickler in einer explorativen Umgebung ein bestimmtes Ziel, was es von überwachtem und unüberwachtem Lernen unterscheidet.

Im Rahmen des Reinforcement Learning arbeitet der Algorithmus mit einem nicht gekennzeichneten Datensatz, der auf ein bestimmtes Ergebnis ausgerichtet ist. Jeder Schritt, den der Algorithmus zur Untersuchung des Datensatzes unternimmt, erzeugt Feedback, entweder positiv, negativ oder neutral. Dieses Feedback ist der „Reinforcement“-Teil des Lernprozesses – wenn es sich ansammelt, unterstützt es die Entscheidung, entweder einen positiven Weg einzuschlagen oder einen negativen Weg zu vermeiden. Irgendwann kann das Modell die beste Strategie ermitteln, um ein Ergebnis zu erzielen. Da der Algorithmus das übergeordnete Hauptziel berücksichtigt, kann dieser Weg einen Prozess der verzögerten Belohnung beinhalten, bei dem kleinere negative Konsequenzen angehäuft werden, um das gewünschte Ergebnis zu erzielen.

Wenn Ihnen das bekannt vorkommt, dann deshalb, weil Reinforcement Learning den natürlichen Lernprozess nachahmt. Lob und Belohnungen sowie negative Konsequenzen bilden die Grenzen für die Entwicklung des Geistes und stärken die Richtlinien für den Umgang mit der Welt und den Erfolg in der Welt, sei es bei einem jungen Tier, das auf Nahrungssuche ist, oder bei einem Menschenkind, das lernt, Symbole zu erkennen. Da Reinforcement Learning dem Lernen in der realen Welt ähnelt, ist es für komplexe und offene Szenarien nützlich, bei denen eine längerfristige Strategie wichtiger sein kann als ein sofortiges Ergebnis.

In Umgebungen, die von Regeln, Einschränkungen und verbundenen oder dynamischen Beziehungen geprägt sind, bringt das bestärkende Lernen Nuancen in die modellhafte Entscheidungsfindung, indem es das Verständnis für die Folgen von Handlungen fördert. Auf technischer Ebene bietet bestärkendes Lernen viel mehr Flexibilität als das überwachte Lernen, da es nicht auf etikettierten Datensätzen beruht. Stattdessen lernen Modelle durch Experimentieren und schaffen so eine Anpassungsfähigkeit, die zu einer breiteren Palette von Lösungen über das gesamte Erfolgsspektrum hinweg führt. Die Modelle können sich an die Umstände anpassen.

Was ist Reinforcement Learning?

Beim bestärkenden Lernen verfeinern Modelle ihren Entscheidungsprozess auf der Grundlage positiver, neutraler und negativer Verstärkung. Unter verschiedensten Umständen ist das eine effektive Wahl für das Training von Modellen für maschinelles Lernen. Reinforcement Learning eignet sich besonders, wenn das Ziel darin besteht, die Strategien hinter erfolgreichen Ergebnissen zu verstehen, anstatt einfachere Entscheidungsbäume zu erstellen.

Wenn ein KI-Modell beispielsweise ein Level in einem Spiel erfolgreich abschließt, kann es mit Bonuspunkten oder einem Levelaufstieg belohnt werden. Neutrale Verstärkung hingegen bezieht sich auf Situationen, in denen keine Belohnungen oder Strafen verhängt werden, und wird in der Regel verwendet, wenn die Handlungen des Modells keinen wesentlichen Einfluss auf das Gesamtziel haben. Negative Verstärkung beinhaltet Strafen, wenn das Modell unerwünschte Handlungen ausführt oder das gewünschte Ergebnis nicht erreicht. Wenn die KI beispielsweise in einem Spiel einen nicht erlaubten oder erfolglosen Zug macht, kann sie mit einem Punkteabzug oder einer Herabstufung bestraft werden.

Anwendungsfälle, die ideal für bestärkendes Lernen sind, umfassen:

  • Gaming: Die ersten Schachcomputer basierten auf einer Reihe von IF/THEN-Regeln. Beim bestärkenden Lernen erhält das Modell eine breitere, organischere Aufnahme von Situationen, Entscheidungen und Ergebnissen, wodurch ein komplexer Entscheidungsprozess entsteht, der zu einem ausgefeilteren CPU-Gegner führt.
  • Generative KI: Bestärkendes Lernen kann Teil der ML-Grundlage für ein generatives KI-Modell sein. Unabhängig davon, ob das Modell Bilder, Text oder Audio generiert, ermöglicht bestärkendes Lernen einen Trial-and-Error-Ansatz, um die Genauigkeit von Eingabeaufforderungen und Ausgaben zu bestimmen und zu verfeinern.
  • Marketing: Jede Marketingmaßnahme ist eine Chance für bestärkendes Lernen. Ob Kunden die Seiten geöffnet, angeklickt und sich dort aufgehalten haben oder nicht, bietet sowohl positive als auch negative Verstärkung, die in das Modell zurückfließt, um ein genaueres Kundenprofil zu erstellen.
  • Empfehlungsmodelle: Ein Empfehlungsmodell erhält positive Verstärkung durch das Engagement, das für jeden Vorschlag eingeht. Dies führt zu Mustern, die sich zu einem präziseren Modell für Kundenprofile zusammenfügen.
  • Autonome Fahrzeuge: Durch das Lernen in kontrollierten und simulierten Umgebungen können selbstfahrende Automodelle ein tiefes Verständnis für komplexe Situationen entwickeln. Da das Autofahren so viele unmittelbare Entscheidungen mit Faktoren wie Nähe, Geschwindigkeit, Wetter und Gefahren mit sich bringt, ermöglicht bestärkendes Lernen eine Reihe von Reaktionen, um die Entscheidungsfindung in Modellen zu verfeinern.

In all diesen Fällen ähneln die ersten Phasen des Trainings einem Kleinkind, das beginnt, die Welt zu verstehen. Wenn das Modell die Produktionsphase erreicht, kann es als ausgereift oder erwachsen betrachtet werden, da es in der Lage ist, im Allgemeinen richtige Entscheidungen zu treffen, während es kontinuierlich lernt, diese Genauigkeit zu verfeinern – und mit den richtigen Umständen und Ressourcen sogar die Beherrschung des Themas erlangt, sei es beim Spielen eines Spiels wie Schach oder bei der Abgabe von Empfehlungen, die einen Kunden immer interessieren.

KI kann CIOs dabei helfen, Daten zu analysieren, um die Cloud-Ausgaben zu optimieren und dem Architekten Code-Optimierungen vorzuschlagen, um den Datenverkehr zu minimieren. Erfahren Sie, wie Sie das Potenzial der künstlichen Intelligenz jetzt nutzen können, um Talente, Sicherheit und andere Herausforderungen anzugehen.

Häufig gestellte Fragen zu bestärkendem Lernen

Gehört bestärkendes Lernen zu ML oder KI?

Bestärkendes Lernen ist eine Technik des maschinellen Lernens, mit der Systeme trainiert werden können, Entscheidungen auf der Grundlage von positivem, neutralem und negativem Feedback zu treffen. Ein Modell des maschinellen Lernens, das auf bestärkendem Lernen basiert, kann Teil eines umfassenderen Modells der künstlichen Intelligenz sein, das menschliche Reaktionen auf bestimmte Umstände oder Situationen simuliert.

Was sind die drei Hauptarten des bestärkenden Lernens?

Die drei Hauptarten des bestärkenden Lernens sind

  • modellbasiert: Es wird eine Umgebung geschaffen, in der das Modell frei erkunden kann, während es seine Parameter bestimmt, um den besten Weg zum Erfolg zu finden.
  • richtlinienbasiert: Die Beziehungen zwischen potenziellen Strategien (Richtlinien), Maßnahmen (Werten) und Ergebnissen werden untersucht, bevor das Modell bestimmt, welche Richtlinie den höchsten Erfolg erzielt.
  • wertorientiert: Das aktuelle Umfeld wird in Bezug auf bestimmte Maßnahmen (Werte) untersucht, bevor das Modell bestimmt, welcher Wert den höchsten Erfolg erzielt.

Was ist der Unterschied zwischen überwachtem Lernen und bestärkendem Lernen?

Beim überwachten Lernen werden Modelle anhand gekennzeichneter Datensätze trainiert, damit sie die erwarteten Ergebnisse präzise erzielen können. Das bestärkende Lernen verfolgt einen eher explorativen Ansatz und bietet eine offene Umgebung, in der das Modell verschiedene Strategien und Entscheidungen ausprobieren kann, bis das gewünschte Ergebnis erreicht ist.