Was ist Reinforcement Learning?

So arbeitet AlphaGo von Google

AlphaGo von Google ist ein enorm Leistungsfähiges Programm – zumindest in seinem eingeschränkten Nutzungsbereich. AlphaGo basiert dabei auf dem sogenannten Reinforcement Learning, einer Lernmethode des Machine Learnings. In diesen Beitrag wollen wir Dir Reinforcement Learning näher bringen.

Mit Reinforcement Learning ist das Überwachte und Unüberwachte Lernen gemeint. Außerdem wird eine der drei Lernmethoden des Machine Learnings damit bezeichnet. Das Reinforcement Learning benötigt kein vorheriges Datenmaterial, denn es werden Strategien und Lösungen auf Basis von erhaltenen Belohnungen im sogenannten Trial-and-Error-Verfahren generiert.

Definition

Mit dem Reinforcement Learning werden, basierend auf dem Trial-and-Error-Verfahren, Lösungen und Strategien für komplexe Fragestellungen gesucht. Dabei werden für bestimmte durchgeführte Aktionen Belohnungen vergeben. Im Vergleich zu anderen Lernmethoden wird kein Datenmaterial benötigt, um den Agent (das lernende System) zu trainieren. Die Intelligenz und das Wissen entsteht daher einhergehend während verschiedenen Simulationsdurchläufen.

Die angewendeten Algorithmen während dieses Prozesses verfolgen das Ziel, die dadurch erhaltenen Belohnungen zu maximieren. Einzelne Aktionen sind deshalb nicht vorgegeben und werden durch den Nutzen der erhaltenen Belohnungen bestimmt.

Das Reinforcement Learning wird zu deutsch als “Bestärkendes Lernen” bezeichnet.

Das spezielle beim Reinforcement Learning ist, dass es dem menschlichen Lernen sehr ähnelt, es werden zum Beispiel künstliche neuronale Netzwerke dazu genutzt. Als sehr bekanntes Beispiel kann AlphaGo von Google herangezogen werden, bei welchem das Reinforcement Learning ebenfalls Verwendung findet. Das Programm AlphaGo Zero misst sich mit den weltbesten Spielern des beliebten Brettspiels Go und bringt sich das Spiel ohne menschliche Hilfe selbst bei.

Wie funktioniert Reinforcement Learning?

Beim Reinforcement Learning können verschiedene Algorithmen eingesetzt werden. Durch die Aktionen des Agenten wird die Systemumgebung verändert. Bei der Anwendung des Reinforcement Learning hat der Agent in der Ausgangsituation keine Informationen darüber, wie sich eine bestimmte Aktion im Endeffekt auf die Systemumgebung auswirkt. Im Zusammenhang mit einer positiven oder negativen Veränderungen hinsichtlich der Problemlösung erhält der Agent eine Rückmeldungen über den Erfolg seiner Aktion. Diese werden in Form von Belohnungen ausgeschüttet und können auch ausbleiben.

In Verbindung mit dem erhaltenen Feedback, wird der Agent die nächste Aktion ausführen. Die Algorithmen verfolgen dabei immer das Ziel, die vergüteten Belohnungen innerhalb des simulierten Systems zu maximieren. Durch diesen Prozess entstehen oder entwickeln sich automatisch Strategien und Aktionen, durch die für die Problemstellung eine Lösung gefunden wird.

Die Lernergebnisse bilden künstliche neuronale Netzwerke in deren Neuronen ab. Dabei wird die Problemlösung in den Neuronen, zwischen einem sogenannten Input- und Output-Layer gespeichert. Die anderen beiden Lernmethoden werden mit überwachten- und nicht überwachten Lernen bezeichnet.

Was sind die Vorteile beim Reinforcement Learning?

Diese Lernmethode bietet einige Vorteile gegenüber anderen maschinellen Methoden. Durch diesen Prozess ist es möglich, ohne Ausgangsdaten und menschliches (Vor)Wissen, Lösungen zu komplexen Problemen zu finden. Dabei ähnelt Reinforcement Learning dem natürlichen Lernprozess sehr und generiert Lösungen, zu denen ein Mensch nicht fähig ist. Diese Lernmethode kann für beliebige intellektuelle Aufgaben eingesetzt werden. Zudem ist die aufwendige Erhebung und Bearbeitung von Trainingsmethoden durch das Reinforcement Learning nicht notwendig.

Beispiele

Ein typisches Anwendungsbeispiel des überwachten Lernens kann die Personenerkennung auf Bildern sein.
Des Weiteren auch das automatische Erkennen von Spam-Mails oder die Handschrifterkennung.

Jedoch ist das Erstellen und Generieren von Trainingsdaten beim überwachten Lernen sehr aufwendig. Doch auch das nicht überwachte Lernen braucht Daten zum arbeiten, der Unterschied ist jedoch, dass diese gelabelt sind.

Zu den einzelnen Datensätzen, existieren deshalb keine vorgegebenen Lösungen. Aus diesem Grund versucht das System verschiedene Strukturen, Muster und Unterschiede der Daten zu erkennen, um in der Lage zu sein die Datensätze passend zu gruppieren.

Eine praktische Anwendung kann das Reinforcement Learning zum Beispiel bei der Optimierung von Logistikprozessen, bei der Ampelsteuerung zur Minimierung von Staus, bei der Steuerung der Klimatisierung in Rechenzentren von Google und bei noch vielen anderen Anwendungen finden.

Videoerklärung

Hier noch ein (englischsprachiges) Video zur Verdeutlichung:

Fazit

Das Reinforcement Learning kann und wird in Zukunft in sehr vielen Bereich zum Einsatz kommen. Bei der praktischen Anwendung wird diese maschinelle Lernmethode, für den Menschen viele Situationen erleichtern und perfekte Problemlösungen finden!

Bildnachweis: mopic @ Adobe Stock