Reinforcement Learning (RL) ist ein vielversprechender Zugang zu maschinellem Lernen, bei dem ein Agent mit seiner Umgebung wechselwirkt: Der Agent setzt Handlungen, während die Umgebung mit einer Veränderung und einem numerischen Feedback reagiert. Der Agent versucht nun, die Handlungen durch gelernte Erfahrungen so zu wählen, dass das kumulierte Feedback im Laufe der gestellten Lernaufgabe möglichst positiv ausfällt. Da sich viele zeitabhängige Problemstellungen als Folge von Zustand, Aktion und Belohnung formulieren lassen, kann Reinforcement Learning als Lösungsstrategie innerhalb dieser Problemklasse genutzt werden. Die notwendigen Daten für die Interaktionen können über eine Simulation des Modells bereitgestellt werden.
Bei Model-Based RL versucht der Agent selbst, eine funktionierende Repräsentation seiner Umgebung aufzubauen. Dieser Vorgang der Modellbildung kann durch Vorwissen oder über spezielle Verarbeitungsschritte im Umgang mit seiner Umgebung beschleunigt werden. Ein Vorteil dieses Ansatzes ist die geringere Datenmenge, die für eine erfolgreiches Lernen benötigt wird.
Die wissenschaftliche Herausforderung besteht oftmals darin, die teilweise hochdimensionalen Zustände der Umgebung geeignet zu vereinfachen und auch Methoden zu entwickeln, diese Vereinfachung automatisiert durchzuführen. Aus Sicht der Mathematik sind Konvergenzgarantien dieses Lernverhaltens besonders wertvoll.