Learning to Reach with Interactive Reinforcement Learning

Abstract:

Giving interactive feedback, other than well/bad done alone, allows to learn faster in Reinforcement Learning. If we reduce the number of wrong actions the learner takes, e.g. by undoing bad actions, we can reduce the number of steps necessary to learn a task. However, the amount of help needed is not thoroughly researched. This thesis aims to answer this question with two tasks. In both tasks the learner learns to move one arm each to reach for an arbitrary position within its reach. The first task is with a shoulder as joint alone, the second with a shoulder and an elbow. We will discover that the advantage of undoing bad actions manifests itself only in the arm with elbow and shoulder and not in the arm with a shoulder as only joint. We will see that not only did the interactive learner learn faster, it learned to take less steps to reach its target, too. Furthermore, it needed less configuration effort to get good result, while the non-interactive learner did not learn very well in some configurations. If both learners learn well, we need a lot of feedback to show an increase in the behaviour, as well as the learning speed. If the difference between both learners is large, even a probability of 10% of interactive feedback shows an improvement of both properties. With a probability of 60% or more, both properties become more stable than the property of the original learner without interactive feedback.

Zusammenfassung:

Interaktive Rückmeldungen, abgesehen von Gut/schlecht gemacht, erlaubt es mit Reinforcement Learning (RL) schneller zu lernen. Wenn wir die Anzahl der schlechten Aktionen reduzieren, z.B. indem wir schlechte Aktionen rückgängig machen, können wir die Anzahl der Schritte reduzieren, die wir benötigen, um eine Tätigkeit zu lernen. Jedoch ist die benötigte Menge an Rückmeldungen noch nicht gründlich erforscht. Diese Arbeit versucht diese Frage zu beantworten, indem sie eine von zwei Tätigkeiten lernen lässt. In diesen Tätigkeiten soll jeweils ein Arm nach einer beliebigen, erreichbaren Position greifen. Ein Arm besitzt nur eine Schulter als Gelenk, der andere zusätzlich einen Ellenbogen, jedoch bewegen sich beide in einem flachen Raum. Wir werden sehen, dass der Unterschied zwischen interaktivem un nicht-interaktivem Lernen nur bei dem Arm mit Ellenbogen sichtbar ist. Wir werden auch sehen, dass der interaktive Lerner nicht nur schneller lernt, sondern auch weniger Schritte benötigt, um das Ziel zu erreichen. Zudem ist es weniger aufwändig die interaktiven Lerner zu konfigurieren. Wenn beide Lerner bereits gut gelernt haben, ist die nötige Menge an Rückmeldungen für einen Vorteil groß. Wenn die Unterschiede groß sind, reicht bereits eine Wahrscheinlichkeit von 10% für Rückmeldungen aus, um einen Unterschied festzustellen. Bei 60% oder mehr sind beide Eigenschaften stabiler als beim ursprünglichen Lerner ohne interaktive Rückmeldungen.