Lernen komplexer Aufgaben aus Demonstration und eigener Erfahrung

Gräve, Kathrin

Volltext

View/Open (12.6MB)

Author

Gräve, Kathrin

Type of Scholarly Publication

Dissertation

Date of Exam

22.10.2015

Date of Publication

01.12.2015

Advisor

Behnke, Sven

Co-Referee

Bennewitz, Maren

Involved Institutions

Rheinische Friedrich-Wilhelms-Universität Bonn

Metadata

Show full item record

Citable Links

Handle: https://hdl.handle.net/20.500.11811/6575
URN: https://nbn-resolving.org/urn:nbn:de:hbz:5n-42084

Abstract

Heutige Industrieproduktionen wären nicht möglich ohne die Erfindung von Robotern, die effizient und präzise sich ständig wiederholende Aufgaben ausführen. Gleichzeitig stellt die industrielle Fertigung das bisher einzige Gebiet dar, in dem Roboter in großem Maßstab eingesetzt werden. Dabei gibt es auch in anderen Bereichen des Alltags Aufgaben, bei denen Roboter Menschen sinnvoll unterstützen können. Für die Entwicklung von Servicerobotern für diese neuen Einsatzgebiete ergeben sich eine Reihe von Herausforderungen. So ist etwa eine Programmierung, die ab Werk alle Ausprägungen der Aufgabe und Rahmenbedingungen berücksichtigt, nicht mehr praktikabel.
In diesem Vortrag werden daher Verfahren vorgestellt, mit deren Hilfe Roboter die benötigten Fähigkeiten auf eine intuitive Art und Weise erlernen und sie bei Bedarf an neue Situationen anpassen und ergänzen können. Als Voraussetzung zum Erlernen von Aktionen wird zunächst ein Verfahren zur Segmentierung und Klassifizierung von Bewegungstrajektorien einerseits und zur Erzeugung generalisierter Bewegungen zwischen beliebigen Endpunkten andererseits vorgestellt. Durch den Einsatz einesiterativen Segmentierungs- und Klassifizierungsalgorithmus sowie eines gemeinsamen probabilistischen Aktionsmodells werden dabei systematische Segmentierungsfehler vermieden. Darauf aufbauend werden Lernverfahren vorgestellt, die Bestärkendes Lernen und Lernen aus Demonstrationen kombinieren, um Robotern das Lösen komplexer Aufgaben durch eine gezielte Kombination einfacher Fähigkeiten beizubringen. Dabei werden zunächst sequentielle Aufgaben betrachtet, bei denen die heterogene Zusammensetzung des Zustands- und Aktionsraumes sowie die variable Länge der zu lernenden Aktionssequenzen besondere Herausforderungen darstellen. Diesen begegnet der daraufhin vorgestellte Ansatz durch eine probabilistische Approximation der Nutzenfunktion über Zustands- und Aktionspaare mit einem speziell entwickelten, kombinierten Kernel. Diese Approximation liefert die Grundlage für eine Bayessche Explorationsstrategie, die auf der Optimierung der Erwarteten Veränderung basiert und ein effizientes Bestärkendes Lernen ermöglicht. Um eine bestmögliche Integration des Bestärkenden Lernens mit Expertenwissen aus Demonstrationen zu erreichen, wird ein mehrstufiges Entscheidungssystem genutzt, das in jeder Situation bestimmt, welches der beiden Lernmodule das geeignetere ist und so ein sicheres, aber gleichzeitig auch effizientes Lernen von Bewegungssequenzen ermöglicht. Um auch komplexe Aufgaben effizient lösen zu können, wird zu guter Letzt ein hierarchisches Lernverfahren vorgestellt, das durch Nutzung von Abstraktionsmöglichkeiten eine verbesserte Skalierbarkeit bietet. Dabei wird die MAXQ-Methode für hierarchisches Bestärkendes Lernen für die Nutzung in kontinuierlichen Zustandsräumen erweitert. Mittels einer Gauß-Prozess-Approximation der MAXQ-Zerlegung für jede Teilaufgabe werden dabei rekursiv probabilistische Schätzungen der Q-Werte entlang der Aufgabenhierarchie berechnet. Auf diese Weise kann das bereits erfolgreich zum Lernen von Aktionssequenzen eingesetzte Bayessche Explorationskriterium auch zum effizienten Lernen von MAXQ-Hierarchien angewandt werden.Darüber hinaus nutzt das Verfahren die hierarchische Aufgabenstruktur, um gezielt Demonstrationen nur für Aufgabenteile anfordern werden, in denen diese tatsächlich benötigt werden und somit unnötige redundante Demonstrationen zu vermeiden. Die vorgestellten Verfahrenwurden durch Experimente in einer simulierten Umgebung und auf einem humanoiden Roboter evaluiert.

Subjects

Robotik, Hierarchisches Lernen, Bestärkendes Lernen, Lernen aus Demonstrationen, Aktionserkennung, MAXQ

Classification (DDC)

004 Informatik

Zitiervorschlag
BibTeX

Gräve, Kathrin: Lernen komplexer Aufgaben aus Demonstration und eigener Erfahrung. - Bonn, 2015. - Dissertation, Rheinische Friedrich-Wilhelms-Universität Bonn.
Online-Ausgabe in bonndoc: https://nbn-resolving.org/urn:nbn:de:hbz:5n-42084

@phdthesis{handle:20.500.11811/6575,
urn: https://nbn-resolving.org/urn:nbn:de:hbz:5n-42084,
author = {{Kathrin Gräve}},
title = {Lernen komplexer Aufgaben aus Demonstration und eigener Erfahrung},
school = {Rheinische Friedrich-Wilhelms-Universität Bonn},
year = 2015,
month = dec,
note = {Heutige Industrieproduktionen wären nicht möglich ohne die Erfindung von Robotern, die effizient und präzise sich ständig wiederholende Aufgaben ausführen. Gleichzeitig stellt die industrielle Fertigung das bisher einzige Gebiet dar, in dem Roboter in großem Maßstab eingesetzt werden. Dabei gibt es auch in anderen Bereichen des Alltags Aufgaben, bei denen Roboter Menschen sinnvoll unterstützen können. Für die Entwicklung von Servicerobotern für diese neuen Einsatzgebiete ergeben sich eine Reihe von Herausforderungen. So ist etwa eine Programmierung, die ab Werk alle Ausprägungen der Aufgabe und Rahmenbedingungen berücksichtigt, nicht mehr praktikabel.
In diesem Vortrag werden daher Verfahren vorgestellt, mit deren Hilfe Roboter die benötigten Fähigkeiten auf eine intuitive Art und Weise erlernen und sie bei Bedarf an neue Situationen anpassen und ergänzen können. Als Voraussetzung zum Erlernen von Aktionen wird zunächst ein Verfahren zur Segmentierung und Klassifizierung von Bewegungstrajektorien einerseits und zur Erzeugung generalisierter Bewegungen zwischen beliebigen Endpunkten andererseits vorgestellt. Durch den Einsatz einesiterativen Segmentierungs- und Klassifizierungsalgorithmus sowie eines gemeinsamen probabilistischen Aktionsmodells werden dabei systematische Segmentierungsfehler vermieden. Darauf aufbauend werden Lernverfahren vorgestellt, die Bestärkendes Lernen und Lernen aus Demonstrationen kombinieren, um Robotern das Lösen komplexer Aufgaben durch eine gezielte Kombination einfacher Fähigkeiten beizubringen. Dabei werden zunächst sequentielle Aufgaben betrachtet, bei denen die heterogene Zusammensetzung des Zustands- und Aktionsraumes sowie die variable Länge der zu lernenden Aktionssequenzen besondere Herausforderungen darstellen. Diesen begegnet der daraufhin vorgestellte Ansatz durch eine probabilistische Approximation der Nutzenfunktion über Zustands- und Aktionspaare mit einem speziell entwickelten, kombinierten Kernel. Diese Approximation liefert die Grundlage für eine Bayessche Explorationsstrategie, die auf der Optimierung der Erwarteten Veränderung basiert und ein effizientes Bestärkendes Lernen ermöglicht. Um eine bestmögliche Integration des Bestärkenden Lernens mit Expertenwissen aus Demonstrationen zu erreichen, wird ein mehrstufiges Entscheidungssystem genutzt, das in jeder Situation bestimmt, welches der beiden Lernmodule das geeignetere ist und so ein sicheres, aber gleichzeitig auch effizientes Lernen von Bewegungssequenzen ermöglicht. Um auch komplexe Aufgaben effizient lösen zu können, wird zu guter Letzt ein hierarchisches Lernverfahren vorgestellt, das durch Nutzung von Abstraktionsmöglichkeiten eine verbesserte Skalierbarkeit bietet. Dabei wird die MAXQ-Methode für hierarchisches Bestärkendes Lernen für die Nutzung in kontinuierlichen Zustandsräumen erweitert. Mittels einer Gauß-Prozess-Approximation der MAXQ-Zerlegung für jede Teilaufgabe werden dabei rekursiv probabilistische Schätzungen der Q-Werte entlang der Aufgabenhierarchie berechnet. Auf diese Weise kann das bereits erfolgreich zum Lernen von Aktionssequenzen eingesetzte Bayessche Explorationskriterium auch zum effizienten Lernen von MAXQ-Hierarchien angewandt werden.Darüber hinaus nutzt das Verfahren die hierarchische Aufgabenstruktur, um gezielt Demonstrationen nur für Aufgabenteile anfordern werden, in denen diese tatsächlich benötigt werden und somit unnötige redundante Demonstrationen zu vermeiden. Die vorgestellten Verfahrenwurden durch Experimente in einer simulierten Umgebung und auf einem humanoiden Roboter evaluiert.},
url = {https://hdl.handle.net/20.500.11811/6575}
}

The following license files are associated with this item: