Zur Kurzanzeige

Visual Place Recognition in Changing Environments

dc.contributor.advisormobile robots
dc.contributor.authorVysotska, Olga
dc.date.accessioned2020-08-31T14:15:38Z
dc.date.available2020-08-31T14:15:38Z
dc.date.issued2020
dc.identifier.urihttps://hdl.handle.net/20.500.11811/8565
dc.description.abstractLocalization is an essential capability of mobile robots and place recognition is an important component of localization. Only having precise localization, robots can reliably plan, navigate and understand the environment around them. The main task of visual place recognition algorithms is to recognize based on the visual input if the robot has seen previously a given place in the environment. Cameras are one of the popular sensors robots get information from. They are lightweight, affordable, and provide detailed descriptions of the environment in the form of images. Cameras are shown to be useful for the vast variety of emerging applications, from virtual and augmented reality applications to autonomous cars or even fleets of autonomous cars. All these applications need precise localization. Nowadays, the state-of-the-art methods are able to reliably estimate the position of the robots using image streams. One of the big challenges still is the ability to localize a camera given an image stream in the presence of drastic visual appearance changes in the environment. Visual appearance changes may be caused by a variety of different reasons, starting from camera-related factors, such as changes in exposure time, camera position-related factors, e.g. the scene is observed from a different position or viewing angle, occlusions, as well as factors that stem from natural sources, for example seasonal changes, different weather conditions, illumination changes, etc. These effects change the way the same place in the environments appears in the image and can lead to situations where it becomes hard even for humans to recognize the places. Also, the performance of the traditional visual localization approaches, such as FABMAP or DBow, decreases dramatically in the presence of strong visual appearance changes.
The techniques presented in this thesis aim at improving visual place recognition capabilities for robotic systems in the presence of dramatic visual appearance changes. To reduce the effect of visual changes on image matching performance, we exploit sequences of images rather than individual images. This becomes possible as robotic systems collect data sequentially and not in random order. We formulate the visual place recognition problem under strong appearance changes as a problem of matching image sequences collected by a robotic system at different points in time. A key insight here is the fact that matching sequences reduces the ambiguities in the data associations. This allows us to establish image correspondences between different sequences and thus recognize if two images represent the same place in the environment. To perform a search for image correspondences, we construct a graph that encodes the potential matches between the sequences and at the same time preserves the sequentiality of the data. The shortest path through such a data association graph provides the valid image correspondences between the sequences.
Robots operating reliably in an environment should be able to recognize a place in an online manner and not after having recorded all data beforehand. As opposed to collecting image sequences and then determining the associations between the sequences offline, a real-world system should be able to make a decision for every incoming image. In this thesis, we therefore propose an algorithm that is able to perform visual place recognition in changing environments in an online fashion between the query and the previously recorded reference sequences. Then, for every incoming query image, our algorithm checks if the robot is in the previously seen environment, i.e. there exists a matching image in the reference sequence, as well as if the current measurement is consistent with previously obtained query images.
Additionally, to be able to recognize places in an online manner, a robot needs to recognize the fact that it has left the previously mapped area as well as relocalize when it re-enters environment covered by the reference sequence. Thus, we relax the assumption that the robot should always travel within the previously mapped area and propose an improved graph-based matching procedure that allows for visual place recognition in case of partially overlapping image sequences.
To achieve a long-term autonomy, we further increase the robustness of our place recognition algorithm by incorporating information from multiple image sequences, collected along different overlapping and non-overlapping routes. This allows us to grow the coverage of the environment in terms of area as well as various scene appearances. The reference dataset then contains more images to match against and this increases the probability of finding a matching image, which can lead to improved localization. To be able to deploy a robot that performs localization in large scaled environments over extended periods of time, however, collecting a reference dataset may be a tedious, resource consuming and in some cases intractable task. Avoiding an explicit map collection stage fosters faster deployment of robotic systems in the real world since no map has to be collected beforehand. By using our visual place recognition approach the map collection stage can be skipped, as we are able to incorporate the information from a publicly available source, e.g., from Google Street View, into our framework due to its general formulation. This automatically enables us to perform place recognition on already existing publicly available data and thus avoid costly mapping phase. In this thesis, we additionally show how to organize the images from the publicly available source into the sequences to perform out-of-the-box visual place recognition without previously collecting the otherwise required reference image sequences at city scale.
All approaches described in this thesis have been published in peer-reviewed conference papers and journal articles. In addition to that, most of the presented contributions have been released publicly as open source software.
en
dc.description.abstractMobile Roboter, selbstfahrende Autos und andere autonome mobile Systeme müssen wissen wo sie sich in der Umgebung befinden, um effizient navigieren zu können. Diese Fähigkeit bezeichnet man als Lokalisierung. Man unterscheidet dabei zwischen Systemen, die Ihre Position ohne Vorwissen bestimmen können und als globale Lokalisierungsmethoden bezeichnet werden, und Systemen, die von einer gegebenen Startposition aus ein sogenanntes Verfolgen der Position (Tracking) durchführen.
Diese Arbeit beschäftigt sich mit einer speziellen Form der globalen visuellen Lokalisierung, die oft als Ortserkennung bezeichnet wird. Dabei geht es in erster Linie nicht um die Bestimmung der Position des Roboters in Form einer Koordinate in einem festen Koordinatensystem. Der Roboter soll stattdessen basierend auf Kamerabildern einen Ort wiedererkennen, den er bereits in der Vergangenheit besucht und wahrgenommen hat. Auch wenn sich dies für uns Menschen nach einem einfachen Problem anhört, stellt diese Aufgabe für technische Systeme eine große Herausforderung dar. Einer der Gründe liegt dabei in der kontinuierlichen Veränderung des Erscheinungsbilds eines Ortes, bedingt durch Beleuchtung, Wetterbedingungen, Jahreszeiten oder andere auf Menschenhand zurückführende Veränderungen. Auch haben starke Veränderungen der Aufnahmeposition einen signifikanten Einfluss auf die aufgenommenen Bilder und daher die Erkennung eines Ortes. All diese Effekte verändern die Art und Weise, wie der gleiche Ort im Bild dargestellt wird und dies kann zu Situationen führen, in denen es selbst für Menschen schwierig ist Orte wiederzuerkennen. Das zuverlässige Wiedererkennen beliebiger Orte unter solchen Veränderungen ist daher ein komplexes Problem.
In der Robotik spielen visuelle Sensoren oft eine zentrale Rolle, wenn es um die Wahrnehmung der Umgebung geht. Sie sind neben Lasersensoren die vermutlich am häufigsten genutzten Sensoren, was auf Preis, Größe und Gewicht zurückzuführen ist. Daher findet man auch eine Vielfalt an innovativen Anwendungen aus dem Bereich der virtuellen und erweiterten Realität (Virtual and Augmented Reality), des autonomen Fahrens oder der Logistik, die auf Kameras basieren. Fast alle diese Anwendungen benötigen eine Lokalisierung, d.h. sie müssen wissen, wo sich das System aktuell befindet. Daher ist diese Arbeit für autonome Systeme relevant, die sich auch unter kontinuierlich ändernden Umweltbedingungen zurechtfinden müssen.
Ein zentraler Beitrag dieser Arbeit ist der Ansatz sich von der Erkennung aus Einzelbildern zu lösen und Bildsequenzen zu nutzen. Dies ist möglich, da autonome Systeme ihre Sensordaten sequentiell erfassen und nicht in zufälliger Reihenfolge. Daher formulieren wir in dieser Arbeit das Problem der visuellen Ortserkennung unter starken optischen Veränderungen als das Problem Bildsequenzen, die zu verschiedenen Zeitpunkten aufgenommen wurde, zu registrieren. Eine wichtige Erkenntnis ist, dass dadurch zeitweise Mehrdeutigkeiten in den Datenzuordnungen reduziert oder sogar vollständig aufgelöst werden können. Um die Suche nach Bildsequenzkorrespondenzen zu formulieren, nutzen wir gerichtete azyklische Datenassoziationsgraphen. Die Knoten in einem solchen Graphen modellieren potentielle Übereinstimmungen zwischen Bildern, während die Kanten gleichzeitig die Ordnung der Aufnahmesequenz bewahren. Der kürzeste Weg durch einen solchen Assoziationsgraphen liefert dann die besten Einzelbildkorrespondenzen gegeben die Sequenzinformation. In dieser Arbeit betrachten wir verschiedene Varianten dieses Problems. Dies beinhaltet Online-Verfahren, um zu jedem Zeitpunkt der Navigation die beste Lokalisierungsschätzung zu berechnen, ohne alle Bilder erneut betrachten zu müssen. Des Weiteren untersuchen wir in wie weit andere Lokalisierungsquellen wie beispielsweise GNSS Informationen mit unserem Verfahren verknüpft werden können. Eine Herausforderung bei der Lokalisierung mittels Datensequenzen ist es, Orte online wiederzuerkennen, auch wenn der Roboter den bekannten Umgebungsbereich verlassen hat, d.h. eine gewisse Zeitlang nicht lokalisiert werden konnte.
Fast alle visuellen oder auf Lasersensoren basierenden Lokalisierungssysteme und so auch die von uns vorgeschlagenen Verfahren, haben den Nachteil, dass Orte zwar wiedererkannt werden können, aber die Positionsbestimmung in einer zuvor nicht befahrenen Umgebung nicht gut möglich ist. Um einen Roboter in die Lage zu versetzen sich auch in großflächigen Umgebungen zu lokalizieren, ohne das explizite Sammeln eines Referenzdatensatzes zu verlangen, schlagen wir des Weiteren Verfahren vor, die auf öffentlich zugänglichem Bild- und Kartenmaterial wie Google Street View oder OpenStreetMap Daten aufbauen. Dadurch kann eine explizite Kartensammelphase durch den eigenen Roboter vermieden werden. Unser Verfahren ermöglicht es, automatisch eine Ortserkennung auf dieser Art von Daten durchzuführen.
Alle in dieser Arbeit beschriebenen Ansätze wurden in Form von peer-reviewed Konferenzbeiträgen und Zeitschriftenartikeln veröffentlicht. Darüber hinaus wurden die meisten der präsentierten Beiträge als quelloffene Software veröffentlicht.
de
dc.format.extent188
dc.language.isoeng
dc.relation.ispartofseriesSchriftenreihe / Institut für Geodäsie und Geoinformation ; 65
dc.rightsIn Copyright
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/
dc.subjectLokalisierung
dc.subjectOrtserkennung
dc.subjectRobotik
dc.subjectlocalization
dc.subjectmobile robots
dc.subject.ddc526.982 Fotogrammetrie
dc.titleVisual Place Recognition in Changing Environments
dc.typeDissertation oder Habilitation
dc.publisher.nameRheinische Friedrich-Wilhelms-Universität Bonn, Landwirtschaftliche Fakultät, IGG - Institut für Geodäsie und Geoinformation
dc.publisher.locationBonn
dc.rights.accessRightsopenAccess
dc.relation.eissn2699-6685
dc.relation.urnhttps://nbn-resolving.org/nbn:de:hbz:5n-55938
ulbbn.pubtypeZweitveröffentlichung


Dateien zu dieser Ressource

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige

Die folgenden Nutzungsbestimmungen sind mit dieser Ressource verbunden:

InCopyright