Zur Kurzanzeige

Semantic Feedback for Collaborative Perception with Smart Edge Sensors

dc.contributor.advisorBehnke, Sven
dc.contributor.authorBultmann, Simon Alexander
dc.date.accessioned2024-08-23T08:37:45Z
dc.date.available2024-08-23T08:37:45Z
dc.date.issued23.08.2024
dc.identifier.urihttps://hdl.handle.net/20.500.11811/11943
dc.description.abstractIn this thesis, we develop a system for accurate semantic perception of 3D scene geometry, persons, and objects in robotic applications. We consider the limitations of interpreting only a single sensor view with restricted measurement range, field of view, and resolution, and the challenges posed by centralized approaches that rely on high communication bandwidth and computational power.
To address these issues, we propose a network of distributed smart edge sensors equipped with a multi-modal sensor suite and an embedded CNN inference accelerator for on-device image processing. Real-time vision CNN models for person and object detection, semantic segmentation, and pose estimation are deployed on the sensors. The extracted information, such as 2D human keypoints, object poses, and semantic point clouds, is then passed to a central backend where multiple viewpoints are fused into a comprehensive 3D semantic scene model. Since image interpretation is computed locally, only semantic information is sent over the network. The raw images remain on the sensor boards, significantly reducing bandwidth requirements and mitigating privacy concerns for the observed persons.
The concept of smart edge sensors is further extended to mobile aerial and ground robots, enabling anticipatory human-aware navigation and active perception in areas not covered by stationary sensors. An outdoor smart edge sensor is presented, based on a UAV platform with on-board multi-modal semantic perception.
We introduce the concept of semantic feedback, enabling collaborative perception between sensor nodes and the central backend through bidirectional communication at the semantic level. The incorporation of global context information, such as the fused multi-view human and robot pose estimates, enhances the local semantic models of the smart edge sensors, improving pose estimation and enabling preemptive adjustments to the robot's navigation path, e.g. when a person emerges from an occluded area.
The proposed methods are evaluated using public datasets and real-world experiments in challenging cluttered and dynamic environments. The system demonstrates the ability to generate a real-time semantic scene model that includes semantically annotated 3D geometry, object instances, and poses of multiple persons.
en
dc.description.abstractIn dieser Arbeit wird ein System zur semantischen Wahrnehmung von 3D-Szenengeometrie, Personen und Objekten in der Robotik entwickelt. Dabei werden Einschränkungen berücksichtigt, die sich aus der Interpretation einer einzelnen Sensoransicht mit begrenztem Sichtfeld, begrenzter Messreichweite und Auflösung ergeben, sowie die Herausforderungen zentralisierter Ansätze, die eine hohe Kommunikationsbandbreite und Rechenleistung erfordern.
Um diese Einschränkungen zu beheben, wird ein Netzwerk verteilter Smart-Edge-Sensoren entwickelt, die mit einer multimodalen Sensorsuite und einem eingebetteten CNN-Inferenzbeschleuniger für die geräteinterne Bildverarbeitung ausgestattet sind. Auf den Sensoren werden Echtzeit-Vision-CNN-Modelle zur Personen- und Objekterkennung, semantischen Segmentierung und Posenschätzung eingesetzt. Die extrahierten Informationen, wie z.~B. 2D-Keypoints von Personen, Objektposen und semantische Punktwolken, werden dann an ein zentrales Backend gesendet, wo mehrere Blickwinkel zu einem umfassenden semantischen 3D-Szenenmodell fusioniert werden. Da die Bildinterpretation lokal berechnet wird, werden nur semantische Informationen über das Netzwerk übertragen. Die Rohbilder verbleiben auf den Sensorboards, was die Bandbreitenanforderungen erheblich reduziert und Datenschutzbedenken für beobachtete Personen mindert.
Das Konzept der Smart-Edge-Sensoren wird auf mobile Luft- und Bodenroboter ausgeweitet und ermöglicht eine vorausschauende, menschenbewusste Navigation und aktive Wahrnehmung in Bereichen, die von stationären Sensoren nicht erfasst werden. Es wird ein outdoor Smart-Edge-Sensor vorgestellt, der eine UAV-Plattform mit integrierter multimodaler semantischer Wahrnehmung nutzt.
Für die kollaborative Wahrnehmung zwischen Smart-Edge-Sensorknoten und dem zentralen Backend durch bidirektionale Kommunikation auf semantischer Ebene wird das Konzept des semantischen Feedbacks entwickelt. Die Einbeziehung globaler Kontextinformation, z.~B. der fusionierten Multi-View-Personen- und Roboterposenschätzung, verbessert die lokalen semantischen Modelle der Smart-Edge-Sensoren, indem die Posenschätzung unterstützt und eine vorausschauende Anpassung der Bewegung des Roboters, z.~B. wenn eine Person aus einem verdeckten Bereich hervortritt, ermöglicht wird.
Die vorgeschlagenen Methoden werden anhand öffentlicher Datensätze und realer Experimente in anspruchsvollen, unübersichtlichen und dynamischen Umgebungen evaluiert. Das System ist in der Lage, in Echtzeit ein semantisches Szenenmodell zu erstellen, das semantisch annotierte 3D-Geometrie, Objektinstanzen und Posen mehrerer Personen.
en
dc.language.isoeng
dc.rightsIn Copyright
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/
dc.subjectSemantic Scene Understanding
dc.subjectHuman Pose Estimation
dc.subjectCollaborative Perception
dc.subjectSensor Networks
dc.subjectDeep Learning for Visual Perception
dc.subjectRobot Perception
dc.subjectSensor Fusion
dc.subject.ddc004 Informatik
dc.titleSemantic Feedback for Collaborative Perception with Smart Edge Sensors
dc.typeDissertation oder Habilitation
dc.publisher.nameUniversitäts- und Landesbibliothek Bonn
dc.publisher.locationBonn
dc.rights.accessRightsopenAccess
dc.identifier.urnhttps://nbn-resolving.org/urn:nbn:de:hbz:5-76533
dc.relation.doihttps://doi.org/10.15607/RSS.2021.XVII.040
dc.relation.doihttps://doi.org/10.1109/ECMR50962.2021.9568812
dc.relation.doihttps://doi.org/10.1007/978-3-031-22216-0_22
dc.relation.doihttps://doi.org/10.1016/j.robot.2022.104286
dc.relation.doihttps://doi.org/10.1109/ICRA48891.2023.10160892
dc.relation.doihttps://doi.org/10.1007/978-3-030-98682-7_7
dc.relation.doihttps://doi.org/10.1007/978-3-031-16788-1_19
dc.relation.doihttps://doi.org/10.1109/IRC55401.2022.00041
ulbbn.pubtypeErstveröffentlichung
ulbbnediss.affiliation.nameRheinische Friedrich-Wilhelms-Universität Bonn
ulbbnediss.affiliation.locationBonn
ulbbnediss.thesis.levelDissertation
ulbbnediss.dissID7653
ulbbnediss.date.accepted01.07.2024
ulbbnediss.instituteMathematisch-Naturwissenschaftliche Fakultät : Fachgruppe Informatik / Institut für Informatik
ulbbnediss.fakultaetMathematisch-Naturwissenschaftliche Fakultät
dc.contributor.coRefereeKühne, Hildegard
ulbbnediss.contributor.orcidhttps://orcid.org/0000-0001-9509-2080
ulbbnediss.contributor.gnd1334901759


Dateien zu dieser Ressource

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige

Die folgenden Nutzungsbestimmungen sind mit dieser Ressource verbunden:

InCopyright