Maximizing Information from User-Clicks for Efficient Instance Segmentation in Images
Maximizing Information from User-Clicks for Efficient Instance Segmentation in Images
dc.contributor.advisor | Yao, Angela | |
dc.contributor.author | Majumder, Soumajit | |
dc.date.accessioned | 2022-08-29T16:45:49Z | |
dc.date.available | 2022-08-29T16:45:49Z | |
dc.date.issued | 29.08.2022 | |
dc.identifier.uri | https://hdl.handle.net/20.500.11811/10191 | |
dc.description.abstract | Interactive instance segmentation allows users to select and obtain accurate pixel-level masks for objects of interest by providing inputs such as clicks, scribbles, or bounding boxes. It has always been a problem of interest in computer vision research, as it addresses quality problems faced by fully automated segmentation methods. The segmented results are helpful for downstream applications such as human-machine collaborative annotation, image/video editing, and mage-based medical diagnosis. The goal is to obtain accurate pixel-level masks for objects with minimal user input. In this dissertation, we propose several frameworks for performing interactive instance segmentation using user-provided clicks.
In interactive instance segmentation, users give feedback to refine segmentation masks iteratively. Typically, such frameworks refine false negatives and false positive regions via a succession of ‘positive’ and ‘negative’ clicks placed centrally in these regions. These user-provided ‘positive’ and ‘negative’ clicks are transformed into separate guidance maps that provide the network with necessary cues on the whereabouts of the object of interest. Most interactive frameworks incorporate these guidance maps at the image input layer. Our work proposes a novel transformation of user clicks to generate content-aware and location-aware guidance maps that leverage the hierarchical structural information present in an image. Using our guidance maps, even the most basic fully convolutional networks (FCNs) are able to outperform existing approaches that require state-of-the-art segmentation networks. Next, we propose an intuitive alternative for ‘positive’ and ‘negative’ refinement clicking by letting users click on the object boundary. We also propose a new multi-stage guidance framework for interactive segmentation. By incorporating user cues at different stages of the network, we allow user interactions to impact the final segmentation output more directly. We investigate and address challenges pertaining to user-click representation, refinement strategy, and network design in this work. Through this dissertation, we advanced the state-of-the-art in interactive instance segmentation, proposed novel user click transformations and refinement strategies, presented new insights on the task-specialized design of such interactive frameworks. We demonstrated the effectiveness of our frameworks through comprehensive experimentation and by comparing them with existing state-of-the-art on standardized public benchmarks. We conclude this dissertation by presenting open challenges and outlining future research directions for interactive instance segmentation research. | en |
dc.description.abstract | Die interaktive Instanzsegmentierung ermöglicht es Benutzern, genaue Masken auf Pixelebene für Objekte von Interesse auszuwählen und zu erhalten, indem Eingaben wie Klicks, Umrisse oder Objekt-Boxen bereitgestellt werden. Es war schon immer ein interessantes Problem in der Computer-Vision-Forschung, da es Qualitätsprobleme adressiert, die bei vollautomatischen Segmentierungsmethoden auftreten. Die segmentierten Ergebnisse sind hilfreich für nachgelagerte Anwendungen wie kollaborative Annotation zwischen Mensch und Maschine, Bild-/Videobearbeitung und bildbasierte medizinische Diagnose. Das Ziel ist es, genaue Masken auf Pixelebene für Objekte mit minimaler Benutzereingabe zu erhalten. In dieser Dissertation schlagen wir mehrere Ansätze für die Durchführung interaktiver Instanzsegmentierung mit benutzerdefinierten Klicks vor.
Bei der interaktiven Instanzsegmentierung geben die Benutzer Feedback, um die Segmentierungsmasken iterativ zu verfeinern. Typischerweise verfeinern solche Ansätze falsch-negative und falsch-positive Regionen durch eine Folge von ‘positiven’ und ‘negativen’ Klicks, die zentral in diesen Regionen platziert werden. Diese vom Benutzer bereitgestellten ‘positiven’ und ‘negativen’ Klicks werden in separate Orientierungskarten umgewandelt, die dem Netzwerk die notwendigen Hinweise auf den Verbleib des zu segmentierenden Objekts geben. Die meisten interaktiven Ansätze integrieren diese Orientierungskarten in der Bildeingabe-Schicht. Diese Arbeit schlägt eine neuartige Transformation von Benutzerklicks vor, um inhalts- und ortsbezogene Orientierungskarten zu erzeugen, die die hierarchischen Strukturinformationen eines Bildes nutzen. Mit unseren Orientierungskarten sind selbst die einfachsten Faltungsnetze in der Lage, bestehende Ansätze zu übertreffen, die hochmoderne Segmentierungsnetzwerke erfordern. Als nächstes schlagen wir eine intuitive Alternative für ‘positive’ und ‘negative’ Verfeinerungsklicks vor, indem wir den Benutzer auf die Objektgrenze klicken lassen. Außerdem schlagen wir ein neues mehrstufiges Anleitungskonzept für die interaktive Segmentierung vor. Durch die Einbeziehung von Benutzerhinweisen in verschiedenen Phasen des Netzwerks ermöglichen wir, dass Benutzerinteraktionen die endgültige Segmentierungsausgabe direkter beeinflussen. In dieser Arbeit untersuchen und adressieren wir Herausforderungen, die die Benutzer-Klick-Darstellung, die Verfeinerungsstrategie und das Netzwerkdesign betreffen. In dieser Arbeit haben wir den Stand der Technik bei der interaktiven Instanzsegmentierung weiterentwickelt, neuartige Benutzer-Klick-Transformationen und Verfeinerungsstrategien vorgeschlagen und neue Erkenntnisse über das aufgabenspezifische Design solcher interaktiven Ansätze präsentiert. Wir demonstrierten die Effektivität unserer Ansätze durch umfassende Experimente und durch Vergleiche mit dem bestehenden Stand der Technik auf standardisierten öffentlichen Benchmarks. Wir schließen diese Dissertation ab, indem wir offene Herausforderungen präsentieren und zukünftige Forschungsrichtungen für die interaktive Instanzsegmentierungsforschung skizzieren. | de |
dc.language.iso | eng | |
dc.rights | In Copyright | |
dc.rights.uri | http://rightsstatements.org/vocab/InC/1.0/ | |
dc.subject | interaktive Segmentierung | |
dc.subject | Bildsegmentierung | |
dc.subject | Instanzsegmentierung | |
dc.subject | interactive segmentation | |
dc.subject | image segmentation | |
dc.subject | instance segmentation | |
dc.subject.ddc | 004 Informatik | |
dc.title | Maximizing Information from User-Clicks for Efficient Instance Segmentation in Images | |
dc.type | Dissertation oder Habilitation | |
dc.publisher.name | Universitäts- und Landesbibliothek Bonn | |
dc.publisher.location | Bonn | |
dc.rights.accessRights | openAccess | |
dc.identifier.urn | https://nbn-resolving.org/urn:nbn:de:hbz:5-67570 | |
ulbbn.pubtype | Erstveröffentlichung | |
ulbbnediss.affiliation.name | Rheinische Friedrich-Wilhelms-Universität Bonn | |
ulbbnediss.affiliation.location | Bonn | |
ulbbnediss.thesis.level | Dissertation | |
ulbbnediss.dissID | 6757 | |
ulbbnediss.date.accepted | 25.01.2022 | |
ulbbnediss.institute | Mathematisch-Naturwissenschaftliche Fakultät : Fachgruppe Informatik / Institut für Informatik | |
ulbbnediss.fakultaet | Mathematisch-Naturwissenschaftliche Fakultät | |
dc.contributor.coReferee | Gall, Jürgen | |
ulbbnediss.contributor.orcid | https://orcid.org/0000-0002-0150-1208 | |
ulbbnediss.contributor.gnd | 1270220357 |
Dateien zu dieser Ressource
Das Dokument erscheint in:
-
E-Dissertationen (4119)