Maximizing Information from User-Clicks for Efficient Instance Segmentation in Images

Majumder, Soumajit

dc.contributor.advisor	Yao, Angela
dc.contributor.author	Majumder, Soumajit
dc.date.accessioned	2022-08-29T16:45:49Z
dc.date.available	2022-08-29T16:45:49Z
dc.date.issued	29.08.2022
dc.identifier.uri	https://hdl.handle.net/20.500.11811/10191
dc.description.abstract	Interactive instance segmentation allows users to select and obtain accurate pixel-level masks for objects of interest by providing inputs such as clicks, scribbles, or bounding boxes. It has always been a problem of interest in computer vision research, as it addresses quality problems faced by fully automated segmentation methods. The segmented results are helpful for downstream applications such as human-machine collaborative annotation, image/video editing, and mage-based medical diagnosis. The goal is to obtain accurate pixel-level masks for objects with minimal user input. In this dissertation, we propose several frameworks for performing interactive instance segmentation using user-provided clicks. In interactive instance segmentation, users give feedback to refine segmentation masks iteratively. Typically, such frameworks refine false negatives and false positive regions via a succession of ‘positive’ and ‘negative’ clicks placed centrally in these regions. These user-provided ‘positive’ and ‘negative’ clicks are transformed into separate guidance maps that provide the network with necessary cues on the whereabouts of the object of interest. Most interactive frameworks incorporate these guidance maps at the image input layer. Our work proposes a novel transformation of user clicks to generate content-aware and location-aware guidance maps that leverage the hierarchical structural information present in an image. Using our guidance maps, even the most basic fully convolutional networks (FCNs) are able to outperform existing approaches that require state-of-the-art segmentation networks. Next, we propose an intuitive alternative for ‘positive’ and ‘negative’ refinement clicking by letting users click on the object boundary. We also propose a new multi-stage guidance framework for interactive segmentation. By incorporating user cues at different stages of the network, we allow user interactions to impact the final segmentation output more directly. We investigate and address challenges pertaining to user-click representation, refinement strategy, and network design in this work. Through this dissertation, we advanced the state-of-the-art in interactive instance segmentation, proposed novel user click transformations and refinement strategies, presented new insights on the task-specialized design of such interactive frameworks. We demonstrated the effectiveness of our frameworks through comprehensive experimentation and by comparing them with existing state-of-the-art on standardized public benchmarks. We conclude this dissertation by presenting open challenges and outlining future research directions for interactive instance segmentation research.	en
dc.description.abstract	Die interaktive Instanzsegmentierung ermöglicht es Benutzern, genaue Masken auf Pixelebene für Objekte von Interesse auszuwählen und zu erhalten, indem Eingaben wie Klicks, Umrisse oder Objekt-Boxen bereitgestellt werden. Es war schon immer ein interessantes Problem in der Computer-Vision-Forschung, da es Qualitätsprobleme adressiert, die bei vollautomatischen Segmentierungsmethoden auftreten. Die segmentierten Ergebnisse sind hilfreich für nachgelagerte Anwendungen wie kollaborative Annotation zwischen Mensch und Maschine, Bild-/Videobearbeitung und bildbasierte medizinische Diagnose. Das Ziel ist es, genaue Masken auf Pixelebene für Objekte mit minimaler Benutzereingabe zu erhalten. In dieser Dissertation schlagen wir mehrere Ansätze für die Durchführung interaktiver Instanzsegmentierung mit benutzerdefinierten Klicks vor. Bei der interaktiven Instanzsegmentierung geben die Benutzer Feedback, um die Segmentierungsmasken iterativ zu verfeinern. Typischerweise verfeinern solche Ansätze falsch-negative und falsch-positive Regionen durch eine Folge von ‘positiven’ und ‘negativen’ Klicks, die zentral in diesen Regionen platziert werden. Diese vom Benutzer bereitgestellten ‘positiven’ und ‘negativen’ Klicks werden in separate Orientierungskarten umgewandelt, die dem Netzwerk die notwendigen Hinweise auf den Verbleib des zu segmentierenden Objekts geben. Die meisten interaktiven Ansätze integrieren diese Orientierungskarten in der Bildeingabe-Schicht. Diese Arbeit schlägt eine neuartige Transformation von Benutzerklicks vor, um inhalts- und ortsbezogene Orientierungskarten zu erzeugen, die die hierarchischen Strukturinformationen eines Bildes nutzen. Mit unseren Orientierungskarten sind selbst die einfachsten Faltungsnetze in der Lage, bestehende Ansätze zu übertreffen, die hochmoderne Segmentierungsnetzwerke erfordern. Als nächstes schlagen wir eine intuitive Alternative für ‘positive’ und ‘negative’ Verfeinerungsklicks vor, indem wir den Benutzer auf die Objektgrenze klicken lassen. Außerdem schlagen wir ein neues mehrstufiges Anleitungskonzept für die interaktive Segmentierung vor. Durch die Einbeziehung von Benutzerhinweisen in verschiedenen Phasen des Netzwerks ermöglichen wir, dass Benutzerinteraktionen die endgültige Segmentierungsausgabe direkter beeinflussen. In dieser Arbeit untersuchen und adressieren wir Herausforderungen, die die Benutzer-Klick-Darstellung, die Verfeinerungsstrategie und das Netzwerkdesign betreffen. In dieser Arbeit haben wir den Stand der Technik bei der interaktiven Instanzsegmentierung weiterentwickelt, neuartige Benutzer-Klick-Transformationen und Verfeinerungsstrategien vorgeschlagen und neue Erkenntnisse über das aufgabenspezifische Design solcher interaktiven Ansätze präsentiert. Wir demonstrierten die Effektivität unserer Ansätze durch umfassende Experimente und durch Vergleiche mit dem bestehenden Stand der Technik auf standardisierten öffentlichen Benchmarks. Wir schließen diese Dissertation ab, indem wir offene Herausforderungen präsentieren und zukünftige Forschungsrichtungen für die interaktive Instanzsegmentierungsforschung skizzieren.	de
dc.language.iso	eng
dc.rights	In Copyright
dc.rights.uri	http://rightsstatements.org/vocab/InC/1.0/
dc.subject	interaktive Segmentierung
dc.subject	Bildsegmentierung
dc.subject	Instanzsegmentierung
dc.subject	interactive segmentation
dc.subject	image segmentation
dc.subject	instance segmentation
dc.subject.ddc	004 Informatik
dc.title	Maximizing Information from User-Clicks for Efficient Instance Segmentation in Images
dc.type	Dissertation oder Habilitation
dc.publisher.name	Universitäts- und Landesbibliothek Bonn
dc.publisher.location	Bonn
dc.rights.accessRights	openAccess
dc.identifier.urn	https://nbn-resolving.org/urn:nbn:de:hbz:5-67570
ulbbn.pubtype	Erstveröffentlichung
ulbbnediss.affiliation.name	Rheinische Friedrich-Wilhelms-Universität Bonn
ulbbnediss.affiliation.location	Bonn
ulbbnediss.thesis.level	Dissertation
ulbbnediss.dissID	6757
ulbbnediss.date.accepted	25.01.2022
ulbbnediss.institute	Mathematisch-Naturwissenschaftliche Fakultät : Fachgruppe Informatik / Institut für Informatik
ulbbnediss.fakultaet	Mathematisch-Naturwissenschaftliche Fakultät
dc.contributor.coReferee	Gall, Jürgen
ulbbnediss.contributor.orcid	https://orcid.org/0000-0002-0150-1208
ulbbnediss.contributor.gnd	1270220357

Dateien zu dieser Ressource

Name:: 6757.pdf
Größe:: 37.2MB
Format:: PDF

Dokument öffnen

Das Dokument erscheint in:

E-Dissertationen (4119)

Zur Kurzanzeige

Die folgenden Nutzungsbestimmungen sind mit dieser Ressource verbunden: