Adaptive audio-visuelle SyntheseAutomatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese
Adaptive audio-visuelle Synthese
Automatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese
dc.contributor.advisor | Hess, Wolfgang | |
dc.contributor.author | Weiss, Christian | |
dc.date.accessioned | 2020-04-09T10:23:16Z | |
dc.date.available | 2020-04-09T10:23:16Z | |
dc.date.issued | 2007 | |
dc.identifier.uri | https://hdl.handle.net/20.500.11811/2767 | |
dc.description.abstract | In dieser Arbeit wurden Algorithmen und Verfahren entwickelt und angewendet, die es ermöglichen eine video-realistische audio-visuelle Synthese durchzuführen. Das generierte audio-visuelle Signal zeigt einen Talking-Head, der aus zuvor aufgenommenen Videodaten und einem zugrunde liegenden TTS-System konstruiert wurde. Die Arbeit gliedert sich in drei Teile: statistische Lernverfahren Verfahren, konkatenative Sprachsynthese sowie video-realistische audio-visuelle Synthese. Bei dem entwickelten Sprachsynthese System wird die Verkettung natürlichsprachlicher Einheiten verwendet. Die ist gemeinhin als Unit-Selection-basierte Text-to-Speech bekannt. Das Verfahren der Auswahl und Konkatenation wird ebenso für die visuelle Synthese verwendet, wobei hier auf natürliche Videosequenzen zurückgegriffen wird. Als statistische Lernverfahren werden vor allem Graphen-basierte Verfahren entwickelt und angewendet. Hier ist der Einsatz von Hidden-Markov Modellen und bedingten Zufallsfeldern (Conditional-Random-Fields) hervorgehoben, die zur Auswahl der geeigneten Sprachrepresentationseinheiten dienen. Bei der visuellen Synthese kommt ein Prototypen-basiertes Lernverfahren zum Einsatz, welches weithin als K-Nächster-Nachbar Algorithmus bekannt ist. Das Training des Systems benötigt ein annotiertes Sprachdatenkorpus, sowie ein annotiertes Videodatenkorpus. Zur Evaluation der eingesetzten Verfahren wurde eine video-realistische audio-visuelle Synthese Software entwickelt, welche vollautomatisch die Texteingabe in die gewünschte Videosequenz umsetzt. Alle Schritte bis zur Signalausgabe bedürfen keinerlei manuellen Eingriffs. | en |
dc.language.iso | deu | |
dc.rights | In Copyright | |
dc.rights.uri | http://rightsstatements.org/vocab/InC/1.0/ | |
dc.subject | Audio-Visuelle Synthese | |
dc.subject | TTS | |
dc.subject | Unit-Selection | |
dc.subject | statistisches Lernen | |
dc.subject.ddc | 004 Informatik | |
dc.title | Adaptive audio-visuelle Synthese | |
dc.title.alternative | Automatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese | |
dc.type | Dissertation oder Habilitation | |
dc.publisher.name | Universitäts- und Landesbibliothek Bonn | |
dc.publisher.location | Bonn | |
dc.rights.accessRights | openAccess | |
dc.identifier.urn | https://nbn-resolving.org/urn:nbn:de:hbz:5-12017 | |
ulbbn.pubtype | Erstveröffentlichung | |
ulbbnediss.affiliation.name | Rheinische Friedrich-Wilhelms-Universität Bonn | |
ulbbnediss.affiliation.location | Bonn | |
ulbbnediss.thesis.level | Dissertation | |
ulbbnediss.dissID | 1201 | |
ulbbnediss.date.accepted | 02.11.2006 | |
ulbbnediss.fakultaet | Philosophische Fakultät | |
dc.contributor.coReferee | Schröder, Bernhard |
Files in this item
This item appears in the following Collection(s)
-
E-Dissertationen (659)