Show simple item record

Adaptive audio-visuelle Synthese
Automatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese

dc.contributor.advisorHess, Wolfgang
dc.contributor.authorWeiss, Christian
dc.date.accessioned2020-04-09T10:23:16Z
dc.date.available2020-04-09T10:23:16Z
dc.date.issued2007
dc.identifier.urihttps://hdl.handle.net/20.500.11811/2767
dc.description.abstractIn dieser Arbeit wurden Algorithmen und Verfahren entwickelt und angewendet, die es ermöglichen eine video-realistische audio-visuelle Synthese durchzuführen. Das generierte audio-visuelle Signal zeigt einen Talking-Head, der aus zuvor aufgenommenen Videodaten und einem zugrunde liegenden TTS-System konstruiert wurde.
Die Arbeit gliedert sich in drei Teile: statistische Lernverfahren Verfahren, konkatenative Sprachsynthese sowie video-realistische audio-visuelle Synthese. Bei dem entwickelten Sprachsynthese System wird die Verkettung natürlichsprachlicher Einheiten verwendet. Die ist gemeinhin als Unit-Selection-basierte Text-to-Speech bekannt.
Das Verfahren der Auswahl und Konkatenation wird ebenso für die visuelle Synthese verwendet, wobei hier auf natürliche Videosequenzen zurückgegriffen wird. Als statistische Lernverfahren werden vor allem Graphen-basierte Verfahren entwickelt und angewendet.
Hier ist der Einsatz von Hidden-Markov Modellen und bedingten Zufallsfeldern (Conditional-Random-Fields) hervorgehoben, die zur Auswahl der geeigneten Sprachrepresentationseinheiten dienen. Bei der visuellen Synthese kommt ein Prototypen-basiertes Lernverfahren zum Einsatz, welches weithin als K-Nächster-Nachbar Algorithmus bekannt ist. Das Training des Systems benötigt ein annotiertes Sprachdatenkorpus, sowie ein annotiertes Videodatenkorpus. Zur Evaluation der eingesetzten Verfahren wurde eine video-realistische audio-visuelle Synthese Software entwickelt, welche vollautomatisch die Texteingabe in die gewünschte Videosequenz umsetzt.
Alle Schritte bis zur Signalausgabe bedürfen keinerlei manuellen Eingriffs.
dc.language.isodeu
dc.rightsIn Copyright
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/
dc.subjectAudio-Visuelle Synthese
dc.subjectTTS
dc.subjectUnit-Selection
dc.subjectstatistisches Lernen
dc.subject.ddc004 Informatik
dc.titleAdaptive audio-visuelle Synthese
dc.title.alternativeAutomatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese
dc.typeDissertation oder Habilitation
dc.publisher.nameUniversitäts- und Landesbibliothek Bonn
dc.publisher.locationBonn
dc.rights.accessRightsopenAccess
dc.identifier.urnhttps://nbn-resolving.org/urn:nbn:de:hbz:5-12017
ulbbn.pubtypeErstveröffentlichung
ulbbnediss.affiliation.nameRheinische Friedrich-Wilhelms-Universität Bonn
ulbbnediss.affiliation.locationBonn
ulbbnediss.thesis.levelDissertation
ulbbnediss.dissID1201
ulbbnediss.date.accepted02.11.2006
ulbbnediss.fakultaetPhilosophische Fakultät
dc.contributor.coRefereeSchröder, Bernhard


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

The following license files are associated with this item:

InCopyright