Zur Kurzanzeige

Adaptive audio-visuelle Synthese

Automatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese

dc.contributor.advisorHess, Wolfgang
dc.contributor.authorWeiss, Christian
dc.date.accessioned2020-04-09T10:23:16Z
dc.date.available2020-04-09T10:23:16Z
dc.date.issued2007
dc.identifier.urihttps://hdl.handle.net/20.500.11811/2767
dc.description.abstractIn dieser Arbeit wurden Algorithmen und Verfahren entwickelt und angewendet, die es ermöglichen eine video-realistische audio-visuelle Synthese durchzuführen. Das generierte audio-visuelle Signal zeigt einen Talking-Head, der aus zuvor aufgenommenen Videodaten und einem zugrunde liegenden TTS-System konstruiert wurde.
Die Arbeit gliedert sich in drei Teile: statistische Lernverfahren Verfahren, konkatenative Sprachsynthese sowie video-realistische audio-visuelle Synthese. Bei dem entwickelten Sprachsynthese System wird die Verkettung natürlichsprachlicher Einheiten verwendet. Die ist gemeinhin als Unit-Selection-basierte Text-to-Speech bekannt.
Das Verfahren der Auswahl und Konkatenation wird ebenso für die visuelle Synthese verwendet, wobei hier auf natürliche Videosequenzen zurückgegriffen wird. Als statistische Lernverfahren werden vor allem Graphen-basierte Verfahren entwickelt und angewendet.
Hier ist der Einsatz von Hidden-Markov Modellen und bedingten Zufallsfeldern (Conditional-Random-Fields) hervorgehoben, die zur Auswahl der geeigneten Sprachrepresentationseinheiten dienen. Bei der visuellen Synthese kommt ein Prototypen-basiertes Lernverfahren zum Einsatz, welches weithin als K-Nächster-Nachbar Algorithmus bekannt ist. Das Training des Systems benötigt ein annotiertes Sprachdatenkorpus, sowie ein annotiertes Videodatenkorpus. Zur Evaluation der eingesetzten Verfahren wurde eine video-realistische audio-visuelle Synthese Software entwickelt, welche vollautomatisch die Texteingabe in die gewünschte Videosequenz umsetzt.
Alle Schritte bis zur Signalausgabe bedürfen keinerlei manuellen Eingriffs.
en
dc.language.isodeu
dc.rightsIn Copyright
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/
dc.subjectAudio-Visuelle Synthese
dc.subjectTTS
dc.subjectUnit-Selection
dc.subjectstatistisches Lernen
dc.subject.ddc004 Informatik
dc.titleAdaptive audio-visuelle Synthese
dc.title.alternativeAutomatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese
dc.typeDissertation oder Habilitation
dc.publisher.nameUniversitäts- und Landesbibliothek Bonn
dc.publisher.locationBonn
dc.rights.accessRightsopenAccess
dc.identifier.urnhttps://nbn-resolving.org/urn:nbn:de:hbz:5-12017
ulbbn.pubtypeErstveröffentlichung
ulbbnediss.affiliation.nameRheinische Friedrich-Wilhelms-Universität Bonn
ulbbnediss.affiliation.locationBonn
ulbbnediss.thesis.levelDissertation
ulbbnediss.dissID1201
ulbbnediss.date.accepted02.11.2006
ulbbnediss.fakultaetPhilosophische Fakultät
dc.contributor.coRefereeSchröder, Bernhard


Dateien zu dieser Ressource

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige

Die folgenden Nutzungsbestimmungen sind mit dieser Ressource verbunden:

InCopyright