Adaptive audio-visuelle Synthese

Weiss, Christian

dc.contributor.advisor	Hess, Wolfgang
dc.contributor.author	Weiss, Christian
dc.date.accessioned	2020-04-09T10:23:16Z
dc.date.available	2020-04-09T10:23:16Z
dc.date.issued	2007
dc.identifier.uri	https://hdl.handle.net/20.500.11811/2767
dc.description.abstract	In dieser Arbeit wurden Algorithmen und Verfahren entwickelt und angewendet, die es ermöglichen eine video-realistische audio-visuelle Synthese durchzuführen. Das generierte audio-visuelle Signal zeigt einen Talking-Head, der aus zuvor aufgenommenen Videodaten und einem zugrunde liegenden TTS-System konstruiert wurde. Die Arbeit gliedert sich in drei Teile: statistische Lernverfahren Verfahren, konkatenative Sprachsynthese sowie video-realistische audio-visuelle Synthese. Bei dem entwickelten Sprachsynthese System wird die Verkettung natürlichsprachlicher Einheiten verwendet. Die ist gemeinhin als Unit-Selection-basierte Text-to-Speech bekannt. Das Verfahren der Auswahl und Konkatenation wird ebenso für die visuelle Synthese verwendet, wobei hier auf natürliche Videosequenzen zurückgegriffen wird. Als statistische Lernverfahren werden vor allem Graphen-basierte Verfahren entwickelt und angewendet. Hier ist der Einsatz von Hidden-Markov Modellen und bedingten Zufallsfeldern (Conditional-Random-Fields) hervorgehoben, die zur Auswahl der geeigneten Sprachrepresentationseinheiten dienen. Bei der visuellen Synthese kommt ein Prototypen-basiertes Lernverfahren zum Einsatz, welches weithin als K-Nächster-Nachbar Algorithmus bekannt ist. Das Training des Systems benötigt ein annotiertes Sprachdatenkorpus, sowie ein annotiertes Videodatenkorpus. Zur Evaluation der eingesetzten Verfahren wurde eine video-realistische audio-visuelle Synthese Software entwickelt, welche vollautomatisch die Texteingabe in die gewünschte Videosequenz umsetzt. Alle Schritte bis zur Signalausgabe bedürfen keinerlei manuellen Eingriffs.	en
dc.language.iso	deu
dc.rights	In Copyright
dc.rights.uri	http://rightsstatements.org/vocab/InC/1.0/
dc.subject	Audio-Visuelle Synthese
dc.subject	TTS
dc.subject	Unit-Selection
dc.subject	statistisches Lernen
dc.subject.ddc	004 Informatik
dc.title	Adaptive audio-visuelle Synthese
dc.title.alternative	Automatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese
dc.type	Dissertation oder Habilitation
dc.publisher.name	Universitäts- und Landesbibliothek Bonn
dc.publisher.location	Bonn
dc.rights.accessRights	openAccess
dc.identifier.urn	https://nbn-resolving.org/urn:nbn:de:hbz:5-12017
ulbbn.pubtype	Erstveröffentlichung
ulbbnediss.affiliation.name	Rheinische Friedrich-Wilhelms-Universität Bonn
ulbbnediss.affiliation.location	Bonn
ulbbnediss.thesis.level	Dissertation
ulbbnediss.dissID	1201
ulbbnediss.date.accepted	02.11.2006
ulbbnediss.fakultaet	Philosophische Fakultät
dc.contributor.coReferee	Schröder, Bernhard

Dateien zu dieser Ressource

Name:: 1201.pdf
Größe:: 3.3MB
Format:: PDF

Dokument öffnen

Das Dokument erscheint in:

E-Dissertationen (683)

Zur Kurzanzeige

Die folgenden Nutzungsbestimmungen sind mit dieser Ressource verbunden:

Adaptive audio-visuelle SyntheseAutomatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese

Automatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese

Dateien zu dieser Ressource

Das Dokument erscheint in:

Adaptive audio-visuelle Synthese
Automatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese