Zur Kurzanzeige

Robust Speech Recognition via Adaptation for German Oral History Interviews

dc.contributor.advisorBehnke, Sven
dc.contributor.authorGref, Michael
dc.date.accessioned2022-10-20T14:36:58Z
dc.date.available2022-10-20T14:36:58Z
dc.date.issued20.10.2022
dc.identifier.urihttps://hdl.handle.net/20.500.11811/10373
dc.description.abstractAutomatic speech recognition systems often achieve remarkable performance when trained on thousands of hours of manually annotated and time-aligned speech. However, when applied in other conditions and domains than they were trained on, the systems' recognition quality often deteriorates, substantially limiting their real-world application. One of these applications is the automatic transcription of oral history interviews, i.e., interviews with witnesses of historical events. For the past twenty years, oral history interviews have been among the most challenging use cases for speech recognition due to a lack of representative training data, diverse and often poor recording conditions, and the spontaneous and occasionally colloquial nature of the speech.
This thesis proposes and studies the combination of different domain adaptation approaches to overcome the lack of representative training data and cope with the unpredictability of oral history interviews. We employ and investigate data augmentation to adapt broadcast training data to cover the challenging recording conditions of oral history interviews. We compare data augmentation approaches to conventional speech enhancement. To improve the system's performance further, we study domain adaptation via fine-tuning to adapt the acoustic models trained robustly on thousands of hours of annotated speech using a minimal amount of manually transcribed oral history interviews. We employ automatic transcript-alignment to generate adaptation data from transcribed but not time-aligned interviews and investigate the influence of different adaptation data sizes on domain overfitting and generalization. We reduce domain overfitting and improve the generalization of the adapted models employing cross-lingual adaptation in a multi-staged setup to leverage the vast availability of English speech corpora. Additionally, in this thesis, a human word error rate for German oral history interviews recorded under clean conditions is experimentally estimated to study and highlight the challenges of transcription even for humans and put current results of automatic transcription into perspective.
The proposed methods are evaluated on a representative oral history test set for the target domain and several additional German test sets from different domains. With this evaluation, we assure high robustness, obtain a reliable estimate of the real-world performance for conditions not seen in training, and avoid selecting models that suffer from domain overfitting. Overall, we halved the word error rate compared to the baseline using the proposed methods, simultaneously improving the recognition performance on the other domains by a substantial margin.
de
dc.description.abstractRobuste Spracherkennung mittels Adaption für deutschsprachige Zeitzeugeninterviews
Automatische Spracherkennungssysteme erzielen oft bemerkenswerte Ergebnisse, wenn sie auf Tausenden Stunden manuell transkribierter und zeitlich alignierter Sprache trainiert werden. Wenn sie jedoch unter anderen Bedingungen und in anderen Bereichen als den trainierten eingesetzt werden, verschlechtert sich die Erkennungsqualität der Systeme häufig, was ihre Anwendbarkeit in der Praxis erheblich einschränkt. Eine Anwendung ist die automatische Transkription von Oral History Interviews, d. h. von Interviews mit Zeitzeugen historischer Ereignisse. In den letzten zwanzig Jahren gehörten diese Interviews zu den anspruchsvollsten Anwendungsfällen für die Spracherkennung, da es an repräsentativen Trainingsdaten mangelt, die Aufnahmebedingungen vielfältig und oft schlecht sind sowie die Sprache spontan und mitunter umgangssprachlich ist.
In dieser Arbeit wird die Kombination verschiedener Ansätze für Domänenanpassung untersucht, um den Mangel an repräsentativen Trainingsdaten zu überwinden und mit der Unvorhersehbarkeit von Oral History Interviews umzugehen. Wir verwenden und untersuchen Data Augmentation, um Trainingsdaten aus dem Rundfunk-Bereich so anzupassen, dass sie die herausfordernden Aufnahmebedingungen von Oral History Interviews abdecken. Wir vergleichen Ansätze zur Data Augmentation mit Sprachsignalverbesserungsmethoden. Um die Leistung des Systems weiter zu verbessern, untersuchen wir die Domänenanpassung durch Fine-Tuning, um akustischen Modelle, die auf Tausenden von Stunden annotierter Sprache trainiert wurden, mit einer minimalen Menge manuell transkribierter Oral History Interviews robust anzupassen. Wir setzen automatische Alignierung ein, um Daten für diese Anpassung aus transkribierten, aber zeitlich nicht alignierten Interviews zu generieren, und untersuchen den Einfluss verschiedener Größen von Daten auf Domänen-Überanpassung und Generalisierung. Wir reduzieren Domänen-Überanpassung und verbessern die Generalisierung der adaptierten Modelle durch sprachübergreifende Adaption in einem mehrstufigen Verfahren, um die enorme Verfügbarkeit von englischen Sprachkorpora zu nutzen. Zusätzlich wird in dieser Arbeit eine menschliche Wortfehlerrate für deutsche Oral History Interviews in guten Aufnahmebedingungen experimentell geschätzt, um die Herausforderungen der Transkription für Menschen zu untersuchen, zu verdeutlichen und die aktuellen Ergebnisse automatischer Transkription in einen Kontext zu setzen.
Die vorgeschlagenen Methoden werden anhand eines repräsentativen Testdatensatzes für Oral History Interviews für die Zieldomäne und auf mehreren zusätzlichen deutschen Testdatensätzen aus verschiedenen Domänen evaluiert. Hierdurch wird eine hohe Robustheit gewährleistet, eine zuverlässige Schätzung der realen Leistung für im Training nicht gesehene Bedingungen erhalten und die Auswahl von Modellen vermieden, die unter Domänen-Überanpassung leiden. Insgesamt konnten wir mit den vorgeschlagenen Methoden die Wortfehlerrate für Oral History im Vergleich zur Baseline halbieren und gleichzeitig die Erkennungsleistung in den anderen Domänen deutlich verbessern.
de
dc.language.isoeng
dc.rightsNamensnennung - Weitergabe unter gleichen Bedingungen 4.0 International
dc.rights.urihttp://creativecommons.org/licenses/by-sa/4.0/
dc.subjectautomatische Spracherkennung
dc.subjectrobuste Spracherkennung
dc.subjectDomänenanpassung
dc.subjectakustisches Modell Anpassung
dc.subjectZeitzeugeninterviews
dc.subjectTranskription
dc.subjectautomatic speech recognition
dc.subjectASR
dc.subjectrobust speech recognition
dc.subjectdomain adaptation
dc.subjectacoustic model adaptation
dc.subjectoral history
dc.subjecttranscription
dc.subject.ddc004 Informatik
dc.titleRobust Speech Recognition via Adaptation for German Oral History Interviews
dc.typeDissertation oder Habilitation
dc.publisher.nameUniversitäts- und Landesbibliothek Bonn
dc.publisher.locationBonn
dc.rights.accessRightsopenAccess
dc.identifier.urnhttps://nbn-resolving.org/urn:nbn:de:hbz:5-68271
dc.relation.arxiv2201.06841
dc.relation.doihttps://doi.org/10.1109/ICME.2019.00142
dc.relation.urlhttps://aclanthology.org/L18-1493
dc.relation.urlhttps://ieeexplore.ieee.org/document/8578034
dc.relation.urlhttps://aclanthology.org/2020.lrec-1.780
ulbbn.pubtypeErstveröffentlichung
ulbbnediss.affiliation.nameRheinische Friedrich-Wilhelms-Universität Bonn
ulbbnediss.affiliation.locationBonn
ulbbnediss.thesis.levelDissertation
ulbbnediss.dissID6827
ulbbnediss.date.accepted30.09.2022
ulbbnediss.instituteMathematisch-Naturwissenschaftliche Fakultät : Fachgruppe Informatik / Institut für Informatik
ulbbnediss.fakultaetMathematisch-Naturwissenschaftliche Fakultät
dc.contributor.coRefereeKurth, Frank
ulbbnediss.contributor.gnd1271051427


Dateien zu dieser Ressource

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige

Die folgenden Nutzungsbestimmungen sind mit dieser Ressource verbunden:

Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International