Sprachverarbeitung mit Maschinellem Lernen

Prof. Dr. S. Feldes

Kurzinhalt

Vorlesung:

Einführung
> Teilgebiete & Anwendungsfelder: Spracherkennung, Sprechererkennung, Sprecherseparierung, Störgeräuschreduktion, Enthallung bspw. für Hörgeräte, etc.

Sprachsignal und Spracherzeugung
> Eigenschaften des Sprachsignals im Zeit- & Spektralbereich, Phonetische Grundelemente der Sprache
> Spracherzeugung beim Menschen, Quelle-Filter-Modell der Spracherzeugung

Ohr und Hören
> Aufbau & Funktionsweise des Ohrs, Frequenz-Orts-Transformation;
> Hörfläche, Critical Bands, Verdeckung, Gehörbezogene Tonhöhen- & Lautheitsmaße

Merkmalsextraktion
> Kurzzeitspektralanalyse, Spektrogramme, Stimmgrundfrequenz, Formanten, Mel-Cepstrum, LPC-Analyse

Einige Grundlagen des maschinellen Lernens
> Überwachtes vs. unüberwachtes Lernen, Modellbasierte vs. nicht-parameterische Ansätze
> k-Means-Clustering, Abstandsklassifikation, Abstandsmaße, SVM
> Statistische Klassifikation (MAP, ML), GMM, Expectation-Maximisation, Qualitätsmaße
> Dimensionsreduktionsverfahren (PCA, LDA)

Algorithmen zur Spracherkennung und Sprachverbesserung
> Spracherkennung als Maschineller Lernvorgang, Dynamic Time Warping, Hidden-Markov-Modelle, Viterbi-Decodierung, Baum-Welch-Algorithmus
> Phonetisch-akustische Modellierung, Kontextfreie Grammatiken, Statistische Language Models
> Deep Neural Networks, Diskriminatives Training, CNN, LSTM, Independent Component Analysis

Labor:
> Matlab-Labor zur Sprachsignalanalyse der eigenen Stimme
> Algorithmen des maschinellen Lernens
> Sprach- und Sprechererkennung, sowie Sprachsignalverbesserung