Skip to content

Illumaria/made-speech-signal-processing

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Speech Signal Processing (MADE S02E02)

This repository contains materials and notebooks for the Speech Signal Processing course.

Tip #1:

In case you don't want to load the entire repositiry, a single folder can be downloaded via DownGit.

Tip #2:

Sometimes GitHub failes to render a notebook. In that case use nbviewer — it works like a charm!

Lectures

Course syllabus can be found here.

Legend: — slides, — code, — video.

Week What Where When
Digital Signal Processing
1 Основы цифровой обработки сигналов: понятие сигнала; концепции ЦОС; дискретизация по времени/амплитуде, теорема отсчётов; хранение, обработка и передача; сигналы дискретного времени; энергия и мощность; алгоритм Карплуса-Стронга. 19.02.2021
2 Представление сигналов в спектральной области, понятие спектра, прямое и обратное преобразование Фурье, быстрое преобразование Фурье, оконное преобразование Фурье, банк фильтров, вычисление мел-частотных кепстральных коэффициентов. 26.02.2021
Работа с аудиофайлами в Python, гармонические сигналы, свёртка, алгоритм Карплуса-Стронга.
3 Цифровые фильтры, ЛИС-фильтры, _z_-преобразование, нерекурсивные и рекурсивные фильтры, теорема о свёртке; адаптивная фильтрация, банк фильтров и inception-блок, понижение частоты дискретизации и _pooling_, рекурсия и фильтрация в методе моментов, голосовая биометрия, мел-частотные кепстральные коэффициенты, синтез фильтров. 05.03.2021
Импульсная и переходная характеристики фильтров, АЧХ, ФЧХ; анализ спектрограммы, мел-шкала и мел-фильтры, классификация слов.
Automatic Speech Recognition
4 Понятие речи, типы систем распознавания речи и сценарии их использования, метрики оценки качества (SER, WER, accuracy, FR, FA), трудности при создании; акустические признаки речи (MFCC); системы распознавания речи на основе сравнения с эталоном (DTW, token-passing). 12.03.2021
5 Вероятностная постановка задачи распознавания речи, акустическая модель (цепь Маркова, скрытая марковская модель), языковая модель (n-grams, perplexity, discounting, back-off, ARPA LM, NN LM), лексикон, декодер, сбор и подготовка данных для обучения. 19.03.2021
Реализация Dynamic Time Warping (DTW) алгоритма на основе Token Passing Algorithm (TPA).
6 Скрытые марковские модели (HMM), применение HMM для распознавания речи, смеси гауссовских распределений, обучение GMM-HMM. 26.03.2021
7 Взвешенные конечные преобразователи, WFST-декодер, словные сети, дискриминативное обучение GMM-HMM, адаптация систем распознавания речи. Традиционные системы распознавания речи на основе нейронных сетей: нейросети как классификаторы. 02.04.2021
Распознавание по эталонному словарю.
8 Тандемные (TRAP, LC-RC, Bottleneck-признаки) и гибридные (CD-DNN-HMM) системы распознавания, обучение DNN-HMM (CLDNN, TDNN), последовательно-дискриминативное обучение (MMI, LF-MMI, MWE/MPE, sMBR), адаптация систем распознавания речи на основе нейронных сетей (VTLN, fMLLR-преобразование, дикторо-осведомлённое обучение, LIN, LHN, LON). 09.04.2021
DNN классификатор.
9 Недостатки современных гибридных систем, Connectionist Temporal Classification (CTC), RNN-Transducer (RNN-T), Encoder-Decoder системы с механизмом внимания (AED), комбинации end-to-end подходов. 16.04.2021
10 Факторы искажения речи и способы борьбы с ними (разнообразие стилей речи, меж- и внутридикторская вариативность, разнообразие условий записи), снижение вариативности входных данных (VTLN, шумоподавление, дереверберация), повышение вариативности обучающих данных (Multi-Condition Training, data augmentation). 23.04.2021
End-to-end ASR system, ESPnet.
Speech Synthesis
11 История создания говорящих машин. Системы синтеза речи на основе DNN. Нейронные вокодеры. Современные задачи и проблемы TTS. 15.05.2021
12 Современные системы синтеза речи на основе DNN: основные компоненты и подходы к обучению (входные/выходные признаки, Encoder, Decoder, Vocoder), авторегрессионные методы (Tacotron, DeepVoice, TransformerTTS), неавторегрессионные (параллельные) методы (ForwardTacotron, ParallelTacotron, FastSpeech), Flow-based TTS (Flow-TTS, Flowtron), способы управления синтезируемой речью, Global Style Tokens, style transfer в задачах TTS. 22.05.2021
TTS Text & Audio Preprocessing, Forward Attention.
13 Нейронные вокодеры: проблема восстановления фазы (алгоритм Гриффина-Лима), авторегрессионные модели вокодеров (WaveNet, WaveRNN, LPCNet), неавторегрессионные модели вокодеров (WaveGlow, HiFi-GAN), основные проблемы моделей вокодеров и нерешённые задачи. 29.05.2021
14 Моделирование дыхания, пауз хетизации и других неречевых эффектов, проблемы разработки эмоционального TTS, проблемы разработки систем TTS для малоресурсных языков, TTS для голосов животных. 05.06.2021

About

Speech Signal Processing course materials

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published