This repository contains materials and notebooks for the Speech Signal Processing course.
Tip #1:
In case you don't want to load the entire repositiry, a single folder can be downloaded via DownGit.
Tip #2:
Sometimes GitHub failes to render a notebook. In that case use nbviewer — it works like a charm!
Course syllabus can be found here.
Legend: — slides, — code, — video.
Week | What | Where | When |
---|---|---|---|
Digital Signal Processing | |||
1 | Основы цифровой обработки сигналов: понятие сигнала; концепции ЦОС; дискретизация по времени/амплитуде, теорема отсчётов; хранение, обработка и передача; сигналы дискретного времени; энергия и мощность; алгоритм Карплуса-Стронга. | 19.02.2021 | |
2 | Представление сигналов в спектральной области, понятие спектра, прямое и обратное преобразование Фурье, быстрое преобразование Фурье, оконное преобразование Фурье, банк фильтров, вычисление мел-частотных кепстральных коэффициентов. | 26.02.2021 | |
Работа с аудиофайлами в Python, гармонические сигналы, свёртка, алгоритм Карплуса-Стронга. | |||
3 | Цифровые фильтры, ЛИС-фильтры, _z_-преобразование, нерекурсивные и рекурсивные фильтры, теорема о свёртке; адаптивная фильтрация, банк фильтров и inception-блок, понижение частоты дискретизации и _pooling_, рекурсия и фильтрация в методе моментов, голосовая биометрия, мел-частотные кепстральные коэффициенты, синтез фильтров. | 05.03.2021 | |
Импульсная и переходная характеристики фильтров, АЧХ, ФЧХ; анализ спектрограммы, мел-шкала и мел-фильтры, классификация слов. | |||
Automatic Speech Recognition | |||
4 | Понятие речи, типы систем распознавания речи и сценарии их использования, метрики оценки качества (SER, WER, accuracy, FR, FA), трудности при создании; акустические признаки речи (MFCC); системы распознавания речи на основе сравнения с эталоном (DTW, token-passing). | 12.03.2021 | |
5 | Вероятностная постановка задачи распознавания речи, акустическая модель (цепь Маркова, скрытая марковская модель), языковая модель (n-grams, perplexity, discounting, back-off, ARPA LM, NN LM), лексикон, декодер, сбор и подготовка данных для обучения. | 19.03.2021 | |
Реализация Dynamic Time Warping (DTW) алгоритма на основе Token Passing Algorithm (TPA). | |||
6 | Скрытые марковские модели (HMM), применение HMM для распознавания речи, смеси гауссовских распределений, обучение GMM-HMM. | 26.03.2021 | |
7 | Взвешенные конечные преобразователи, WFST-декодер, словные сети, дискриминативное обучение GMM-HMM, адаптация систем распознавания речи. Традиционные системы распознавания речи на основе нейронных сетей: нейросети как классификаторы. | 02.04.2021 | |
Распознавание по эталонному словарю. | |||
8 | Тандемные (TRAP, LC-RC, Bottleneck-признаки) и гибридные (CD-DNN-HMM) системы распознавания, обучение DNN-HMM (CLDNN, TDNN), последовательно-дискриминативное обучение (MMI, LF-MMI, MWE/MPE, sMBR), адаптация систем распознавания речи на основе нейронных сетей (VTLN, fMLLR-преобразование, дикторо-осведомлённое обучение, LIN, LHN, LON). | 09.04.2021 | |
DNN классификатор. | |||
9 | Недостатки современных гибридных систем, Connectionist Temporal Classification (CTC), RNN-Transducer (RNN-T), Encoder-Decoder системы с механизмом внимания (AED), комбинации end-to-end подходов. | 16.04.2021 | |
10 | Факторы искажения речи и способы борьбы с ними (разнообразие стилей речи, меж- и внутридикторская вариативность, разнообразие условий записи), снижение вариативности входных данных (VTLN, шумоподавление, дереверберация), повышение вариативности обучающих данных (Multi-Condition Training, data augmentation). | 23.04.2021 | |
End-to-end ASR system, ESPnet. | |||
Speech Synthesis | |||
11 | История создания говорящих машин. Системы синтеза речи на основе DNN. Нейронные вокодеры. Современные задачи и проблемы TTS. | 15.05.2021 | |
12 | Современные системы синтеза речи на основе DNN: основные компоненты и подходы к обучению (входные/выходные признаки, Encoder, Decoder, Vocoder), авторегрессионные методы (Tacotron, DeepVoice, TransformerTTS), неавторегрессионные (параллельные) методы (ForwardTacotron, ParallelTacotron, FastSpeech), Flow-based TTS (Flow-TTS, Flowtron), способы управления синтезируемой речью, Global Style Tokens, style transfer в задачах TTS. | 22.05.2021 | |
TTS Text & Audio Preprocessing, Forward Attention. | |||
13 | Нейронные вокодеры: проблема восстановления фазы (алгоритм Гриффина-Лима), авторегрессионные модели вокодеров (WaveNet, WaveRNN, LPCNet), неавторегрессионные модели вокодеров (WaveGlow, HiFi-GAN), основные проблемы моделей вокодеров и нерешённые задачи. | 29.05.2021 | |
14 | Моделирование дыхания, пауз хетизации и других неречевых эффектов, проблемы разработки эмоционального TTS, проблемы разработки систем TTS для малоресурсных языков, TTS для голосов животных. | 05.06.2021 |