Speech Signal Processing (MADE S02E02)

This repository contains materials and notebooks for the Speech Signal Processing course.

Tip #1:

In case you don't want to load the entire repositiry, a single folder can be downloaded via DownGit.

Tip #2:

Sometimes GitHub failes to render a notebook. In that case use nbviewer — it works like a charm!

Lectures

Course syllabus can be found here.

Legend: — slides, — code, — video.

Week	What	When
	Digital Signal Processing
1	Основы цифровой обработки сигналов: понятие сигнала; концепции ЦОС; дискретизация по времени/амплитуде, теорема отсчётов; хранение, обработка и передача; сигналы дискретного времени; энергия и мощность; алгоритм Карплуса-Стронга.	19.02.2021
2	Представление сигналов в спектральной области, понятие спектра, прямое и обратное преобразование Фурье, быстрое преобразование Фурье, оконное преобразование Фурье, банк фильтров, вычисление мел-частотных кепстральных коэффициентов.	26.02.2021
2	Работа с аудиофайлами в Python, гармонические сигналы, свёртка, алгоритм Карплуса-Стронга.	26.02.2021
3	Цифровые фильтры, ЛИС-фильтры, _z_-преобразование, нерекурсивные и рекурсивные фильтры, теорема о свёртке; адаптивная фильтрация, банк фильтров и inception-блок, понижение частоты дискретизации и _pooling_, рекурсия и фильтрация в методе моментов, голосовая биометрия, мел-частотные кепстральные коэффициенты, синтез фильтров.	05.03.2021
3	Импульсная и переходная характеристики фильтров, АЧХ, ФЧХ; анализ спектрограммы, мел-шкала и мел-фильтры, классификация слов.	05.03.2021
	Automatic Speech Recognition
4	Понятие речи, типы систем распознавания речи и сценарии их использования, метрики оценки качества (SER, WER, accuracy, FR, FA), трудности при создании; акустические признаки речи (MFCC); системы распознавания речи на основе сравнения с эталоном (DTW, token-passing).	12.03.2021
5	Вероятностная постановка задачи распознавания речи, акустическая модель (цепь Маркова, скрытая марковская модель), языковая модель (n-grams, perplexity, discounting, back-off, ARPA LM, NN LM), лексикон, декодер, сбор и подготовка данных для обучения.	19.03.2021
5	Реализация Dynamic Time Warping (DTW) алгоритма на основе Token Passing Algorithm (TPA).	19.03.2021
6	Скрытые марковские модели (HMM), применение HMM для распознавания речи, смеси гауссовских распределений, обучение GMM-HMM.	26.03.2021
7	Взвешенные конечные преобразователи, WFST-декодер, словные сети, дискриминативное обучение GMM-HMM, адаптация систем распознавания речи. Традиционные системы распознавания речи на основе нейронных сетей: нейросети как классификаторы.	02.04.2021
7	Распознавание по эталонному словарю.	02.04.2021
8	Тандемные (TRAP, LC-RC, Bottleneck-признаки) и гибридные (CD-DNN-HMM) системы распознавания, обучение DNN-HMM (CLDNN, TDNN), последовательно-дискриминативное обучение (MMI, LF-MMI, MWE/MPE, sMBR), адаптация систем распознавания речи на основе нейронных сетей (VTLN, fMLLR-преобразование, дикторо-осведомлённое обучение, LIN, LHN, LON).	09.04.2021
8	DNN классификатор.	09.04.2021
9	Недостатки современных гибридных систем, Connectionist Temporal Classification (CTC), RNN-Transducer (RNN-T), Encoder-Decoder системы с механизмом внимания (AED), комбинации end-to-end подходов.	16.04.2021
10	Факторы искажения речи и способы борьбы с ними (разнообразие стилей речи, меж- и внутридикторская вариативность, разнообразие условий записи), снижение вариативности входных данных (VTLN, шумоподавление, дереверберация), повышение вариативности обучающих данных (Multi-Condition Training, data augmentation).	23.04.2021
10	End-to-end ASR system, ESPnet.	23.04.2021
	Speech Synthesis
11	История создания говорящих машин. Системы синтеза речи на основе DNN. Нейронные вокодеры. Современные задачи и проблемы TTS.	15.05.2021
12	Современные системы синтеза речи на основе DNN: основные компоненты и подходы к обучению (входные/выходные признаки, Encoder, Decoder, Vocoder), авторегрессионные методы (Tacotron, DeepVoice, TransformerTTS), неавторегрессионные (параллельные) методы (ForwardTacotron, ParallelTacotron, FastSpeech), Flow-based TTS (Flow-TTS, Flowtron), способы управления синтезируемой речью, Global Style Tokens, style transfer в задачах TTS.	22.05.2021
12	TTS Text & Audio Preprocessing, Forward Attention.	22.05.2021
13	Нейронные вокодеры: проблема восстановления фазы (алгоритм Гриффина-Лима), авторегрессионные модели вокодеров (WaveNet, WaveRNN, LPCNet), неавторегрессионные модели вокодеров (WaveGlow, HiFi-GAN), основные проблемы моделей вокодеров и нерешённые задачи.	29.05.2021
14	Моделирование дыхания, пауз хетизации и других неречевых эффектов, проблемы разработки эмоционального TTS, проблемы разработки систем TTS для малоресурсных языков, TTS для голосов животных.	05.06.2021

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
01-intro-to-dsp		01-intro-to-dsp
02-frequency-domain		02-frequency-domain
03-digital-filters-and-machine-learning		03-digital-filters-and-machine-learning
04-intro-to-asr		04-intro-to-asr
05-speech-recognition-systems		05-speech-recognition-systems
06-gmm-hmm		06-gmm-hmm
07-dnn-hmm		07-dnn-hmm
08-dnn-classifier		08-dnn-classifier
09-end-to-end-asr-systems		09-end-to-end-asr-systems
10-speech-distortion-factors		10-speech-distortion-factors
11-intro-to-tts		11-intro-to-tts
12-dnn-tts-systems		12-dnn-tts-systems
13-neural-vocoders		13-neural-vocoders
14-tts-tasks-and-problems		14-tts-tasks-and-problems
LICENSE		LICENSE
README.md		README.md
course_overview.pdf		course_overview.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Speech Signal Processing (MADE S02E02)

Lectures

About

Releases

Packages

Languages

License

Illumaria/made-speech-signal-processing

Folders and files

Latest commit

History

Repository files navigation

Speech Signal Processing (MADE S02E02)

Lectures

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages