Skip to content
Neuron1k edited this page Dec 6, 2016 · 2 revisions

Welcome to the SpeakerA9e wiki!


Próbki dźwiękowe

Próbki dźwiękowe zostały zebrane w postaci 295 plików wav, w którym znajdują się nieskompresowane dane.

płeć liczba średnia wieku
dziecko xx xx
kobieta xx xx
mężczyzna xx xx

Przetwarzanie próbek

Próbki zostały przetworzone do jednego kanału (dźwięk mono).


Ekstrakcja cech

Z każdej próbki zostały wydobyte cechy przy pomocy współczynników "Mel-frequency cepstral". Odczytane próbki podzielono na trzy grupy według algorytmu k-means. W ten sposób utworzono dla każdej próbki wektor 36 cech.


Algorytm

Użyto sieci neuronowej zwykłej (feed-forward)

Clone this wiki locally