Professional Documents
Culture Documents
Zastosowanie Uczenia Maszynowego W
Zastosowanie Uczenia Maszynowego W
Wysłane: 2019-07-03
Przyjęte: 2019-07-10
303
Journal of Computer Sciences Institute
Typowa architektura sieci konwolucyjnych pozwala na Tabela 1. Funkcje aplikacji wywoływane poleceniami głosowymi
wyróżnienie trzech głównych warstw: Funkcja aplikacji Polecenie wywołujące funkcję
Warstwa konwolucyjna (ang. convolutional layer) – Zatrzymanie odtwarzania stop
odpowiada za ekstrakcję cech. W tej warstwie
wykonywana jest operacja splotu, w wyniku jej działania Wznowienie odtwarzania go
powstają mapy aktywacji. Przyspieszenie odtwarzanego right
Warstwa łącząca (ang. pooling layer) – redukuje ilość utworu o 10 sekund
informacji (wymiar map aktywacji). Najczęściej odbywa Cofnięcie odtwarzanego utworu left
się to przez obliczenie średniej, lub wybór największej o 10 sekund
wartości spośród analizowanej niewielkiej części mapy
aktywacji. Przejście do następnego utworu forward
Warstwa w pełni połączona (ang. fully connected layer) – Przejście do poprzedniego backward
utworu
jest to tradycyjna warstwa występująca również w innych,
niekonwolucyjnych typach sieci neuronowych. Dane Wyłączenie aplikacji off
w niej przetwarzane są w postaci wektorów, dlatego też
dostarczane do niej macierze map cech powinny zostać 4. Plan badań
„spłaszczone” do postaci pojedynczego wektora, który
zostaje podany na wejście tej warstwy. 4.1. Wykorzystane modele
304
Journal of Computer Sciences Institute
305
Journal of Computer Sciences Institute
5. Rezultaty badań
306
Journal of Computer Sciences Institute
Tabela 2. Wyniki testów dla modelu jednowarstwowej sieci zobrazować proces uczenia maszynowego. Ponownie w celach
jednokierunkowej
testu wykorzystana została walidacja krzyżowa,
Test Rezultat a współczynnik oznaczający liczebność próbki wynosił jak
poprzednio 2531 słów. Pierwsza z macierzy pomyłek
Rozpoznawanie poleceń z wyciszoną muzyką - przedstawiona została na rysunku 8.
Rozpoznawanie poleceń z muzyką na poziomie głośności -
25%
Rozpoznawanie poleceń z muzyką na poziomie głośności -
50%
Rozpoznawanie poleceń z muzyką na poziomie głośności -
100%
Brak samoczynnego wykonywania operacji +
Rozpoznawanie poleceń z podłączonym zestawem -
słuchawkowym
5.2. Konwolucyjna sieć nueronowa Rys. 8. Macierz błędu dla konwolucyjnej sieci neuronowej po
wykonaniu 6 tysięcy kroków treningu
Kolejnym algorytmem, który został wykorzystany do
badań jest konwolucyjna sieć neuronowa. Jest ona bardziej Zdecydowana większość poleceń została poprawnie
skomplikowana od wcześniej opisywanej jednowarstwowej sklasyfikowana. Na tle całej macierzy najwięcej błędów
sieci jednokierunkowej, dlatego też trening tej sieci był dostrzec można w klasie unknown oznaczającej nieznane
bardziej czasochłonny, trwał około 30 godzin. Rysunek polecenie, do której to najczęściej błędnie przypisywane były
7 przedstawia przebieg procesu uczenia maszynowego sieci komendy, które model powinien znać. Najmniej pomyłek
konwolucyjnej. wystąpiło w przypadku, gdy rzeczywistą instancją klasy było
słowo forward. Walidacja wykazała, że całkowita poprawność
klasyfikacji modelu na tym etapie treningu wynosi już aż
87,6%. Macierz błędu wykonana po 12 tysiącach kroków
(rysunek 9) treningu jest bardzo podobna do poprzednio
analizowanej macierzy (po 6 tysiącach kroków).
307
Journal of Computer Sciences Institute
308
Journal of Computer Sciences Institute
zastosowanych w niniejszej pracy, co jak można [7] K. Al Smadi, I. Trrad, T. Al Smadi: „ Artificial Intelligence for
wywnioskować ma znaczący wpływ na efektywność treningu. Speech Recognition Based on Neural Networks”, Journal of
Sieć konwolucyjna dobrze poradziła sobie z klasyfikacją Signal and Information Processing, 2015, 6, 66-72, 2015
poleceń, wykorzystany model uzyskał poprawność [8] W. Gevaert, G. Tsenov, V. Mladenov: „Neural networks used
klasyfikacji na poziomie powyżej 90%. W publikacji [12] for speech recognition”,Journal of automatic control, University
gdzie wykorzystany został ten sam algorytm zgodność of Belgrade, vol. 20:1-7 , 2010
rozpoznawania odgłosów występujących w ludzkim otoczeniu [9] M. Tunckanat, R. Kurban S. Sagiroglu: „Voice Recognition
wyniosła od 60% do 85% w zależności od wykorzystanego Based On Neural Networks”, IJCI Proceedings of International
Conference on Signal Processing, ISSN 1304-2386, Volume:1,
zbioru treningowego. Można więc wywnioskować że dane
Number:2, 2003
wejściowe dostarczane do sieci mają wpływ na proces
[10] A. Ahad, A. Fayyaz, T. Mehmood: „Speech Recognition using
treningu.
Multilayer Perceptron”, Students Conference, ISCON apos:02.
IEEE Volume 1, Issue, 16-17, 2002
Analizując uzyskane wyniki można stwierdzić, że
[11] T. N. Sainath, C. Parada: „Convolutional Neural Networks for
postawiona we wprowadzeniu pracy teza jest prawdziwa. Small-footprint Keyword Spotting”, Interspeech, 2015
Konwolucyjna sieć neuronowa z odpowiednio dobranymi
[12] K. J. Piczak: „Environmental Sound Classification With
parametrami pozwaliła uzyskać lepsze wyniki klasyfikacji niż Convolutional Neural Networks”, IEEE International Workshop
jednowarstwowa sieć jednokierunkowa. on Machine Learning For Signal Processing, 2015
[13] O. Abdel-Hamid, A. Mohamed, H. Jiang, L. Deng, G. Penn,
Literatura D. Yu: „Convolutional Neural Networks for Speech
[1] J. Ye, R. J. Povinelli, M. T. Johnson: „Phenome classification Recognition”, IEEE/ACM Transactions on audio, speech and
using naive Bayes classifier in reconstructed phase space”, language processing, vol. 22, NO. 10, 2014
IEEE Digital Signal Processing Workshop, 2002 [14] Tadeusiewicz R.: Sieci neuronowe. Akademicka Oficyna
[2] A. Sanchis, A. Juan, E. Vidal: „A Word-Based Naive Bayes Wydawnicza RM, 1993
Classifier for Confidence Estimation in Speech Recognition”, [15] Nielsen M.: Neural Networks and Deep Learning.
IEEE Transactions on audio, speech and language processing, Determination Press, 2015
vol. 20, NO. 2, 2012 [16] Goodfellow I., Bengio Y. i Courville A., Deep Learning, 2016
[3] N. Smith, M. Gales: „Speech Recognition using SVMs”, [17] Wprowadzenie do kowolucyjnych sieci neuronowych
Cambridge University Engineering Dept, 2002 https://towardsdatascience.com/simple-introduction-to-
[4] C. Ittichaichareon, S. Suksri, T. Yingthawornsuk: „Speech convolutional-neural-networks-cdf8d3077bac, czerwiec 2019
Recognition using MFCC”, International Conference on [18] Strona projektu Tensorflow https://www.tensorflow.org/,
Computer Graphics, Simulation and Modeling , 2012 czerwiec 2019
[5] W. M. Campbell, J. P. Campbell, D. A. Reynolds, E. Singer, [19] Pete Warden: Speech Commands: A Dataset for Limited-
P. A. Torres-Carrasquillo: „Support vector machines for Vocabulary Speech Recognition, 2018
speaker and language recognition”, Computer Speech and [20] Repozytorium biblioteki Tensorflow
Language 20 210–229, 2006 https://github.com/tensorflow/tensorflow, czerwiec 2019
[6] A. Ganapathiraju, J. E. Hamaker, J. Picone: „Applications of [21] Dokumentacja biblioteki Seaborn
Support Vector Machines to speech recognition”, IEEE https://seaborn.pydata.org/index.html, czerwiec 2019
Transactions on signal processing, vol 52, NO. 8, 2004
309