12 DeepLearningIntroduction

Μια εισαγωγή στο Deep
Learning
Προσδιορισμός
• Υποσύνολο της μηχανικής • Χρήση εκτεταμένων
μάθησης αρχιτεκτονικών και πολλαπλών
• Βασίζεται στο τεχνητά αναπαραστάσεων. [1], [2], [3]
νευρωνικά δίκτυα
[5]
Κύρια Χαρακτηριστικά
• State of the art αποτελέσματα σε [3]
διάφορους τομείς.
• Αύξουσα μονοτονία της επίδοσης με το
πλήθος των δεδομένων και των
υπολογισμών
• Συνοψίζει διάφορα στάδια
προεπεξεργασίας.
• Πλειοψηφικά (όχι αποκλειστικά)
αναφέρεται σε επιβλεπόμενη μάθηση.
• Υπολογιστικά ακριβή διαδικασία
• Δυνητικά δύσκολη ερμηνεία των [4]
διαδικασιών.
Εισαγωγή Νευρωνικών
Δικτύων
Single Layer Perceptron
Νευρώνας
Επεξεργασίας
𝑥 1 𝑤
1
𝑥 2 𝑤
2
/
Επίπεδο
Εισόδου
𝑛
𝑤
𝑥𝑛
b
Έξοδος
Forward Propagation - Παράδειγμα
Positive
b=+1 Classification
X1 = +5.2 W1 = +1.0
/=
X2 = +1.6 W2 = -0.5 0.703>0.5
0. 703
X3 = -4.3 W3 = +1.0
• (x1)(w1) = +5.2 •  = +0.3 • Y>0.5  positive

• (x2)(w2) = -0.8 •  + b = +1.3 class
• (x3)(w3) = -4.3 •  = σ(+1.3) = • Y<0.5  negative
+0. 703 class
Multi – Layered Perceptron (MLP)
X1
/ / Y1
X2
Επίπεδο
Εισόδου
/ / Yk
Xn
Επίπεδο
Κρυφά Επίπεδα Εξόδου
Backpropagation with Gradient Descent
(MLP με ένα κρυφό επίπεδο)
• Έστω ότι τροφοδοτούμε το

𝑤 1 𝑤 5
δίκτυο με τις τιμές {0.4, 0.9}. X1 / Y1
(training input)
𝑤
𝑤
2
6
3
• Επιθυμούμε να προβλέψει το
7
𝑤
𝑤
αποτέλεσμα {0.5, 0.5}. (labels) 𝑤 4 𝑤 8
X2 / Y2
• Τυχαία αρχικοποίηση βαρών.

b1 b2
Backpropagation with Gradient Descent –
Feedforward Pass
•
X1=0.4
0
.2 0 .6
0.77 0.76
0 .
3
4
• 66
5
0 .
0 .
0 .1
2
X2=0.9 0.82 0.66
0.5 0.3
Loss
•
X1=0.4
0
.2 0 .6
0.77 0.76
0 .
3
4
𝐸=0.047
•
5
0 .
0 .
0 .1
2
X2=0.9 0.82 0.66
• (mean squared error loss)
0.5 0.3
Local Gradients & updates (1)
•
𝑤 1 𝑤 5
• X1=0.4

0.76
𝑤
𝑤
2
6
• Συχνή ανάθεση: 𝐸=0.047
7
𝑤
𝑤
X2=0.9
𝑤 4
h2
𝑤 8
0.66
• Από GD update rule:

𝑏 1 𝑏 2
Local Gradients & updates (2)
•Διαδοχικά
από SGD update rule:
𝑤 1 𝑤 5
X1=0.4 0.76
𝑤
𝑤
2
6
𝐸=0.047
7
𝑤
𝑤
X2=0.9
𝑤 4
h2
𝑤 8
0.66
Η διαδικασία επαναλαμβάνεται για τα

𝑏 1 𝑏 2
νέα βάρη μέχρι να ικανοποιηθεί κάποιο
κριτήριο τερματισμού.
Αλγόριθμοι Μάθησης
Gradient Descent Overview [8]
•Μέθοδος
ελαχιστοποίησης • (Batch) Gradient Descent:
• : αντικειμενική συνάρτηση
• : παράμετροι
• : σταθερά μάθησης • Stochastic Gradient Descent:
• : μέγεθος παρτίδας
• Mini – batch Gradient Descent:

Σύμβαση: o όρος SGD συνήθως
αναφέρεται στη Mini – Batch GD.
Αλγόριθμοι Μάθησης (1) [8]
••Momentum

SGD με momentum. Πηγή: [8]
• Εκτενής περιγραφή: [8]
• Nesterov Accelerated Gradient
• Adagrad [9]
• Εκτενής περιγραφή: [8], [9]

•• RMSprop
[7]
• Βελτιωμένος Adagrad, κατά της απότομης μείωσης της σταθεράς μάθησης.

• Γενικό update rule:
• Adadelta
• Παρόμοιος με RMSprop, αναπτύχθηκαν ανεξάρτητα κατά την ίδια περίοδο.
• Adaptive Moment Estimation (Adam) [6]

• Συνδυασμός των Adaptive Gradient και Momentum τεχνικών.
• Ίσως ο δημοφιλέστερος.
• Εκτενής περιγραφή: [6], [8]

Παράδειγμα σύγκλισης
σε saddle point.
(, όχι βέλτιστο)
Πηγή: [8]
Αλγόριθμοι Μάθησης - Tips
• Δημοφιλέστεροι: Adam, RMSprop
• ΔEN υπάρχει καθολικά καλύτερος αλγόριθμος μάθησης [10]
(κάποιοι γενικεύουν καλύτερα, κάποιοι συγκλίνουν γρηγορότερα
κτλ.)
• Εξάρτηση καταλληλότητας αλγορίθμου από το πρόβλημα που
επιλύεται.
• Διαρκώς εξελισσόμενο πεδίο (βλ. Nadam [11] κ.α.).
Συναρτήσεις Ενεργοποίησης
Συναρτήσεις Ενεργοποίησης
[12]
• Προσφέρουν μη γραμμικότητα
στο μοντέλο.
(διαφορετικά τα νευρωνικά θα Activation
μπορούσαν να προσεγγίσουν function
μόνο γραμμικές συναρτήσεις)
• Ρυθμίζουν και διαμορφώνουν
την έξοδο των κρυφών /
επιπέδων.
• Επηρεάζουν αντίστοιχα την
εκπαιδευτική διαδικασία.
Συναρτήσεις Ενεργοποίησης –
Σιγμοειδής (Λογιστική)
•
• Χαρακτηριστικά: • Μειονεκτήματα:
• Μη γραμμική • Μη συμμετρία ως προς το 0 
• Συνεχές πεδίο τιμών ενεργοποίησης υπολογιστικές δυσκολίες
• Σχετικά ήπια κλίση. • Αρκετά μικρή κλίση για ακραίες τιμές
• Κατ’ επέκταση, εξασθένιση των παραγώγων
• Εύρος πεδίου τιμών: (0, 1) μέσω των αλλεπάλληλων πολ/μων κατά το
• Εμφανείς αποκλίσεις στο διάστημα [- backpropagation.
2, +2] (άρα κατάλληλο για • Δυνητικά δυσκολεύει / καθυστερεί τη
classification) μάθηση
Υπερβολική Εφαπτομένη
•
• Χαρακτηριστικά
• Παρόμοια με λογιστική, ανήκει στην

οικογένεια σιγμοειδών.
• Πεδίο ενεργοποίησης: (-1, +1) • Μειονεκτήματα:
• Εμφανίζει μεγαλύτερη κλίση σε σχέση • Vanishing Gradient
με τη λογιστική. • Καθυστερεί / δυσκολεύει τη σύγκλιση
• Έχει ως κέντρο συμμετρίας το 0. (αντίστοιχα με λογιστική)
Vanishing Gradient
• Αναφέρεται στην επαγωγική
μείωση των παραγόμενων τοπικών
κλίσεων κατά την εκπαίδευση του
δικτύου.
• Οι αλλεπάλληλοι πολλαπλασιασμοί
κλίσεων του εύρους τιμών [0, 0.5)
μέσω Gradient Descent, εκφυλίζουν
την εκπαίδευση των βαρών.
• Είναι χαρακτηριστικό τόσο της
λογιστικής, όσο και της
υπερβολικής εφαπτομένης.
Rectified Linear Unit (Relu)
•
• Χαρακτηριστικά:
• Μη γραμμική
• Μειονεκτήματα:
(,
) • Δεν είναι άνω φραγμένη
• Για αρνητικές παραμέτρους, η τοπική
• Αραιότερες ενεργοποιήσεις – παράγωγος είναι 0, επομένως δεν
υπολογιστικά ευνοϊκή ανταποκρίνονται κατά την εκπαίδευση
• Ιδανική για βαθιά δίκτυα (dying Relu problem)
Leaky Relu
•
• Χαρακτηριστικά:
• Αποτελεί προσπάθεια διόρθωσης
του dying Relu problem.
• Αρκετά παρόμοια με την Relu
• Μέσω του τελεστή αποφεύγονται
οι μηδενικές τοπικές παράγωγοι.
Συναρτήσεις Ενεργοποίησης - Softmax
• • Χαρακτηριστικά:
• Απεικονίζει ένα διάνυσμα
πραγματικών αριθμών στον
πιθανοτικό χώρο .
• Λειτουργεί ως γενίκευση της
λογιστικής για πολλές διαστάσεις.
• Εφαρμόζεται πριν την παραγωγή
εξόδου κατά το multiclass
classification.
• Κατασκευάζει μια κατανομή των
προβλέψεων βάση των logits.
Παρατηρήσεις
• Η καταλληλότερη επιλογή της συνάρτησης κόστους διαφέρει
ανάλογα με το πρόβλημα.
• Υπάρχει μια γενική προτίμηση ως προς τη Relu ως αρχική
προσέγγιση.
• Ιδιαίτερη προσοχή ως προς το πρόβλημα Vanishing / Exploding
Gradient (χρήση τεχνικών gradient monitoring, gradient clipping).
• Σε multiclass classification, χρήση της συνάρτησης Softmax πριν την
παραγωγή της εξόδου.
Συνάρτηση Κόστους
Συνάρτηση Κόστους – Γενική Περιγραφή
• Σκοπός: Χρήση της συνάρτησης
κόστους που αντικατοπτρίζει
κατάλληλα το πρόβλημα. ⋯
• Κύριος διαχωρισμός: Πρόβλεψη 𝐸=loss
διακριτής ή συνεχούς τιμής.

(classification / regression) ⋯
⋯
Συνάρτηση Κόστους - Regression Loss
• Mean Squared Error : • Mean Absolute Error:
• Ίσως η πιο συνηθισμένη

προσέγγιση. • Ανταποκρίνεται αποδοτικότερα σε
• Ιδανικά όταν τα δεδομένα περίπτωση πολλών outliers.
ακολουθούν κανονική κατανομή.
Συνάρτηση Κόστους - Regression Loss –
Παράδειγμα
Συνάρτηση Κόστους - Classification Loss
•• Categorical
Cross – Entropy
• Στην ουσία, υπολογίζει το σφάλμα της παραγόμενης κατανομής σε σχέση με την κατανομή των πραγματικών
τιμών (labels).
• Αποτελεί την κύρια συνάρτηση κόστους για multiclass classification.
• Απαιτεί one – hot encoding των labels.
• Sparse Categorical Cross – Entropy

• Κατάλληλη όταν οι κλάσεις ως υποσύνολα είναι ξένα μεταξύ τους (mutually exclusive)
• Δεν απαιτεί one – hot encoding των labels, λειτουργεί με μη διανυσματική ακέραια αναπαράσταση των κλάσεων.
• Ωφελεί αρκετά την εκπαιδευτική διαδικασία όταν υπάρχει μεγάλο πλήθος κλάσεων.
• Εκτενής περιγραφή και παραλλαγές: [13] ή https://keras.io/losses/

Αναδρομικά Νευρωνικά
Δίκτυα
Αναδρομικά Νευρωνικά Δίκτυα –
Βασικά Δομή
𝑦𝑡

𝑦 1 𝑦 2 𝑦 3

h𝑡 h1 h2 h3 ⋯

𝑥 1 𝑥 2 𝑥 3
𝑥𝑡

𝐔𝐧𝐟𝐨𝐥𝐝𝐞𝐝
𝐑𝐍 𝐍
Αναδρομικά Νευρωνικά Δίκτυα –
Περιγραφή
• • Βασικό χαρακτηριστικό: η
έξοδος του κρυφού επιπέδου ()
τροφοδοτείται συμπληρωματικά
• : είσοδος του δικτύου κατά το
με τη νέα είσοδο () στο κρυφό
χρονοβήμα t.
επίπεδο.
• : έξοδος του κρυφού επιπέδου
(hidden state) κατά το χρονοβήμα • Το δίκτυο αποκτά “μνήμη”,
t. καθίσταται έτσι κατάλληλο για
την επεξεργασία ακολουθιακών
• : έξοδος του δικτύου (hidden
δεδομένων.
state) κατά το χρονοβήμα t.
• : Μητρώα βαρών.
Αδυναμία Μακροχρόνιων Εξαρτήσεων
• Όπως και τα απλά ΝΔ, τα ΑΝΔ είναι
universal function estimators.
• Θεωρητικά, έχουν την ικανότητα
απεριόριστης “μνήμης”.
• Αλλεπάλληλοι πολ/μοι τοπικών
κλίσεων (βλ. vanishing gradient
problem)  αδυνατούν να
συγκρατήσουν μακροχρόνιες (long -
term) εξαρτήσεις.
• Ως απάντηση χρησιμοποιούνται
ανεπτυγμένες αρχιτεκτονικές και
τεχνικές κανονικοποίησης.
Long Short – Term Memory Units (LSTM)
Βασικό ΑΝΔ LSTM [14, 16]

𝑦 𝑡 h𝑡
h𝑡 𝑐 𝑡 −1 𝑐 𝑡
x +
𝑡𝑎𝑛h
𝑖 𝑡
x 𝑜 𝑡
𝜎 ( 𝑥 ) 𝑓 𝑡 ~ x
𝑐 𝑡
𝜎 𝜎 𝑡𝑎𝑛h
h 𝑡 − 1 h 𝑡 − 1
𝜎
h𝑡
𝑥𝑡 𝑥𝑡
Κύρια πηγή: [14]

LSTM – Περιγραφή (1)
[14]
•• Περιέχει
μια ροή της πληροφορίας εν ονόματι “cell state”, η οποία επηρεάζεται μόνο από
γραμμικούς μετασχηματισμούς και σκοπό έχει να διατηρεί την πληροφορία σχετικά
αμετάβλητη.
• Το προστίθεται με τη και διαδοχικά επηρεάζονται από τρεις διαφορετικές πύλες
(σιγμοειδείς νευρώνες): forget, input και output gates, με σκοπό να φιλτράρεται κατάλληλα η
πληροφορία.
• Η κάθε πύλη αποτελεί ένα κρυφό επίπεδο το οποίο απαρτίζεται από ένα σύνολο βαρών και
μια σιγμοειδή συνάρτηση.
• Η forget gate καθορίζει την πληροφορία που το σύστημα θα αποβάλλει από το διάνυσμα .
• Η input gate αντίστοιχα, σε συνδυασμό με μια tanh συνάρτηση ενεργοποίησης και
γραμμικούς μετασχηματισμούς, καθορίζει την πληροφορία που θα εισαχθεί στο cell state.
• Παρόμοια η output gate ορίζει την πληροφορία του που θα συνδυαστεί με το cell state και
θα αποτελέσει το νέο .
LSTM – Περιγραφή (2)
[14]
•
h𝑡
𝑐 𝑡 −1 𝑐 𝑡
x +
• 𝑡𝑎𝑛h
𝑖 𝑡
x 𝑜 𝑡
𝑓 𝑡 ~ x
𝑐 𝑡
𝜎 𝜎 𝑡𝑎𝑛h
h𝑡
𝜎
h 𝑡 − 1
•
𝑥𝑡
• Κύρια πηγή: [14]
Gated Recurrent Units (GRU)
• Η αρχιτεκτονική GRU [17]
αποτελεί μια απλοποιημένη
μορφή της LSTM.
• Δεν περιέχει cell state.
• Απαρτίζεται από μια update και
μια reset πύλη.
• Και οι δυο αρχιτεκτονικές
Εικόνα από:
θεωρούνται ισάξιες και εξίσου https://colah.github.io/posts/2015-08-Understan
δημοφιλείς. ding-LSTMs/
Κύριες πηγές: [14], [16]
Προχωρημένες Αρχιτεκτονικές –
Bidirectional RNN
• Παράλληλα με την κανονική 𝑦 1 𝑦 2 𝑦 3 ⋯

ανάγνωση των δεδομένων, ένα
έξτρα κρυφό επίπεδο
επεξεργασίας δέχεται την είσοδο ′
h 𝑡−1
h′
𝑡
h′
𝑡 +1 ⋯

με αντίστροφη σειρά. Οι έξοδοι

των κρυφών επιπέδων h

𝑡−1 h
𝑡
h
𝑡 +1 ⋯

συνενώνονται σε μια κοινή έξοδο.

• Κατ’ αυτό το τρόπο το δίκτυο
δημιουργεί συσχετίσεις όχι μόνο 𝑥 𝑡 −1 𝑥 𝑡 𝑥 𝑡 +1 ⋯

με τα παρελθοντικά δεδομένα,
αλλά και με αυτά που έπονται.
Αναδρομικά Νευρωνικά Δίκτυα -
Χρήσιμοι Σύνδεσμοι
Χρήσιμοι σύνδεσμοι:
• https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurre
nt-neural-networks
• https://colah.github.io/posts/2015-08-Understanding-LSTMs/
• https://playground.tensorflow.org/
Τεχνικές Κανονικοποίησης
Τεχνικές Κανονικοποίησης – Dropout (1)
• Το dropout [18] αποτελεί τη
βασική τεχνική κανονικοποίησης
νευρωνικών δικτύων.
• Τυχαία επιλεγμένοι κόμβοι
απενεργοποιούνται κατά την
εκπαιδευτική διαδικασία.
Αποφεύγεται έτσι ενδεχόμενο
overfitting.
Εικόνα από τη δημοσίευση [18].

Τεχνικές Κανονικοποίησης – Dropout (2)
• Στην περίπτωση των
αναδρομικών νευρωνικών , το
dropout προτείνεται να
υλοποιείται μόνο στις μη
αναδρομικές συνάψεις, για τη
κατάλληλη διατήρηση της
πληροφορίας (βλ. [19]).
Εικόνα από τη δημοσίευση [19].

Τεχνικές Κανονικοποίησης –
Gradient Clipping
• Εφαρμόζεται
ως άνω φράγμα
στη τιμή των υπολογιζόμενων
τοπικών κλίσεων κατά την
εκπαίδευση, για την αποφυγή
του gradient explosion και
γρηγορότερη σύγκλιση.
• Συνήθως υλοποιείται μέσω
κανονικοποίησης της τιμής της Εικόνα από:
https://stanford.edu/~shervine/teaching/cs-230/cheatsh
κλίσεως, όταν η νόρμα της eet-recurrent-neural-networks
ξεπεράσει το ορισμένο άνω
φράγμα.
Convolutional Neural
Networks
Convolution Neural Networks - Περιγραφή
• Αποτελούν feed – forward δίκτυα, όπως τα
MLP’s.
• Έχουν την ικανότητα να ανακαλύπτουν
χωρικές και χρονικές εξαρτήσεις.
• Μειώνουν κατά πολύ τις εκπαιδευόμενες
παραμέτρους του μοντέλου και τις
πιθανότητες overfitting.
• Η είσοδος θεωρείται ως ένα αρχείο
εικόνας.
• Κύριες κατηγορίες επιπέδων:
• Convolutional Βασική περιγραφή των Convolutional NN, από Machine
• Pooling Learning and Medical Images, 2016 [26]
• Fully – Connected
Convolutional Layers (1)
• Χρησιμοποιεί φίλτρα (kernels), τα
οποία τομογραφούν την είσοδο
μέσω συνεχών συνελίξεων
(convolutions) για την
ανακάλυψη τοπικών
χαρακτηριστικών.
• Απαρτίζεται από τρεις κύριες
παραμέτρους:
• Number of filters
• Kernel size Παράδειγμα Input – Convolutional Layers, για
• Padding μια εικόνα διαστάσεων : . Πηγή:
http://cs231n.github.io/convolutional-networks/
• Η εικόνα εισόδου αποτελείται από τρεις
διαστάσεις: (μήκος, πλάτος, βάθος). Το
βάθος αναφέρεται στα channels (1 για
grayscale, 3 για rgb κ.α.) Kernel Shape: (2x2x1)
• Τα στοιχεία του πίνακα είναι ακέραιοι
συγκεκριμένου εύρους (π.χ. [0, 255]), που
αντιπροσωπεύουν την ένταση του
χρώματος.
• Ο kernel αποτελείται από ένα πίνακα
συντελεστών, ο οποίος φιλτράρει τοπικά
την εικόνα (εσωτερικό γινόμενο kernel και
μέρος του πίνακα), μετατοπίζοντας κάθε
φορά, οριζόντια ή κάθετα, κατά stride σε
πλήθος pixels.
• Για φίλτρα, προκύπτουν αναπαραστάσεις
(feature maps). Input Image: (5x5x1)
Kernel
…

Convolutions, παράδειγμα με
stride = (1,1)
…

Pooling Layer
• Χρήση: Συνηθίζεται να τοποθετείται • Είδη: Τα κυριότερα είναι τα
ανάμεσα από διαδοχικά Average και Max. Συνηθίζεται
convolutional layers. max pooling, ενώ τα kernel size
• Σκοπός: Συντελεί στη μείωση των
διαστάσεων των feature maps και

και stride ίσα με (2, 2). …
στην καταπολέμηση του overfitting.
• Περιγραφή: Πραγματοποιείται
επίσης μέσω της τοπικής εφαρμογής
ενός φίλτρου, που μετατοπίζεται
μέσω stride. Μπορεί να
χαρακτηρισθεί ως ένα επιπλέον
convolution, με μη γραμμικό kernel. Παράδειγμα για max pooling, με
pool_size=(3, 3) και stride=(2, 2).
Padding
• Βοηθά στη ρύθμιση των διαστάσεων 0 0 0 0 0 0 0
των output feature maps.
0 0
Πραγματοποιείται πάντα μέσω
μηδενικών. 0 0
• Χρησιμοποιείται τόσο στο 0 0

Convolutional όσο και στο Pooling 0 0
επίπεδο.
0 0
• Εφαρμόζεται ανάλογα με τις
0 0 0 0 0 0 0
διαστάσεις του feature map που
επιθυμούμε, ανάλογα με το stride.
(no padding, half padding, same
padding, full padding etc.) [28]
Fully Connected Layer & Output
• Για την παραγωγή εξόδου:
• το προϊόν των διαδοχικών
Convolutional και Pooling
επιπέδων δέχεται κατάλληλη
διαμόρφωση διαστάσεων.

⋯

⋯

⋯
• Συνηθίζεται να τροφοδοτείται σε
ένα πλήρως συνδεδεμένο επίπεδο
με κατάλληλη συνάρτηση
ενεργοποίησης.
• Εάν πρόκειται για classification
task, η έξοδος παράγεται μέσω
ενός τελικού Softmax επιπέδου.
Convolutional Neural Networks –
Σημειώσεις
• Περισσότερα convolutional επίπεδα συντελούν στην ανακάλυψη και αφαίρεση
προχωρημένων δομών και γνωρισμάτων των εικόνων. Αυξάνουν επίσης κατά
πολύ την πολυπλοκότητα του δικτύου.
• Συνηθίζεται τα επίπεδα συνελίξεων να ακολουθούνται από Pooling επίπεδα, για
τη μείωση τής διαστατικότητας, την αφαίρεση θορύβου και την αποφυγή
overfitting. Δεν είναι αναγκαίο, αλλά στην κρίση του σχεδιαστή του δικτύου.
• Αν και συνηθίζεται, ούτε η χρήση του πλήρως συνδεδεμένου επιπέδου είναι
αναγκαία. Συγκεκριμένα, στο state of the art μοντέλο ResNet, δε
χρησιμοποιείται. Aντικαθίσταται με Global Average Pooling (βλ. [27], case studies).
• Γενικά προτιμάται η μέθοδος κανονικοποίησης Batch Normalization [31] αντί της
Dropout στα Convolutional Neural Networks (βλ. [30]).
Convolutional Neural Networks –
Χρήσιμοι Σύνδεσμοι
• Official Tensorflow Introduction to CNN:
https://www.tensorflow.org/tutorials/images/cnn
• Stanford CS231n:
https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-convoluti
onal-neural-networks
[27]
• “A Guide to Convolution Arithmetic for Deep Learning”, [Dumoulin &

Visin, 2018]: https://arxiv.org/pdf/1603.07285.pdf [28]
Autoencoders
Autoencoders –
“Unsupervised” Neural Networks (1)
• Εφαρμόζεται σε unlabeled δεδομένα.
• Οι διαστάσεις του επιπέδου εισόδου
𝑥 1 𝑦 1
h 1
ισούνται με τις διαστάσεις του
επιπέδου εξόδου. 𝑥 2 𝑦 2
h 2
• Εφαρμογές:
• Μείωση της διαστατικότητας για data
visualization (παρόμοια με PCA)
⋮

⋮

⋮

• Denoising εικόνων ή ακολουθιών h 𝑚

• Generative learning models
𝑥 𝑛 𝑦 𝑛
• Απλούστερη μορφή:
• Feedforward
• Fully Connected
Autoencoders –
“Unsupervised” Neural Networks (2) Decoder
• Σκοπός
είναι η έξοδος να ισούται με
την είσοδο .
Input Output
(Προσεγγίζει τη ταυτοτική συνάρτηση)
• Απαρτίζεται από δύο κύρια μέρη:

• Encoder  Μαθαίνει τη νέα
αναπαράσταση .
Latent
• Decoder  Ανακατασκευάζει τα Representation
Encoder
δεδομένα από την αναπαράσταση .
Autoencoders –
“Unsupervised” Neural Networks (3)
• Μέσω
περιορισμών (π.χ.
διαφορετική διαστατικότητα),
𝑥 1 𝑥 1 𝑥 1 𝑥 1
⋮
⋮
παράγονται διαφορετικές
h 1
αναπαραστάσεις, , της εισόδου.
𝑥 2 𝑥 2 𝑥 2 𝑥 2
• Ανάλογα με το πρόβλημα που h 2
επιλύεται, οι encoder – decoder
μπορούν να απαρτίζονται από ⋮

⋮

⋮ ⋮

⋮

DNN, LSTM, CNN και άλλα. h 𝑙

𝑥 𝑛 𝑥 𝑘 𝑥 𝑚 𝑥 𝑛
• Πραγματοποιείται μέσω
backpropagation και Gradient
Descent.
Παράδειγμα: Convolutional Autoencoder –
Mnist Image Denoising [32] (1)
• MNIST dataset [32]: σύνολο
χειρόγραφων grayscale εικόνων
ακεραίων του εύρους [0, 9].
• Κάθε εικόνα αναπαρίσταται από
έναν τανυστή διαστάσεων
διαστάσεις: (28, 28, 1)
• Εισαγωγή θορύβου.
• Κατασκευή κατάλληλου
Convolutional Autoencoder.
Encoder Decoder
• Εκπαίδευση του Convolutional
Autoencoder:
• Training set = (noisy training
images, training images)
• Validation set = (noisy validation
images, validation images)
• Αποτελέσματα:
Autoencoders – Χρήσιμοι Σύνδεσμοι
• Deep Learning book, 2016, Goodfellow et al, Chapter 14,
https://www.deeplearningbook.org/contents/autoencoders.html [34]
• Keras official tutorials on Autoencoders, 2016, Francois Chollet,
https://www.deeplearningbook.org/contents/autoencoders.html [33]
• Sparse Autoencoders lecture notes, Andrew Ng, Stanford University
https://web.stanford.edu/class/archive/cs/cs294a/cs294a.1104/spars
eAutoencoder.pdf
[35]
• “Auto – Encoding Variational Bayes”, Kingma et al, 2014

https://arxiv.org/pdf/1312.6114.pdf [36]
Tensorflow 2.0
Περιγραφή
• Υπολογιστική πλατφόρμα, βασισμένη στη χρήση τανυστών (tensors)
• Προγραμματιστικό περιβάλλον: Python
• Ανεπτυγμένη από την Google, αλλά πλήρως Open Sourced, με τη μεγαλύτερη επιστημονική
και προγραμματιστική κοινότητα.
• Πλήρης κάλυψη αρχιτεκτονικών νευρωνικών δικτύων, αλγορίθμων μάθησης, συναρτήσεων
κόστους, κοκ.
• Δυνατότητα επεξεργασίας και επέκτασης των ήδη υπαρχόντων συναρτήσεων / βιβλιοθηκών.
• Εύκολη (πλέον) ανάπτυξη. Περιέχει ενσωματωμένη τη βιβλιοθήκη νευρωνικών δικτύων
Keras [22].
• Εδρεύει σε όλα τα πρωτεύοντα Cloud ML Infrastructures (βλ. Amazon AWL, Microsoft Azure,
Google ML Engine κ.α.)
• Επίσημη ιστοσελίδα: https://www.tensorflow.org/ [23]
Οδηγίες Εγκατάστασης & Χρήσης
• Εγκατάσταση Python: https://www.python.org/downloads/ [24]
Προτείνεται η τελευταία έκδοση (παρούσα: Python 3.8).
• Ακολουθείτε τις οδηγίες εγκατάστασης στην επίσημη ιστοσελίδα:

https://www.tensorflow.org/install/
Επιλογές: {pip, virtual environment, Anaconda}
• Προτείνεται και η απευθείας χρήση χωρίς εγκατάσταση, μέσω της

δωρεάν υπηρεσίας υπολογιστικού νέφους Google Colab:
https://colab.research.google.com/ [37]
Παράδειγμα Εφαρμογής
Νευρωνικών Δικτύων
References (1)
• [1]: “Deep Learning”, [Bengio, LeCun & Hinton, 2015]
• [2]: “Deep Learning in Neural Networks: an Overview”, [Schmidhuber, 2014]
• [3]: [Andrew Ng, Baidu Research Slides, ExtractConf 2015]
• [4]: “Geological Facies Prediction using Computed Tomography in a Machine Learning and Deep
Learning Environment”, [Odi, Nguygen, 2018]
• [5]: “Dropout prediction in MOOC: using Deep Learning for Personalized Intervention”, [Xing, Du, 2018]
• [6]: “Adam: A method for stochastic optimization”, [Kingma & Ba, 2015]
• [7]: RMSprop, http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
• [8]: “An overview of stochastic gradient descent optimization algorithms”, [Ruder, 2017]
• [9]: “Adaptive Subgradient Methods for Online Learning and Stochastic Oprimization”, [Duchi et al,
2011]
• [10]:
https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-
experiment/
References (2)
• [11]: “Incorporating Nesterov Momentum into Adam”, [Dozat, 2018]
• [12]: “On Loss Functions for Deep Neural Networks in Classification”, [Janocha & Czarnecki, 2017]
• [13]: https://github.com/keras-team/keras/blob/master/keras/losses.py
• [14]: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
• [15]: “Learning Long – term Dependencies with Gradient Descent is Difficult”, [Bengio, 1993]
• [16]: “Long Short – Term Memory Units”, [Hochreiter & Schmidhuber, 1997]
• [17]: “Learning Phrase Representations using RNN Encoder –Decoder for Statistical Machine
Translation”, [Cho et al, 2014]
• [18]: “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”, [Srivastava et al, 2014]
• [19]: “Recurrent Neural Network Regularization”, [Zaremba et al, 2014]
• [20]: “Analysis of Gradient Clipping and Adaptive Scaling with a Relaxed Smoothness Condition”,
[Zhang et al, 2019]
References (3)
• [21]: “Bidirectional Recurrent Neural Network”, [Schuster & Paliwal, 1997]
• [22]: https://keras.io/
• [23]: https://www.tensorflow.org/
• [24]: https://www.python.org/
• [25]: https://colab.research.google.com/
• [26]: “Machine Learning and Medical Images”, Wu et al, 2016
• [27]: http://cs231n.github.io/convolutional-networks/
• [28]: “A Guide to Convolution Arithmetic for Deep Learning”, [Dumoulin & Visin, 2018]
• [29]: Convolution Arithmetic Visualization (per [28]),
https://github.com/vdumoulin/conv_arithmetic?source=post_page-----3bd2b1164a53------------
----------
• [30]: https://www.kdnuggets.com/2018/09/dropout-convolutional-networks.html
References (4)
• [31]: “Batch Normalization: Accelerating Deep Network Training by
Reducing Internal Covariate Shift”, [Ioffe & Szegedy, 2015]
• [32]: http://yann.lecun.com/exdb/mnist/
• [33]: https://blog.keras.io/building-autoencoders-in-keras.html
• [34]: “Deep Learning Book”, [Goodfellow et al, 2016]
• [35]:
https://web.stanford.edu/class/archive/cs/cs294a/cs294a.1104/spars
eAutoencoder.pdf
• [36]: “Auto – Encoding Variational Bayes”, [Kingma et al, 2014]

e – mail: gkorgkolis@ceid.upatras.gr
Προκάτ, δεξιά πτέρυγα, 10:00 – 18:00

12 DeepLearningIntroduction

Uploaded by

Copyright:

Available Formats

You might also like

12 DeepLearningIntroduction

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

12 DeepLearningIntroduction

Uploaded by

Copyright:

Available Formats

Μια εισαγωγή στο Deep

• (x1)(w1) = +5.2 •  = +0.3 • Y>0.5  positive

• Έστω ότι τροφοδοτούμε το

• Τυχαία αρχικοποίηση βαρών.

• Από GD update rule:

Η διαδικασία επαναλαμβάνεται για τα

• Mini – batch Gradient Descent:

• Nesterov Accelerated Gradient

• Εκτενής περιγραφή: [8]

• Εκτενής περιγραφή: [8], [9]

• Βελτιωμένος Adagrad, κατά της απότομης μείωσης της σταθεράς μάθησης.

• Εκτενής περιγραφή: [7]

• Adaptive Moment Estimation (Adam) [6]

• Παρόμοια με λογιστική, ανήκει στην

• Κύριος διαχωρισμός: Πρόβλεψη 𝐸=loss

διακριτής ή συνεχούς τιμής.

• Ίσως η πιο συνηθισμένη

• Sparse Categorical Cross – Entropy

• Εκτενής περιγραφή και παραλλαγές: [13] ή https://keras.io/losses/

Βασικό ΑΝΔ LSTM [14, 16]

Κύρια πηγή: [14]

με αντίστροφη σειρά. Οι έξοδοι

συνενώνονται σε μια κοινή έξοδο.

Εικόνα από τη δημοσίευση [18].

Εικόνα από τη δημοσίευση [19].

• Χρησιμοποιείται τόσο στο 0 0

• “A Guide to Convolution Arithmetic for Deep Learning”, [Dumoulin &

• Denoising εικόνων ή ακολουθιών h 𝑚

• Απαρτίζεται από δύο κύρια μέρη:

DNN, LSTM, CNN και άλλα. h 𝑙

• “Auto – Encoding Variational Bayes”, Kingma et al, 2014

Προτείνεται η τελευταία έκδοση (παρούσα: Python 3.8).

• Ακολουθείτε τις οδηγίες εγκατάστασης στην επίσημη ιστοσελίδα:

• Προτείνεται και η απευθείας χρήση χωρίς εγκατάσταση, μέσω της

• [36]: “Auto – Encoding Variational Bayes”, [Kingma et al, 2014]

You might also like