Download as pdf or txt
Download as pdf or txt
You are on page 1of 231

ΔΡ. ΒΑΣΙΛΕΙΟΣ Γ.

ΚΑΜΠΟΥΡΛΑΖΟΣ

ΔΡ. ΓΕΩΡΓΙΟΣ Α. ΠΑΠΑΚΩΣΤΑΣ

Εισαγωγή στην
ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ
Εισαγωγή στην
ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Συγγραφή
Βασίλειος Γ. Καμπουρλάζος
Γεώργιος Α. Παπακώστας

Κριτικός αναγνώστης
Αθανάσιος Κεχαγιάς

Συντελεστές έκδοσης
Γλωσσική Επιμέλεια: Γεωργία Βιολιτζή

ISBN: 978-960-603-078-9

Copyright © ΣΕΑΒ, 2015

Το παρόν έργο αδειοδοτείται υπό τους όρους της άδειας Creative Commons Αναφορά Δημιουργού - Μη Εμπορική
Χρήση - Όχι Παράγωγα Έργα 3.0. Για να δείτε ένα αντίγραφο της άδειας αυτής επισκεφτείτε τον ιστότοπο
https://creativecommons.org/licenses/by-nc-nd/3.0/gr/

ΣΥΝΔΕΣΜΟΣ ΕΛΛΗΝΙΚΩΝ ΑΚΑΔΗΜΑΪΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ


Εθνικό Μετσόβιο Πολυτεχνείο
Ηρώων Πολυτεχνείου 9, 15780 Ζωγράφου
www.kallipos.gr
(αυτή η σελίδα αφέθηκε κενή)

Ακρ-1
ΠΕΡΙΕΧΟΜΕΝΑ

Ακρωνύμια

Κεφάλαιο 0: Εισαγωγή 0-1

Μέρος-Ι: Κλασική Υπολογιστική Νοημοσύνη Ι-1

Κεφάλαιο 1: Τεχνητά Νευρωνικά Δίκτυα 1-1


1.1 Βασικές Έννοιες Νευρωνικού Υπολογισμού 1-1
1.2 Γραμμικά ΤΝΔ Perceptrons και ο Κανόνας Δέλτα 1-4
1.3 Δίκτυα Οπισθόδρομης Μάθησης 1-9
1.4 Αυτό-οργανούμενοι Χάρτες 1-11
1.5 Θεωρία Προσαρμοστικού Συντονισμού 1-12
1.6 Σύγχρονες Τάσεις 1-17
Ερωτήσεις Κατανόησης και Ασκήσεις 1-17
Βιβλιογραφία 1-19

Κεφάλαιο 2: Ασαφή Συστήματα 2-1


2.1 Βασικές Έννοιες Ασαφών Συνόλων 2-1
2.2 Επεκτάσεις Ασαφών Συνόλων 2-3
2.3 Ασαφής Λογική 2-5
2.4 Έμφαση σε Κατηγορηματικές Προτάσεις και σε Ασαφείς Αριθμούς 2-8
2.5 Ασαφή Μοντέλα τύπου Mamdani, και Sugeno 2-13
2.6 Υπολογισμός με Λέξεις 2-24
Ερωτήσεις Κατανόησης και Ασκήσεις 2-26
Βιβλιογραφία 2-27

Κεφάλαιο 3: Εξελικτικός Υπολογισμός 3-1


3.1 Βασικές Αρχές Βελτιστοποίησης 3-1
3.2 Κλασικοί Αλγόριθμοι Βελτιστοποίησης 3-2
3.3 Βασικές Έννοιες Εξελικτικού Υπολογισμού 3-3
3.4 Γενετικοί Αλγόριθμοι 3-4
3.5 Βελτιστοποίηση Σμήνους Σωματιδίων 3-10
3.6 Εναλλακτικοί Αλγόριθμοι Εξελικτικού Υπολογισμού 3-11
Ερωτήσεις Κατανόησης και Ασκήσεις 3-12
Βιβλιογραφία 3-13

Μέρος-ΙΙ: Διευρυμένη Υπολογιστική Νοημοσύνη ΙΙ-1

Κεφάλαιο 4: Επεκτάσεις της Κλασικής Υπολογιστικής Νοημοσύνης 4-1


4.1 Νευρο-ασαφή Συστήματα 4-1
4.2 Δίκτυα Ακτινωτής Βάσης 4-2
4.3 Μοντέλα κ Πλησιέστερων Γειτόνων 4-4
4.4 Μηχανές Διανυσμάτων Στήριξης 4-5
4.5 Σύγχρονες Τάσεις 4-12
Ερωτήσεις Κατανόησης και Ασκήσεις 4-13
Βιβλιογραφία 4-14
Κεφάλαιο 5: Μεθοδολογίες Στατιστικές, Πιθανοτήτων, Δυνατοτήτων 5-1
5.1 Πολλαπλά Μοντέλα 5-1
5.2 Τεχνικές Ομαδοποίησης 5-5
5.3 Τεχνικές της Θεωρίας Τεκμηρίων 5-15
Ερωτήσεις Κατανόησης και Ασκήσεις 5-17
Βιβλιογραφία 5-19

Κεφάλαιο 6: Μεθοδολογίες με Γράφους 6-1


6.1 Δίκτυα Bayes 6-1
6.2 Δένδρα Αποφάσεων 6-2
6.3 Γνωσιακοί Χάρτες 6-3
Ερωτήσεις Κατανόησης και Ασκήσεις 6-12
Βιβλιογραφία 6-14

Μέρος-ΙΙΙ: Μια Ενοποιητική Προσέγγιση στην Υπολογιστική Νοημοσύνη ΙΙΙ-1

Κεφάλαιο 7: Η Θεωρία Πλεγμάτων στην Υπολογιστική Νοημοσύνη 7-1


7.1 Ασαφή Πλέγματα 7-1
7.2 Επεκτάσεις σε Ιεραρχίες Πλεγμάτων 7-2
7.3 Ενοποίηση Ανόμοιων Τύπων Δεδομένων 7-7
Παράρτημα (Γενική Θεωρία Πλεγμάτων) 7-12
Ερωτήσεις Κατανόησης και Ασκήσεις 7-18
Βιβλιογραφία 7-18

Κεφάλαιο 8: Υπολογιστικές Μεθοδολογίες σε Πλέγματα 8-1


8.1 Λογική και Συλλογιστική 8-1
8.2 Τυποποιημένη Ανάλυση Εννοιών 8-4
8.3 Μαθηματική Μορφολογία 8-6
8.4 Συγκριτικά Σχόλια 8-7
Ερωτήσεις Κατανόησης και Ασκήσεις 8-8
Βιβλιογραφία 8-9

Κεφάλαιο 9: Αριθμοί Διαστημάτων 9-1


9.1 Μια Δημοφιλής Ιεραρχία Πλεγμάτων 9-1
9.2 Αριθμοί Διαστημάτων 9-10
9.3 Αλγόριθμοι Εφαρμογής ΑΔ 9-15
Ερωτήσεις Κατανόησης και Ασκήσεις 9-18
Βιβλιογραφία 9-23

Παράρτημα Α: Εισαγωγή στην Χρήση MATLAB και Υπολογιστικά Παραδείγματα Α-1

Παράρτημα Β: Στατιστική Αξιολόγηση Μοντέλων Υπολογιστικής Νοημοσύνης Β-1

Παράρτημα Γ: Εφαρμογές της Υπολογιστικής Νοημοσύνης Γ-1

Ευρετήριο Όρων

Γλωσσάρι
Ακρωνύμια
ΑΓΑ: Ασαφείς Γνωσιακοί Απεικονιστές
ΑΓΧ: Ασαφείς Γνωσιακοί Χάρτες
ΑΔ: Αριθμός Διαστημάτων
ΔΒ: Δίκτυα Bayes
ΔΜ: Δίκτυα Markov
ΑΔ: Αριθμοί Διαστημάτων
ΑΑ2: Ασαφής Αριθμός τύπου-2
ΑΣ: Ασαφές Σύστημα
ΑΣΣ: Ασαφές Σύστημα Συμπερασμού
ΒΣΣ: Βελτιστοποίηση Σμήνους Σωματιδίων
ΓΑ: Γενετικός Αλγόριθμος
ΓΑΓΧ: Γκρι Ασαφείς Γνωσιακοί Χάρτες
ΓΑΔ: Γενικευμένος Αριθμός Διαστημάτων
ΓΧ: Γνωσιακοί Χάρτες
ΓΧΤ: Γνωσιακοί Χάρτες Τεκμηρίων
ΔΑΒ: Δίκτυα Ακτινωτής Βάσης
ΔΑΓΧ: Διαισθητικοί Ασαφείς Γνωσιακοί Χάρτες
ΔΜΗ: Διαφορική Μάθηση τύπου Hebb
διαVC: διάσταση Vapnik-Chervonenkis
ΕΜΗ: Ενεργή Μάθηση τύπου Hebb
ΕΥ: Εξελικτικός Υπολογισμός
ΕυΥ: Ευέλικτος Υπολογισμός
Η/Υ: Ηλεκτρονικός Υπολογιστής
ΘΠΣ: Θεωρία Προσαρμοστικού Συντονισμού
ΚΑΓ: Κατευθυνόμενων Ακυκλικών Γράφων
κΠΓ: κ Πλησιέστερων Γειτόνων
ΜΑΜ: Μηχανές Ακραίας Μάθησης
MATLAB: MATrix LABoratory
ΜΓΗ: Μη-Γραμμική μάθηση τύπου Hebb
ΜΔΣ: Μηχανές Διανυσμάτων Στήριξης
μδσυν: μερικώς διατεταγμένο σύνολο
MM: Μαθηματική Μορφολογία
ΜΤΣ: Μέσο Τετραγωνικό Σφάλμα
ΝΑΣ: Νευρο-Ασαφή Συστήματα
Π-ασαφές σύνολο: Πλέγμα-ασαφές σύνολο
ΠΝΑΣΣ: Προσαρμοστικά Νευρο-Ασαφή Συστήματα Συμπερασμού
ΠΟΠ: Πιθανώς Ορθό κατά Προσέγγιση
ΣΑΠ: Συλλογιστική Ασαφών Πλεγμάτων
ΣΕΤ: Σφάλμα Ελαχίστων Τετραγώνων
ΤΑΕ: Τυποποιημένη Ανάλυση Εννοιών
τ-νόρμα: τριγωνική νόρμα
τ-συννόρμα (ή σ-νόρμα): τριγωνική συννόρμα
Τ1: Τύπου-1
Τ2: Τύπου-2
ΤΝ: Τεχνητή Νοημοσύνη
ΤΝΔ: Τεχνητό Νευρωνικό Δίκτυο
ΥΝ: Υπολογιστική Νοημοσύνη

Ακρ-1
Κεφάλαιο 0: Εισαγωγή
Μετά την εφεύρεση του ηλεκτρονικού-διακόπτη από τους Shockley, Bardeen και Brattain στα εργαστήρια
Bell των Η.Π.Α. το 1947, η εμφάνιση των σύγχρονων ηλεκτρονικών υπολογιστών ήταν θέμα χρόνου. Οι
ηλεκτρονικοί υπολογιστές κατέστησαν εφικτή την ταχύτατη αναζήτηση και επεξεργασία δεδομένων, με
αποτέλεσμα την εμφάνιση ευφυών λειτουργιών από μηχανές (βλ. ηλεκτρονικούς υπολογιστές) κατά την
έννοια του Turing, δηλαδή σε συγκεκριμένα προβλήματα μια μηχανή μπορεί να δίνει εξίσου καλές
απαντήσεις με ένα άνθρωπο.
Στο προαναφερθέν πλαίσιο, περίπου από το 1990 και μετά, εμφανίστηκε ένας αριθμός μεθοδολογιών
υπό τον κοινό τίτλο υπολογιστική νοημοσύνη (ΥΝ) (computational intelligence (CI)). Συγκεκριμένα, ως
Υπολογιστική Νοημοσύνη ορίζουμε μια συνεχώς εξελισσόμενη συνέργια μεθοδολογιών επεξεργασίας
αριθμητικών δεδομένων, οι οποίες είναι υλοποιήσιμες σε υπολογιστή για τη λήψη αποφάσεων κοινής
λογικής. Υπό αυτήν την έννοια, μια τεχνολογία ΥΝ αναμένεται να είναι συμβατή με αρχές της κοινής
λογικής. Σημειώστε ότι ως συνώνυμο του όρου ΥΝ στη βιβλιογραφία χρησιμοποιείται ο όρος ευέλικτος
υπολογισμός (ΕυΥ) (soft computing (SC)).
Η ΥΝ αποτελεί πλέον βασικό μάθημα του προγράμματος σπουδών ολοένα και περισσότερων
τμημάτων Μηχανικών και Πληροφορικής ανά τον κόσμο. Ωστόσο, από την ΥΝ σήμερα απουσιάζει ένα
κοινώς αποδεκτό θεωρητικό υπόβαθρο για ανάλυση και σχεδίαση (Polycarpou, 2013). Επιπλέον, σύγχρονες
τεχνολογικές προκλήσεις έχουν εμφανιστεί όπως, για παράδειγμα, ο χειρισμός τεράστιων δεδομένων (big
data), όπου η ΥΝ καλείται να προτείνει λύσεις. Αυτό το βιβλίο, πέρα από την εισαγωγή σε έναν αριθμό
μεθοδολογιών ΥΝ, προτείνει ένα ενοποιητικό θεωρητικό υπόβαθρο στην ΥΝ (Kaburlasos & Papakostas,
2015). Στο προαναφερθέν πλαίσιο, επίσης, προτείνεται η αντιμετώπιση σύγχρονων τεχνολογικών
προκλήσεων.
Είναι ενδιαφέρον να αναφερθούμε στη σχέση της ΥΝ με την (κλασική) τεχνητή νοημοσύνη (ΤΝ)
(artificial intelligence (AI)) (Βλαχάβας κ.ά., 2006· Russell & Norvig, 2005), η ιστορία της οποίας
χαρακτηρίζεται από περιόδους υψηλών προσδοκιών ακολουθούμενες από περιόδους στασιμότητας. Έχει
υποστηριχτεί ότι αν ο John McCarthy, ο επονομαζόμενος «πατέρας της ΤΝ», έπρεπε να προτείνει ένα νέο
όνομα για την ΤΝ σήμερα, κατά πάσα πιθανότητα θα πρότεινε τον όρο Υπολογιστική Νοημοσύνη (Andresen,
2002). Ωστόσο, στο πλαίσιο αυτού του βιβλίου διαφοροποιούμε την ΥΝ από την ΤΝ ως εξής. Η ΥΝ, σε
τελική ανάλυση, βασίζεται στην επεξεργασία αριθμών. Συγκεκριμένα, μια μεθοδολογία ΥΝ μπορεί να
λαμβάνει αριθμητικά δεδομένα από ένα ή περισσότερα ηλεκτρονικά όργανα μέτρησης, ενώ όταν θεωρούνται
μη-αριθμητικά δεδομένα, η επεξεργασία τους στα πλαίσια της ΥΝ τελικά ανάγεται στην επεξεργασία
αριθμών. Αντιθέτως, η ΤΝ βασίζεται στην επεξεργασία συμβόλων.
Μια κλασική μεθοδολογία ΥΝ τυπικά προσομοιώνει παραμετρικά κάποια λειτουργία ενός βιολογικού
οργάνου /οργανισμού. Για παράδειγμα, τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ) (artificial neural network
(ANN)), μια κλασική μεθοδολογία ΥΝ, προσομοιώνουν τη λειτουργία του εγκεφάλου. Μια άλλη τέτοια
μεθοδολογία, τα ασαφή συστήματα (ΑΣ) (fuzzy systems (FSs)), προσομοιώνει τη λειτουργία της
ομιλούμενης γλώσσας. Ο εξελικτικός υπολογισμός (ΕΥ) (evolutionary computation (EC)), μια περαιτέρω
μεθοδολογία ΥΝ, προσομοιώνει τη διαδικασία της φυσικής (δαρβινικής) επιλογής. Οι προαναφερθείσες τρεις
μεθοδολογίες αποτελούν το περιεχόμενο της κλασικής ΥΝ (classic CI).
Από το συνδυασμό μεθοδολογιών της κλασικής ΥΝ, ή/και την επιλεκτική αντικατάστασή τους,
προέκυψαν εναλλακτικές μεθοδολογίες ΥΝ, οι οποίες στο πλαίσιο αυτού του βιβλίου, αποτελούν το
περιεχόμενο της διευρυμένης ΥΝ (enhanced CI). Παραδείγματα τέτοιων μεθοδολογιών αποτελούν τα
νευρο-ασαφή συστήματα, τα δίκτυα ακτινωτής βάσης, οι μηχανές διανυσμάτων στήριξης, οι γνωσιακοί
χάρτες κ.λπ. Κάποιες φορές, η (διευρυμένη) ΥΝ παρουσιάζεται ως συλλογή υπολογιστικών αλγόριθμων,
χωρίς να είναι προφανής κάποια ουσιαστική σχέση μεταξύ αυτών των αλγόριθμων. Στο Μέρος-ΙΙΙ αυτού του
βιβλίου, στη βάση ενοποιητικών μαθηματικών αποτελεσμάτων, εξηγείται με ποια έννοια υπολογιστικοί
αλγόριθμοι μπορεί να ενταχθούν στο πλαίσιο της ΥΝ.
Η έννοια της συνάρτησης (function) είναι θεμελιώδους σημασίας (για τον ακριβή ορισμό βλέπε στο
Παράρτημα του κεφαλαίου 7). Το πρακτικό πλεονέκτημα της συνάρτησης είναι ότι μπορεί να υλοποιηθεί
στην πράξη. Συγκεκριμένα, ένα δεδομένο εισόδου συστήματος που υλοποιεί μια συνάρτηση απεικονίζεται σε
ένα και μόνο ένα δεδομένο εξόδου. Στο πλαίσιο αυτού του βιβλίου θα αναφερόμαστε σε μια συνάρτηση με
τον εναλλακτικό όρο μοντέλο (model). Τυπικό στόχο ενός αλγόριθμου ΥΝ αποτελεί η εκτίμηση μιας
συνάρτησης f: RNT, όπου το πεδίο ορισμού R είναι το σύνολο των πραγματικών αριθμών, ενώ το πεδίο

0-1
τιμών T μπορεί να είναι είτε T= RΜ (σε προβλήματα παλινδρόμησης), είτε ένα σύνολο από ετικέτες (σε
προβλήματα αναγνώρισης) (Kaburlasos & Kehagias, 2014), όπως εξηγείται στη συνέχεια.
Δοθέντος ενός συνόλου ζευγών (x1,f(x1)),…,(xn,f(xn)), ο σκοπός ενός τυπικού μοντέλου ΥΝ είναι να
υπολογίσει μια βέλτιστη προσέγγιση fˆ : RNT της συνάρτησης f: RNT, ώστε για x0RN, με x0≠xi,
i{1,…,n}, το εκτιμώμενο fˆ ( x0 ) να είναι όσο το δυνατόν πιο «κοντά», υπό κάποια έννοια, στο πραγματικό
f(x0). Η διαδικασία υπολογισμού της συνάρτησης fˆ : RNT από το σύνολο των ζευγών (x1,f(x1)),…,(xn,f(xn))
στο πλαίσιο της ΥΝ καλείται μάθηση (learning) ή, ισοδύναμα, εκπαίδευση, ενώ η διαδικασία υπολογισμού
της τιμής fˆ ( x0 ) , για x0≠xi, i{1,…,n}, καλείται γενίκευση (generalization). Βασικός στόχος κάθε
διαδικασίας μάθησης στην ΥΝ είναι μια αποδεκτή ικανότητα γενίκευσης.
Οι εφαρμογές ΥΝ γενικά εμπίπτουν σε μια από τις ακόλουθες τρεις κατηγορίες: (α) ομαδοποίηση
(clustering), όπου το μοντέλο ΥΝ εκπαιδεύεται για να υπολογίζει σμήνη (clusters) σε δεδομένα x1,…,xn
χωρίς να δίνονται τιμές f(x1),…,f(xn), (β) κατηγοριοποίηση (classification), όπου ένα μοντέλο fˆ : RNT
υπολογίζεται για αναγνώριση προτύπων (pattern recognition), δηλ. T είναι ένα σύνολο από ετικέτες, και
(γ) παλινδρόμηση (στατιστική) (regression (statistical)), όπου ένα μοντέλο ΥΝ fˆ : RNRM υπολογίζεται
για πρόβλεψη.
Τα πρώτα ελληνόγλωσσα βιβλία πάνω στην ΥΝ δημοσιεύτηκαν τις δεκαετίες 1990 και 2000, π.χ.
Διαμαντάρας (2007) και Κινγκ (1998), ωστόσο κατά κανόνα, εστίαζαν σε συγκεκριμένες τεχνολογίες ΥΝ
ή/και σε συγκεκριμένα πεδία εφαρμογής. Για παράδειγμα, το βιβλίο (Διαμαντάρας, 2007) δίνει έμφαση σε
τεχνολογίες τεχνητών νευρωνικών δικτύων σε εφαρμογές επεξεργασίας σήματος, ενώ το βιβλίο (Κινγκ, 1998)
δίνει έμφαση σε τεχνολογίες ασαφών συστημάτων σε εφαρμογές αυτόματου ελέγχου. Μεταγενέστερα βιβλία
ΥΝ στην Ελληνική γλώσσα καταπιάστηκαν πιο «ολιστικά» με την ΥΝ, υπό την έννοια ότι παρουσίασαν
ποικίλες τεχνολογίες ΥΝ (Μπούταλης & Συρακούλης, 2010· Τζαφέστας, 2008), με έμφαση κυρίως σε
τεχνολογίες της κλασικής ΥΝ.
Η ΥΝ σήμερα χαρακτηρίζεται από έλλειμμα μιας ολιστικής θεωρητικής αντίληψης για ανάλυση και
σχεδίαση που να στηρίζουν την παρουσίασή της ως μια διακριτή επιστημονική περιοχή. Ένα επιπλέον
έλλειμμα περιγράφεται στη συνέχεια, αφού θεωρήσουμε τους ακόλουθους ορισμούς: α) δεδομένα (data)
είναι μια τυποποιημένη αναπαράσταση γεγονότων, την οποία μπορούμε να μεταδώσουμε /επεξεργαστούμε,
β) πληροφορία (information) είναι η σημασία που ένας άνθρωπος δίνει στα δεδομένα, και γ) γνώση
(knowledge) είναι η πιστοποιημένη πληροφορία. Μια μεθοδολογία ΥΝ μπορεί τυπικά να επεξεργάζεται
δεδομένα, αλλά όχι τη σημασία των δεδομένων. Χαρακτηριστικό είναι το παράδειγμα των κλασικών
τεχνητών νευρωνικών δικτύων, τα οποία λειτουργούν ως «μαύρα κουτιά» που κάνουν άλεσμα αριθμών
(number crunching) χωρίς να έχουν βαθύτερη γνώση των δεδομένων που επεξεργάζονται, αλλά και χωρίς
να μπορούν να εξηγήσουν τις απαντήσεις τους. Η προσέγγιση της ΥΝ που περιγράφεται σ’ αυτό το βιβλίο
(βλ. Μέρος-ΙΙΙ) προτείνει λύσεις στα προαναφερθέντα ελλείμματα στη βάση του ερευνητικού έργου των
συγγραφέων. Υπό αυτήν την έννοια, το παρόν βιβλίο αποτελεί μια συνεισφορά στην ελληνική γλώσσα σε
εκπαίδευση που κατευθύνεται από έρευνα (research driven education).
Αυτό το βιβλίο χωρίζεται σε τρία μέρη. Στο Μέρος-Ι παρουσιάζονται οι τρεις κλασικές μεθοδολογίες
της ΥΝ. Συγκεκριμένα, στο κεφάλαιο 1 παρουσιάζονται πρώτα βασικές έννοιες νευρωνικού υπολογισμού και
στη συνέχεια δημοφιλείς αρχιτεκτονικές ΤΝΔ. Σημειώστε ότι μια αρχιτεκτονική ΤΝΔ υλοποιεί παράλληλη
και κατανεμημένη επεξεργασία δεδομένων με ικανότητες μάθησης, καθώς και γενίκευσης. Στο κεφάλαιο 2
παρουσιάζονται πρώτα βασικές έννοιες ασαφών συνόλων και ασαφούς λογικής και στη συνέχεια δημοφιλή
ΑΣ. Σημειώστε ότι τα ΑΣ επιτρέπουν τη μοντελοποίηση της ομιλούμενης γλώσσας με αναπαράσταση της
ασάφειας των λέξεων. Στο κεφάλαιο 3 παρουσιάζονται πρώτα βασικές έννοιες του ΕΥ και στη συνέχεια
δημοφιλείς τεχνικές ΕΥ. Σημειώστε ότι ο ΕΥ αποτελεί δημοφιλή τεχνική στοχαστικής βελτιστοποίησης που
τυπικά χρησιμοποιεί πληθυσμούς συνεργαζόμενων ατόμων.
Στο Μέρος-ΙΙ παρουσιάζονται επιλεγμένες μεθοδολογίες της διευρυμένης ΥΝ. Συγκεκριμένα, στο
κεφάλαιο 4 παρουσιάζονται επεκτάσεις ή/και συνέργειες μεθοδολογιών της κλασικής ΥΝ. Οι προτεινόμενες
στο κεφάλαιο 4 μεθοδολογίες μπορούν να επεξεργάζονται αναπαραστάσεις της ασάφειας χρησιμοποιώντας
παράλληλες ή/και κατανεμημένες αρχιτεκτονικές, ενώ μεθοδολογίες εξελικτικού υπολογισμού
χρησιμοποιούνται για βελτιστοποίηση. Στο κεφάλαιο 5 παρουσιάζονται μεθοδολογίες που βασίζονται στη
στατιστική και στη θεωρία πιθανοτήτων ή/και δυνατοτήτων. Σημειώστε ότι οι προαναφερθείσες μεθοδολογίες
επιτρέπουν το χειρισμό μη-αριθμητικών δεδομένων. Στο κεφάλαιο 6 παρουσιάζονται μεθοδολογίες που

0-2
χρησιμοποιούν γράφους, οι οποίοι είναι ένα ακόμη παράδειγμα μη-αριθμητικών δεδομένων με ικανότητα
αναπαράστασης μαθηματικών σχέσεων. Σημειώστε ότι οι μεθοδολογίες ΥΝ που παρουσιάζονται στο Μέρος-
ΙΙ είναι ενδεικτικές, καθώς υπάρχει πλήθος μεθοδολογιών που δημοσιεύονται τακτικά στη βιβλιογραφία.
Στο Μέρος-ΙΙΙ σκιαγραφείται η θεωρία διάταξης ή, εναλλακτικά, θεωρία πλεγμάτων (order theory
ή, εναλλακτικά, lattice theory), η οποία ιστορικά επινοήθηκε για μοντελοποίηση της λογικής, και προτείνεται
μια ενοποίηση ανόμοιων τύπων δεδομένων στη βάση της θεωρίας διάταξης με στόχο μια ολιστική
παρουσίαση της ΥΝ. Στο ίδιο θεωρητικό πλαίσιο προτείνεται επεξεργασία της σημασιολογίας καθώς και της
γνώσης. Συγκεκριμένα, στο κεφάλαιο 7 παρουσιάζονται βασικές έννοιες της θεωρίας διάταξης και στη
συνέχεια σκιαγραφούνται οι προοπτικές τους για ανάλυση και σχεδίαση στην ΥΝ. Σημειώστε ότι το
μαθηματικό περιεχόμενο αυτού του κεφαλαίου παρουσιάζεται απλοποιημένο για διδακτικούς λόγους. Στο
κεφάλαιο 8 παρουσιάζονται τρεις δημοφιλείς υπολογιστικές μεθοδολογίες από τη βιβλιογραφία, οι οποίες
βασίζονται στη θεωρίας διάταξης, σε συγκεκριμένα πεδία της πληροφορικής, τα οποία περιλαμβάνουν
επεξεργασία σημάτων, βάσεις δεδομένων και συλλογιστική. Στο κεφάλαιο 9 μελετώνται οι αριθμοί
διαστημάτων (ΑΔ) (intervals’ number (INs)) και δείχνονται τρόποι γενίκευσης, καθώς και βελτίωσης
δημοφιλών μεθοδολογιών ΥΝ στη βάση των ΑΔ.
Η βιβλιογραφία παρουσιάζεται ανά κεφάλαιο με περιορισμένες επικαλύψεις. Τα τρία Παραρτήματα
πραγματεύονται ειδικά θέματα. Συγκεκριμένα, το Παράρτημα Α περιλαμβάνει έναν οδηγό χρήσης της
πλατφόρμας MATLAB και, επιπλέον, περιλαμβάνει υπολογιστικά παραδείγματα· το Παράρτημα Β
παρουσιάζει διάφορες στατιστικές τεχνικές αξιολόγησης μοντέλων ΥΝ· το Παράρτημα Γ σκιαγραφεί
εφαρμογές της ΥΝ. Ένας κατάλογος με ακρωνύμια έπεται του πίνακα περιεχομένων στην αρχή του βιβλίου.
Στο τέλος αυτού του βιβλίου παρουσιάζονται δύο κατάλογοι: ο πρώτος είναι ένα ευρετήριο όρων και ο
δεύτερος είναι ένα γλωσσάρι ελληνικών όρων με τους αντίστοιχους αγγλικούς.

Καβάλα, 2015
Οι συγγραφείς,
Βασίλειος Καμπουρλάζος
Γεώργιος Παπακώστας

Βιβλιογραφία

Andresen, S.L. (2002). John McCarthy: Father of AI. IEEE Intel Syst, 17(5), 84-85.
Βλαχάβας, Ι., Κεφαλάς, Π., Βασιλειάδης, Ν., Κόκκορας, Φ. & Σακελλαρίου, Η. (2006). Τεχνητή Νοημοσύνη
(3η εκδ.). Αθήνα, Ελλάς: Β. Γκιούρδας.
Διαμαντάρας, Κ. (2007). Τεχνητά Νευρωνικά Δίκτυα. Αθήνα, Ελλάς: Κλειδάριθμος.
Kaburlasos, V.G. & Kehagias, A. (2014). Fuzzy inference system (FIS) extensions based on lattice theory.
IEEE Transactions on Fuzzy Systems, 22(3) 531-546.
Kaburlasos, V.G. & Papakostas, G.A. (2015). Learning distributions of image features by interactive fuzzy
lattice reasoning (FLR) in pattern recognition applications. IEEE Computational Intelligence Magazine,
10(3), 42-51.
Κινγκ, Ρ.-Ε. (1998). Υπολογιστική Νοημοσύνη στον Έλεγχο Συστημάτων. Αθήνα, Ελλάς: Τραυλός.
Μπούταλης, Ι. & Συρακούλης, Γ. (2010). Υπολογιστική Νοημοσύνη και Εφαρμογές. Ξάνθη, Ελλάς: Εκδότες οι
συγγραφείς.
Polycarpou, M.M. (2013). Computational intelligence in the undergraduate curriculum. IEEE Computational
Intelligence Magazine, 8(2) 3.
Russell, S. & Norvig, P. (2005). Τεχνητή Νοημοσύνη: Μια Σύγχρονη Προσέγγιση (2η εκδ.) (Γ. Ρεφανίδης,
Μτφρ). Αθήνα, Ελλάς: Κλειδάριθμος.
Τζαφέστας, Σ.Γ. (2008). Υπολογιστική Νοημοσύνη: Τόμος Α – Μεθοδολογίες. Αθήνα, Ελλάς: Εκδότης ο
Συγγραφέας.

0-3
Μέρος-Ι: Κλασική Υπολογιστική Νοημοσύνη
Εισαγωγή στο Μέρος-Ι
Οι καινοτόμες μεθοδολογίες στην ΥΝ είναι λίγες και χαρακτηρίζονται από ουσιαστικά διαφορετικές
μαθηματικές περιγραφές. Η επιδίωξη μεθοδολογιών ΥΝ να προσεγγίζουν συναρτήσεις έχει
αναγνωριστεί (Castro & Delgado, 1996· Gori κ.ά., 1998· Hornik κ.ά., 1989· Kaburlasos & Kehagias,
2014· Kosko, 1994· Nauck & Kruse· 1999, Zeng & Singh, 1996). Το Μέρος-Ι αυτού του βιβλίου
παρουσιάζει τρεις καινοτόμες μεθοδολογίες, οι οποίες αποτελούν τον πυρήνα της κλασικής ΥΝ και
περιλαμβάνουν τα ΤΝΔ, τα ΑΣ και τον ΕΥ.

Βιβλιογραφία
Castro, J.L. & Delgado, M. (1996). Fuzzy systems with defuzzification are universal approximators.
IEEE Transactions on Systems, Man, Cybernetics – B, 26(1), 149-152.
Gori, M., Scarselli, F. & Tsoi, A.C. (1998). On the closure of the set of functions that can be realized
by a given multilayer perceptron. IEEE Transactions on Neural Networks, 9(6), 1086-1098.
Hornik, K., Stinchcombe, M. & White, H. (1989). Multilayer feedforward networks are universal
approximators. Neural Networks, 2(5), 359-366.
Kaburlasos, V.G. & Kehagias, A. (2014). Fuzzy inference system (FIS) extensions based on lattice
theory. IEEE Transactions on Fuzzy Systems, 22(3), 531-546.
Kosko, B. (1994). Fuzzy systems as universal approximators. IEEE Transactions on Computers, 43(11),
1329-1333.
Nauck, D. & Kruse, R. (1999). Neuro-fuzzy systems for function approximation. Fuzzy Sets and
Systems, 101(2), 261-271.
Zeng, X.J. & Singh, M.G. (1996). Approximation accuracy analysis of fuzzy systems as function
approximators. IEEE Transactions on Fuzzy Systems, 4(1), 44-63.

I-2
Κεφάλαιο 1: Τεχνητά Νευρωνικά Δίκτυα
Ένας ηλεκτρονικός υπολογιστής (Η/Υ) τύπου von Neumann είναι πολύ πιο γρήγορος και πιο ακριβής από
έναν άνθρωπο στους αριθμητικούς υπολογισμούς. Επίσης, ένας Η/Υ μπορεί να αποθηκεύει αξιόπιστα
τεράστιο όγκο δεδομένων. Ωστόσο, ο άνθρωπος είναι ασύγκριτα πιο αποτελεσματικός σε ορισμένα
προβλήματα, όπως η αναγνώριση αντικειμένων /καταστάσεων, καθώς και οι συσχετίσεις αυτών. Επίσης, ο
άνθρωπος μπορεί να μαθαίνει εμπειρικά, ενώ ένας Η/Υ θα πρέπει να προγραμματιστεί.
Οι προαναφερθείσες διαφορές στις δεξιότητες ανθρώπου και Η/Υ κατά γενική πεποίθηση οφείλονται
στη διαφορετική αρχιτεκτονική του Η/Υ και του ανθρώπινου εγκέφαλου. Συγκεκριμένα, από τη μια μεριά, ο
Η/Υ έχει λίγες αλλά πολύπλοκες μονάδες επεξεργασίας πληροφοριών. Από την άλλη μεριά, ο ανθρώπινος
εγκέφαλος αποτελείται από πολλά δισεκατομμύρια (>109) απλές μονάδες επεξεργασίας πληροφοριών (βλ.
νευρικά κύτταρα) που ονομάζονται νευρώνες. Κάθε νευρώνας (neuron) μπορεί να επικοινωνεί με χιλιάδες
άλλους μέσω αποφυάδων που ονομάζονται δενδρίτες, μεγάλο μέρος της επιφάνειας των οποίων καλύπτεται
από τα συναπτικά άκρα αποφυάδων άλλων νευρώνων. Κατά τη λειτουργία του εγκεφάλου ηλεκτρική
διέγερση ενός νευρώνα μπορεί να μεταφερθεί προς κάθε νευρώνα με τον οποίο αυτός είναι διασυνδεδεμένος.
Έτσι, λειτουργεί ο ανθρώπινος εγκέφαλος εκτελώντας, μαζικά, μια παράλληλη και κατανεμημένη
επεξεργασία ηλεκτρικών σημάτων.
Η λειτουργία του νευρικού συστήματος, συμπεριλαμβανομένου του εγκέφαλου, μελετήθηκε ήδη από
τις αρχές του 20ου αιώνα. Ιδιαίτερο ενδιαφέρον εδώ έχουν οι μελέτες εκείνες που ποσοτικοποιούν τη
λειτουργία του νευρικού συστήματος. Για παράδειγμα, ο ψυχολόγος Hebb το 1949 παρατήρησε ότι όταν δύο
διασυνδεδεμένοι νευρώνες διεγείρονται ταυτόχρονα, τότε αυξάνει η δύναμη της μεταξύ τους διασύνδεσης
(Hebb, 1949). Η προαναφερθείσα αύξηση είναι γνωστή στη βιβλιογραφία ως μάθηση κατά Hebb (Hebbian
learning).
Στις μαθηματικές περιγραφές που ακολουθούν τα διανύσματα συμβολίζονται με έντονα μικρά
γράμματα, οι πίνακες συμβολίζονται με κεφαλαία γράμματα, ενώ ο εκθέτης “T” δείχνει τον ανάστροφο
(transpose) ενός διανύσματος ή πίνακα.

1.1 Βασικές Έννοιες Νευρωνικού Υπολογισμού


Όπως εξηγήθηκε στην εισαγωγή του βιβλίου, ένα ΤΝΔ υλοποιεί μια συνάρτηση f: RNT χρησιμοποιώντας
αρχιτεκτονική παρόμοια με την αρχιτεκτονική του (ανθρώπινου) εγκέφαλου. Μια συγκεκριμένη
αρχιτεκτονική ΤΝΔ τυπικά αναλύεται και σχεδιάζεται όπως περιγράφεται στη συνέχεια.
Το Σχήμα 1.1 παρουσιάζει το μοντέλο ενός τεχνητού νευρώνα, η λειτουργία του οποίου περιγράφεται
με τις ακόλουθες απλοποιητικές παραδοχές. Οι αριθμητικές είσοδοι x1,…,xn του τεχνητού νευρώνα
πολλαπλασιάζονται με τα βάρη w1,…,wn αντίστοιχα και στη συνέχεια αθροίζονται στη συσκευή του αθροιστή
(). Μια επιπλέον είσοδος του αθροιστή  είναι σταθερή, δηλ. xn+1= 1, και πολλαπλασιάζεται με τη σταθερά
πόλωσης (bias) β, η οποία αποτελεί το n+1 βάρος του τεχνητού νευρώνα, δηλ. wn+1= β. Συνεπώς, η έξοδος
n n 1
(σ) του αθροιστή υπολογίζεται ως εξής:    wi xi     wi xi  w T x , όπου wΤx παριστάνει το
i 1 i 1
εσωτερικό γινόμενο του διανύσματος x = (x1,…,xn,1)Τ εισόδου του τεχνητού νευρώνα επί το διάνυσμα w =
(w1,…,wn,wn+1)Τ των βαρών.
Το σταθμισμένο (γραμμικό) άθροισμα σ των εισόδων του τεχνητού νευρώνα στη συνέχεια οδηγείται
σε ένα (μη-γραμμικό) στοιχείο παραμόρφωσης f(σ), που ονομάζεται συνάρτηση μεταφοράς (transfer
function), όπως φαίνεται στο Σχήμα 1.1. Μερικές από τις συναρτήσεις μεταφοράς f(σ) που έχουν προταθεί
στη βιβλιογραφία παρουσιάζονται στη συνέχεια.
(α) Γραμμική συνάρτηση μεταφοράς: f(σ) = σ,
 ,   0
(β) Συνάρτηση μεταφοράς τύπου Perceptron: f ( )   ,
0  0

1,   T
(γ) Δυαδική (δίτιμη) συνάρτηση μεταφοράς με κατώφλι T: f ( )   ,
0   T

1-1
1
(δ) Σιγμοειδής (ή, Λογιστική) συνάρτηση μεταφοράς: f ( )  , και
1  e
1  e
(ε) Συνάρτηση μεταφοράς τύπου υπερβολικής εφαπτομένης: f ( )  .
1  e

x1 w1

x2 w2

 f() u
 
 
 

xn wn

xn+1= 1

Σχήμα 1.1 Μοντέλο Τεχνητού Νευρώνα.

Μια άλλη απλοποιητική παραδοχή αφορά τον τρόπο με τον οποίο διασυνδέονται οι νευρώνες ενός
ΤΝΔ. Συγκεκριμένα, θεωρούμε ότι οι νευρώνες ενός ΤΝΔ διατάσσονται σε διαδοχικά στρώματα τα οποία
αλληλοσυνδέονται πλήρως όπως φαίνεται στο Σχήμα 1.2, όπου απεικονίζεται ένα προσωτροφοδοτούμενο
ΤΝΔ (feedforward ANN) τριών στρωμάτων νευρώνων με την πληροφορία (βλ. αριθμούς) να μεταδίδεται
από τα χαμηλότερα προς τα υψηλότερα στρώματα. Προσέξτε ότι ένας νευρώνας σε κάθε στρώμα είναι
πλήρως διασυνδεδεμένος υπό την έννοια ότι διασυνδέεται μέσω κάποιου κατευθυνόμενου σύνδεσμου
(directed connection) με κάθε νευρώνα του επόμενου στρώματος (αν υπάρχει τέτοιο στρώμα), αλλά και με
κάθε νευρώνα του αμέσως προηγούμενου στρώματος (αν υπάρχει τέτοιο στρώμα). Σημειώστε ότι κανένας
νευρώνας του στρώματος εισόδου δεν έχει συνάρτηση μεταφοράς, ενώ κάθε άλλος νευρώνας έχει συνάρτηση
μεταφοράς. Τυπικά, θεωρούμε την ίδια συνάρτηση μεταφοράς για όλους τους νευρώνες. Όμως, διαφορετικές
συναρτήσεις μεταφοράς θα μπορούσαν να θεωρηθούν για διαφορετικούς νευρώνες.

1-2
opj

 j  Στρώμα εξόδου

wji

 i  j  Κρυμμένο στρώμα

wji

 i  Στρώμα εισόδου

xpi

Σχήμα 1.2 Προσωτροφοδοτούμενο ΤΝΔ τριών στρωμάτων νευρώνων. Η είσοδος που είναι το διάνυσμα αριθμών xp
μεταδίδεται από τα χαμηλότερα προς τα υψηλότερα στρώματα κατά τη φορά που δείχνουν τα βέλη. Στο στρώμα εξόδου
υπολογίζεται το διάνυσμα αριθμών op. Με διακεκομμένη γραμμή wji σημειώνεται το βάρος του κατευθυνόμενου συνδέσμου
wji που καταλήγει στο νευρώνα “j” ξεκινώντας από το νευρώνα “i” του προηγούμενου στρώματος.

Η λεπτομερής υλοποίηση κάθε νευρώνα στο Σχήμα 1.2 είναι αυτή που φαίνεται στο Σχήμα 1.1. Ένας
νευρώνας, έστω “i”, του στρώματος εισόδου δεν κάνει κανέναν υπολογισμό, παρά μόνο προωθεί την
αντίστοιχη αριθμητική του είσοδο xpi (του διανύσματος xp εισόδου) προς κάθε νευρώνα του κρυμμένου
στρώματος. Σημειώστε ότι κάθε κατευθυνόμενος σύνδεσμος έχει ένα συγκεκριμένο βάρος (w). Μια σύμβαση
σχετικά με την ονοματολογία των βαρών ενός ΤΝΔ είναι η ακόλουθη. Γράφοντας wji εννοούμε το βάρος του
συνδέσμου που κατευθύνεται στο νευρώνα “j” ξεκινώντας από τον νευρώνα “i” του προηγούμενου
στρώματος, όπως φαίνεται στο Σχήμα 1.2.
Μάθηση ενός ΤΝΔ ονομάζεται η διαδικασία υπολογισμού των βαρών των συνδέσμων ενός ΤΝΔ.
Υπάρχουν δύο τύποι μάθησης ΤΝΔ που περιλαμβάνουν (α) Μάθηση με εποπτεία ή, εναλλακτικά, επίβλεψη
(supervision), η οποία τυπικά χρησιμοποιείται για κατηγοριοποίηση, και (β) Μάθηση χωρίς εποπτεία, η οποία
τυπικά χρησιμοποιείται για ομαδοποίηση. Συγκεκριμένα, από τη μία μεριά, στη μάθηση με εποπτεία το ΤΝΔ
μαθαίνει συγκεκριμένα ζεύγη διανυσμάτων (xi, ti), i{1,…,n} (εισόδου, εξόδου) υπό την εξής έννοια. Όταν
το διάνυσμα xi εφαρμοστεί στην είσοδο του εκπαιδευμένου ΤΝΔ, τότε υπολογίζεται το αντίστοιχο διάνυσμα
ti, i{1,…,n} στην έξοδο του ΤΝΔ. Ωστόσο συχνά δεν είναι δυνατή μια εκπαίδευση ΤΝΔ που να επιτρέπει
τον ακριβή υπολογισμό του προαναφερθέντος διανύσματος ti, στην έξοδο του ΤΝΔ. Οπότε, αντί του ακριβούς
υπολογισμού του διανύσματος ti, μεθοδεύσουμε μια εκπαίδευση ΤΝΔ τέτοια, ώστε να υπολογίζεται ένα
διάνυσμα οi το οποίο να αποτελεί μια βέλτιστη, συνήθως υπό την έννοια των ελαχίστων τετραγώνων, του
διανύσματος ti, i{1,…,n}. Από τη άλλη μεριά στη μάθηση χωρίς εποπτεία είναι διαθέσιμα τα διανύσματα xi,
i{1,…,n} για εκπαίδευση, αλλά δεν είναι διαθέσιμα τα διανύσματα ti, i{1,…,n}.

1-3
Πλεονεκτήματα των ΤΝΔ περιλαμβάνουν: (1) Μάθηση από εμπειρία (βλ. καταγεγραμμένα δεδομένα)
συναρτήσεων εισόδου-εξόδου. Συγκεκριμένα, η μάθηση των ΤΝΔ πραγματοποιείται με τη μεταβολή των
βαρών των συνδέσμων έτσι, ώστε να ελαχιστοποιείται ένα καλώς ορισμένο σφάλμα, (2) Προσέγγιση μη-
γραμμικών συναρτήσεων εισόδου-εξόδου, (3) Ανεκτικότητα σε βλάβες λόγω της παράλληλης δομής και
λειτουργίας τους, (4) Ικανότητα γενίκευσης και (5) Κατανεμημένη και παράλληλη τοπολογία.
Αν και ένα ΤΝΔ μπορεί να αποτελείται από περισσότερα από τρία στρώματα νευρώνων, έχει
αποδειχθεί ότι οποιαδήποτε συναρτησιακή σχέση μπορεί στην πράξη να υλοποιηθεί με ένα ΤΝΔ τριών
στρωμάτων. Συνεπώς, σε εφαρμογές προσέγγισης μιας συνάρτησης f: RNT τυπικά χρησιμοποιούνται ΤΝΔ
τριών στρωμάτων νευρώνων.
Θεωρήστε (α) ένα ΤΝΔ τριών στρωμάτων (Σχήμα 1.2) και (β) μια γραμμική συνάρτηση μεταφοράς
νευρώνων (Σχήμα 1.1), δηλ. f(σ) = σ. Έστω W1 ο πίνακας βαρών των συνδέσμων μεταξύ του στρώματος
εισόδου και του κρυμμένου στρώματος και έστω W2 ο πίνακας βαρών των συνδέσμων μεταξύ του κρυμμένου
στρώματος και του στρώματος εξόδου. Τότε το διάνυσμα h των εξόδων των νευρώνων του κρυμμένου
στρώματος υπολογίζεται ως h= W1x, ενώ το διάνυσμα o των εξόδων των νευρώνων του στρώματος εξόδου
υπολογίζεται ως o= W2h = W2W1x = Wx, όπου W= W2W1 και x είναι το διάνυσμα εισόδου του ΤΝΔ. Η
προηγούμενη ανάλυση μπορεί εύκολα να επεκταθεί σε περισσότερα από τρία στρώματα και δείχνει ότι, για
γραμμικές συναρτήσεις μεταφοράς νευρώνων, ένα ΤΝΔ πολλαπλών στρωμάτων είναι υπολογιστικά
ισοδύναμο με ένα ΤΝΔ δύο μόνον στρωμάτων. Στη συνέχεια εστιάζουμε στη μελέτη ενός ΤΝΔ δύο
στρωμάτων με γραμμικές συναρτήσεις μεταφοράς νευρώνων, το οποίο είναι γνωστό με το όνομα perceptron.

1.2 Γραμμικά ΤΝΔ Perceptrons και ο Κανόνας Δέλτα


Αυτή η ενότητα παρουσιάζει αναλυτικά μια από τις πλέον δημοφιλείς τεχνικές μάθησης ενός ΤΝΔ, η οποία
(τεχνική) είναι γνωστή στη βιβλιογραφία ως νόμος Widrow-Hoff ή, αλλιώς, ως κανόνας Δέλτα (Delta rule).
Θεωρήστε ζεύγη (ip, tp), p{1,…,n} διανυσμάτων “(εισόδου, εξόδου)” προς μάθηση από ένα ΤΝΔ
δύο στρωμάτων με γραμμικές συναρτήσεις μεταφοράς νευρώνων. Έστω ότι το σύμβολο tpj δηλώνει την τιμή
του jστου στοιχείου του επιθυμητού διανύσματος εξόδου tp, ενώ το σύμβολο ipi δηλώνει την τιμή του iστου
στοιχείου του διανύσματος εισόδου ip.
Ο κανόνας Δέλτα υλοποιείται με το γινόμενο tpjipi των ερεθισμάτων tpj και ipi που διεγείρουν τους δύο
νευρώνες, αντίστοιχα, οι οποίοι ενώνονται με σύνδεσμο βάρους wji. Ο κανόνας Δέλτα μεταβάλει ένα βάρος
wji κατά ποσότητα ανάλογη με το γινόμενο tpj επί ipi, δηλαδή:

Δpwji = tpjipi

Η μεταβολή ολόκληρου του πίνακα βαρών W, η οποία οφείλεται στην εφαρμογή του ζεύγους
διανυσμάτων (ip,tp) σύμφωνα με τον κανόνα Δέλτα περιγράφεται από την ακόλουθη εξίσωση:

ΔpW = tpipT

Θεωρώντας W(αρχικό)=0, μετά την παρουσίαση όλων των ζευγών (ip,tp), p{1,…,n} προκύπτει ο
ακόλουθος πίνακας βαρών
n
W   t p i Tp
p 1

Μια δημοφιλής απλοποιητική παραδοχή είναι ότι τα διανύσματα εισόδου ip, p{1,…,n} είναι
ορθοκανονικά, εννοώντας ότι το εσωτερικό γινόμενο ipiq ισούται με 0 όταν pq, ενώ ισούται με 1 όταν p=q.
Με άλλα λόγια, το κάθε ένα από τα προαναφερθέντα (ορθοκανονικά) διανύσματα έχει μήκος ίσο με τη
μονάδα και, επιπλέον, τα (ορθοκανονικά) διανύσματα είναι κάθετα μεταξύ τους ανά δύο. Η σημασία των
ορθοκανονικών διανυσμάτων δείχνεται με την ακόλουθη εξίσωση
 n 
Wi k    t p i Tp   i k  t k
 p 1 

1-4
Η παραπάνω εξίσωση δείχνει ότι το ΤΝΔ έχει αποστηθίσει τα ζεύγη διανυσμάτων (ip,tp), p{1,…,n}
με τα οποία εκπαιδεύτηκε έτσι, ώστε όταν εφαρμόζουμε ένα διάνυσμα ip, p{1,…,n} στην είσοδο του
εκπαιδευμένου ΤΝΔ, τότε στην έξοδο του ΤΝΔ υπολογίζεται το διάνυσμα tp, p{1,…,n}.
Δυστυχώς, δεν μπορούμε πάντοτε να έχουμε ορθογώνια διανύσματα εισόδου ip, p{1,…,n}.
Ευτυχώς, όμως, ο κανόνας Δέλτα εγγυάται την ακριβή μάθηση ζευγών διανυσμάτων (ip,tp), p{1,…,n} αρκεί
τα διανύσματα εισόδου ip να είναι γραμμικώς ανεξάρτητα μεταξύ τους. Ενώ, για μη-γραμμικώς ανεξάρτητα
διανύσματα εισόδου ip, p{1,…,n} ο κανόνας Δέλτα εγγυάται τον υπολογισμό βέλτιστων, υπό την έννοια
των ελαχίστων τετραγώνων, βαρών του πίνακα W, όταν αυτά τα βάρη υπολογίζονται με την εξίσωση

W(n )  W( n  1)  (n )i T (n ) , (1.1)

όπου W(n) είναι ο πίνακας των βαρών κατά την παρουσίαση του nστου διανύσματος εισόδου i(n),  είναι μια
(μικρή) σταθερά που αντιστοιχεί στο ρυθμό μάθησης (learning rate), και (n) = t(n) - o(n) = t(n)-W(n-1)i(n)
είναι η διαφορά μεταξύ του επιθυμητού διανύσματος εξόδου t(n) και του πραγματικού διανύσματος εξόδου
o(n) = W(n-1)i(n) κατά την παρουσίαση του i(n).
Μέχρι εδώ έχουμε μελετήσει τον κανόνα Δέλτα σε επίπεδο αναπαράστασης νευρώνων (neuron
representation), όπου η αναπαράσταση νευρώνων ερμηνεύει το διάνυσμα των τιμών διέγερσης ενός
στρώματος νευρώνων ως ξεχωριστές οντότητες (διεγέρσεις). Στη συνέχεια μελετούμε τη μορφή του κανόνα
Δέλτα σε επίπεδο αναπαράστασης προτύπων (pattern representation), όπου η αναπαράσταση προτύπων
ερμηνεύει το διάνυσμα των τιμών διέγερσης ενός στρώματος νευρώνων ως μια οντότητα (έννοια). Με όρους
γραμμικής άλγεβρας, οι προαναφερθείσες δύο αναπαραστάσεις (δηλ. νευρώνων και προτύπων) συσχετίζονται
με ένα γραμμικό μετασχηματισμό. Στη συνέχεια, δείχνουμε ότι στο πεδίο αναπαράστασης προτύπων
προκύπτει ένας παρόμοιος κανόνας Δέλτα όπως και στο πεδίο αναπαράστασης νευρώνων, όπου το μόνο που
έχει σημασία είναι ο συσχετισμός μεταξύ διανυσμάτων εισόδου και όχι τα διανύσματα καθαυτά.
Συγκεκριμένα, έστω PI ο πίνακας που μετασχηματίζει γραμμικά ένα διάνυσμα εισόδου i από την
αναπαράσταση νευρώνων στο διάνυσμα i*  PI i στην αναπαράσταση προτύπων και, παρόμοια, έστω PΤ ο
πίνακας που μετασχηματίζει γραμμικά ένα επιθυμητό διάνυσμα εξόδου t στο διάνυσμα t*  PT t . Σημειώστε
ότι ένα διάνυσμα o, το οποίο υπολογίζεται στην έξοδο, ανήκει στον ίδιο χώρο με ένα επιθυμητό διάνυσμα
εξόδου, συνεπώς το διάνυσμα o μετασχηματίζεται στο διάνυσμα o*  PTo . Στη συνέχεια υπολογίζουμε το
μετασχηματισμό του πίνακα W των βαρών.
Για διάνυσμα εισόδου i, το αντίστοιχο διάνυσμα εξόδου o υπολογίζεται ως o = Wi. Επειδή
εμπλέκονται μόνο γραμμικοί μετασχηματισμοί, συμπεραίνουμε ότι ένας γραμμικός μετασχηματισμός W*
συνδέει τη μετασχηματισμένη είσοδο i* με τη μετασχηματισμένη έξοδο o*. Συγκεκριμένα, o* = W*i*, όπου
o*  PT o και i*  PI i . Συνεπώς, o* = W*i*  PT o = W*PI i  o = PT1W*PI i = Wi  PT1W*PI = W 
W* = PT WPI1 .
Στη συνέχεια μετασχηματίζουμε την Εξ.(1.1) πολλαπλασιάζοντας το κάθε μέλος της από αριστερά
και από δεξιά με τους πίνακες PT και PI1 , αντίστοιχα. Προκύπτει:

PT WPI1(n )  PT WPI1(n  1)  PT(n )i T (n )PI1 ,

όπου

(n )  t(n )  W(n  1)i(n )  PT (n )  PT t(n )  PT W(n  1)i(n ) =

= t* (n )  PT W( n  1)PT1i* ( n ) = t* (n )  W* (n  1)i* (n ) = t* ( n )  o* ( n ) =  ( n ) .

Συνεπώς:

1-5
W* (n) = W* ( n  1)    PT (n ) i T (n )PI1 = W* ( n  1)  * ( n ) i( n ) PI1 =
T

 
= W* ( n  1)  * ( n )  PI1i* ( n ) PI1 = W* ( n  1)  * ( n ) i* ( n )  PI1 PI1  .
T T T

 
Τελικά, προκύπτει:
T
W* (n) = W* ( n  1)  * ( n ) i* ( n )  C , (1.2)

 
T
όπου ο πίνακας C  PI1 PI1 περιέχει τη συσχέτιση μεταξύ των διανυσμάτων εισόδου υπό την ακόλουθη
έννοια. Θυμηθείτε ότι ο πίνακας PI μετασχηματίζει γραμμικά τα διανύσματα εισόδου από το σύστημα
αναπαράστασης νευρώνων στο σύστημα αναπαράστασης προτύπων εισόδου, όπως εξηγήθηκε παραπάνω.
Επομένως, ένα νέο διάνυσμα εισόδου i *j περιέχει ένα 1 στη θέση j και 0 οπουδήποτε αλλού. Επειδή
i j  PI1i *j , συμπεραίνουμε ότι η στήλη j του πίνακα PI1 είναι το διάνυσμα j εισόδου εκφρασμένο στο

 
T
σύστημα αναπαράστασης νευρώνων. Συνεπώς, ο πίνακας C  PI1 PI1 περιέχει το εσωτερικό γινόμενο iiij
των διανυσμάτων εισόδου ii και ij, το οποίο εκφράζει τη συσχέτιση μεταξύ των διανυσμάτων εισόδου.
Η προαναφερθείσα αναπαράσταση προτύπων οδηγεί σε μια διορατική αντίληψη της λειτουργίας του
κανόνα Δέλτα, όπως παρουσιάζεται στο ακόλουθο αριθμητικό παράδειγμα.

Παράδειγμα
Θεωρήστε ένα ΤΝΔ δύο στρωμάτων, έστω με 8 εισόδους και 6 εξόδους, το οποίο θέλουμε να μάθει τα
ακόλουθα ζεύγη διανυσμάτων (x1,y1), (x2,y2), (x3,y3) και (x4,y4):

 0.36   0.57 
 0.20   0.05 
   0.10     0.07 
 0.49   0.66   0.12   0.39 
       
.  .  .  . 
x1   y  x2   y 
0 44 0 30 0 23 0 74
 0.01  ,  0.08   ,
0.08  0.21
1 2

     
 0.28   0.45   0.47   0.46 
 0.09     0.36   
 0.50   0.19 
   
 0.55   0.50 

 0.25   0.11
 0.48   0.08 
   0.10     0.47 
 0.48   0.40   0.03   0.17 
       
 0.56   0.27   0.36   0.21
x3   y3   , x4   y4   ,
 0.18  0.27   0.01  0.01 
     
 0.28   0.56   0.71  0.66 
 0.04     0.54   
   0.61     0.51
 0.22   0.24 

1-6
Τα διανύσματα εισόδου x1, x2, x3 και x4 επιλέχθηκαν έτσι, ώστε να είναι γραμμικά ανεξάρτητα
μεταξύ τους και, επιπλέον, το καθένα έχει μοναδιαίο μήκος. Ο πίνακας C που δείχνει τη συσχέτιση (βλ.
εσωτερικό γινόμενο) των διανυσμάτων x1, x2, x3 και x4 παρουσιάζεται στη συνέχεια.

 1 0.75 0 0   x1 x1 x1 x 2 x1 x3 x1 x 4 
0.75  x 2 x 4 
1 0 0   x 2 x1 x2 x2 x 2 x3
C 
 0 0 1 0.25  x3 x1 x3 x 2 x3 x3 x3 x 4 
   
 0 0 0.25 1  x4 x1 x4 x2 x 4 x3 x4 x4 

Η παρουσίαση των προαναφερθέντων ζευγών διανυσμάτων (με τη σειρά x1y1, x2y2, x3y3 και
x4y4) στο ΤΝΔ για μάθηση σύμφωνα με την Εξ.(1.1), ή την Εξ.(1.2), ονομάζεται κύκλος μάθησης (epoch).
Το Σχήμα 1.3 παρουσιάζει, συγκριτικά, τους πίνακες βαρών W και W* για την αναπαράσταση
προτύπων και την αναπαράσταση νευρώνων, αντίστοιχα, μετά από 1, 4 και 8 κύκλους μάθησης. Σημειώστε
ότι οι πίνακες W και W* υπολογίστηκαν με τη χρήση της Εξ.(1.1) και της Εξ.(1.2) αντίστοιχα με την
παραδοχή W(0) = W*(0) = [0], δηλ. οι πίνακες W και W* τη χρονική στιγμή n=0 έχουν μηδενικά όλα τα
στοιχεία τους.
Το Σχήμα 1.3 καταδεικνύει την αξία του πίνακα βαρών W* συγκριτικά με τον πίνακα βαρών W.
Συγκεκριμένα, παρατηρώντας στιγμιότυπα του πίνακα W δεν μπορούμε εύκολα να αντιληφθούμε ούτε την
ποιότητα της μάθησης του ΤΝΔ, αλλά ούτε και την παρεμβολή (crosstalk) μεταξύ των επιθυμητών
διανυσμάτων εξόδου. Ωστόσο, παρατηρώντας στιγμιότυπα του πίνακα W* μπορούμε εύκολα να
αντιληφθούμε τόσο την ποιότητα της μάθησης του ΤΝΔ, όσο και την παρεμβολή μεταξύ των επιθυμητών
διανυσμάτων εξόδου. Επιπλέον, η αναπαράσταση προτύπων επιτρέπει την εξαγωγή μιας αναλυτικής
έκφρασης, η οποία δείχνει ότι το μέσο τετραγωνικό σφάλμα (ΜΤΣ) (mean square error (MSE)) μάθησης
βαίνει μειούμενο, όπως εξηγείται στη συνέχεια.
Το σφάλμα  *j ( n ) μάθησης του πρότυπου διανύσματος j το οποίο παρουσιάζεται την χρονική στιγμή
“n” ισούται με  *j (n )  t *j  W* ( n )i *j . Αντικαθιστώντας την έκφραση του πίνακα W* ( n ) από την Εξ.(1.2)

προκύπτει:  *j (n) = t *j   W* ( n  1)  * ( n ) i* ( n ) C i *j = t *j  W* ( n  1)i *j    * ( n ) i * (n)  Ci *j =


T T

 
T
 *j ( n  1)  *j ( n ) i*j  Ci*j .
Ήδη γνωρίζουμε ότι το διάνυσμα i *j περιέχει ένα 1, ενώ τα υπόλοιπα στοιχεία του είναι 0. Συνεπώς, η
T
έκφραση i *j  Ci *j ισούται με C jj . Οπότε, τελικά, προκύπτει:  *j (n) =  *j (n  1)  *j ( n )C jj 
1
 *j ( n ) 1  C jj  =  *j ( n  1)   *j ( n ) =  *j ( n  1) .
1  C jj
Λαμβάνοντας υπόψη ότι το μήκος C jj του διανύσματος j είναι θετικό, δηλ. C jj  0 , προκύπτει
1
 1 . Συνεπώς,  *j ( n ) <  *j ( n  1) . Με άλλα λόγια, το σφάλμα βαίνει μειούμενο. Συνεπώς, το
1   C jj
συμπέρασμα που προέκυψε αναλυτικά, χρησιμοποιώντας την αναπαράσταση προτύπων, είναι ότι το σφάλμα
μάθησης ζευγών διανυσμάτων “(είσοδος, έξοδος)” βαίνει μειούμενο σε κάθε επανάληψη κατά την διαδικασία
μάθησης.
Στο πλαίσιο της προηγούμενης (γραμμικής) μαθηματικής ανάλυσης, το ΤΝΔ «εκφυλίστηκε» σε μια
αποτελεσματική (βλ. παράλληλη) υλοποίηση ενός αλγορίθμου στατιστικής βελτιστοποίησης χωρίς
ουσιαστική αναφορά σε κάποια βιολογική λειτουργία με την οποία μια μεθοδολογία ΥΝ εξ ορισμού
αναμένεται να είναι συνυφασμένη. Ένας επιπλέον περιορισμός προέρχεται από την απλοποιητική παραδοχή
μιας γραμμικής συνάρτησης μεταφοράς νευρώνων. Στη συνέχεια εξηγούμε κάποια προβλήματα που
ανακύπτουν από τον προαναφερθέντα (γραμμικό) περιορισμό και, κατόπι, μελετούμε έναν τρόπο για να
ξεπεραστούν προαναφερθέντα προβλήματα.

1-7
Αναπαράσταση Νευρώνων (W) Αναπαράσταση Προτύπων (W*)

Μετά από 1 κύκλο μάθησης


ΜΤΣ = 0.05 ΜΤΣ = 0.09
 0.12 0.13 0.02 0.10 0.01 0.42 0.35 0.12 
 0.03 0.08 0.59 0.00 0.12 0.29 0.18 0.40 
  0.39 0.18 0.00 0.00 
 0.57 0.28 0.08 0.35 0.10 0.52 0.03 0.33  0.90 1.20 0.00 0.00 
W  W*  
 0.04 0.13 0.23 0.07 0.05 0.14 0.10 0.23  0.00 0.00 1.11 0.06 
 0.30 0.33 0.17 0.59 0.04 0.94 0.13 0.23   
0.00 0.00 0.30 1.20 
 
 0.05 0.50 0.17 0.20 0.06 0.20 0.81 0.42 

Μετά από 4 κύκλους μάθησης


ΜΤΣ = 0.00 ΜΤΣ = 0.00
 0.15 0.18 0.07 0.01 0.04 0.34 0.31 0.13 
 0.07 0.02 0.57 0.28 0.20 0.41
 0.08 0.10  0.98 0.01 0.00 0.00 
 0.59 0.13 0.30 0.11 0.16 0.50 0.29 0.13   0.03 1.01 0.00 0.00 
W  W 
*

 0.05 0.16 0.10 0.14 0.02 0.15 0.17 0.16  0.00 0.00 1.00 0.00 
 0.36 0.42 0.47  
0.81 0.08 0.86 0.53 0.12  0.00 0.00 0.00 1.00 
 
 0.06 0.66 0.16 0.53 0.02 0.09 1.01 0.19 

Μετά από 8 κύκλους μάθησης


ΜΤΣ = 0.00 ΜΤΣ = 0.00
 0.15 0.18 0.07 0.01 0.04 0.34 0.31 0.13 
 0.07 0.02 0.57 0.08 0.28 0.20 0.41
 0.10 1.00 0.00 0.00 0.00 
 0.59 0.13 0.32 0.10 0.16 0.50 0.30 0.12  0.00 1.00 0.00 0.00 
W  W*  
 0.05 0.16 0.10 0.14 0.02 0.15 0.18 0.15  0.00 0.00 1.00 0.00 
 0.35 0.43 0.49  
0.82 0.08 0.85 0.54 0.13 0.00 0.00 0.00 1.00 
 
 0.06 0.66 0.17 0.54 0.02 0.10 1.01 0.18

Σχήμα 1.3 Σύγκριση του πίνακα βαρών W (αναπαράσταση νευρώνων) και του πίνακα βαρών W* (αναπαράσταση
προτύπων) μετά από 1, 4 και 8 κύκλους μάθησης. Σε κάθε περίπτωση σημειώνεται το ΜΤΣ.

Θεωρήστε την πύλη XOR, ο πίνακας αλήθειας της οποίας παρουσιάζεται στο Σχήμα 1.4(α). Το
Σχήμα 1.4(β) δείχνει την γραφική παράσταση της προαναφερθείσας πύλης XOR στο επίπεδο. Η μάθηση, με
οποιαδήποτε γραμμική συνάρτηση μεταφοράς νευρώνα, της συνάρτησης XOR σημαίνει υπολογισμό μιας
ευθείας στο επίπεδο τέτοιας, ώστε από τη μια μεριά της ευθείας να είναι οι γεμισμένοι (μαύροι) κύκλοι, ενώ
από την άλλη πλευρά της ευθείας να είναι οι κενοί κύκλοι. Όμως, τέτοια ευθεία δεν υπάρχει. Ή, μιλώντας με
τεχνικούς όρους, λέμε ότι αυτό το πρόβλημα δεν είναι γραμμικά διαχωρίσιμο. Η αδυναμία ενός γραμμικού
ΤΝΔ perceptron να μάθει τον πίνακα αλήθειας της πύλης XOR (Minsky & Papert, 1969) ήταν μια βασική
αιτία που διεκόπη η χρηματοδότηση έργων ΤΝΔ από τα μέσα της δεκαετίας του 1960.
Στα μέσα της δεκαετίας του 1980 προτάθηκαν αρχιτεκτονικές ΤΝΔ, όπως αυτή στο Σχήμα 1.4(γ), οι
οποίες μπορούσαν να μάθουν τον πίνακα αλήθειας της πύλης XOR. Οι προτεινόμενες αρχιτεκτονικές ΤΝΔ
είχαν μη-γραμμικές συναρτήσεις μεταφοράς, καθώς και περισσότερα από 2 στρώματα νευρώνων.
Συγκεκριμένα, το ΤΝΔ στο Σχήμα 1.4(γ) έχει δίτιμη συνάρτηση μεταφοράς νευρώνα με κατώφλι είτε 1.5 είτε

1-8
0.5. Χρησιμοποιώντας τα βάρη που δείχνονται στο Σχήμα 1.4(γ) μπορούμε να επαληθεύουμε ότι το ΤΝΔ στο
Σχήμα 1.4(γ) υλοποιεί την πύλη XOR.

1.3 Δίκτυα Οπισθόδρομης Μάθησης


Αυτή η ενότητα περιγράφει έναν τρόπο μάθησης ΤΝΔ με οπισθόδρομη μάθηση (backpropagation
learning) των βαρών, ώστε να ελαχιστοποιείται το τετραγωνικό σφάλμα εξόδου. Η συγκεκριμένη τεχνική
πρωτοπαρουσιάστηκε στη διδακτορική διατριβή του Werbos (1974), ωστόσο έγινε δημοφιλής αργότερα
(Rumelhart κ.ά., 1986) με το όνομα γενικευμένος κανόνας δέλτα (generalized Delta rule).

1
x1 x2 XOR
0 0 0
0 1 1
1 0 1
1 1 0

0
(α) (β) 1

0.5 Στρώμα εξόδου

+1 +1
-2

1.5 Κρυμμένο στρώμα

+1 +1
Στρώμα εισόδου

x1 x2
(γ)
Σχήμα 1.4 (α) Ο πίνακας αλήθειας της πύλης XOR με δύο μεταβλητές εισόδου x1 και x2, (β) Η γραφική παράσταση της
πύλης XOR στο επίπεδο, (γ) Το ΤΝΔ τριών στρωμάτων, με τα βάρη που επισημαίνονται, καθώς και με δίτιμη συνάρτηση
μεταφοράς με το κατώφλι που φαίνεται μέσα σε ένα νευρώνα, υλοποιεί την πύλη XOR.

1-9
1.3.1 Γενικευμένος Κανόνας Δέλτα
Έστω ότι εφαρμόζουμε το διάνυσμα xp στην είσοδο ενός ΤΝΔ τριών στρωμάτων νευρώνων (βλ. Σχήμα 1.2)
και επιθυμούμε να υπολογιστεί το διάνυσμα tp στην έξοδο. Δεδομένων των συγκεκριμένων τιμών που έχουν
τα βάρη, στην έξοδο του ΤΝΔ θα υπολογιστεί διάνυσμα op το οποίο στη γενική περίπτωση θα είναι op  tp. Το
ερώτημα είναι πώς να μεταβάλουμε το κάθε βάρος wji του ΤΝΔ έτσι ώστε να μειωθεί το τετραγωνικό σφάλμα
εξόδου Ep    tpj  opj  και συνεπώς το διάνυσμα op να προσεγγίσει το επιθυμητό διάνυσμα tp.
1 2

2 j
Το σφάλμα Ep είναι συνάρτηση όλων των βαρών wji του ΤΝΔ. Προκειμένου να μειωθεί το σφάλμα
Ep, αρκεί να μεταβληθεί το κάθε βάρος wji του ΤΝΔ κατά μια (μικρή) ποσότητα Δpwji ανάλογη με την
Ep Ep Ep
παράγωγο  , δηλ. Δpwji   . Θεωρούμε ότι υπάρχει η παράγωγος  , την οποία υπολογίζουμε
wji wji wji
Ep Ep  pj
στη συνέχεια. Συγκεκριμένα,  , όπου  pj   wjk opk . Δηλαδή, pj είναι η έξοδος του
= 
wji  pj wji k

αθροιστή (βλ. Σχήμα 1.1) του νευρώνα “j”, wjk είναι το βάρος του συνδέσμου που καταλήγει στο νευρώνα “j”
ξεκινώντας από το νευρώνα “k” του προηγούμενου στρώματος και opk είναι η έξοδος του νευρώνα “k”.
Ep Ep  Ep Ep
Συνεπώς, 
wji
=  
 pj wji k
wjk opk = 
 pj
opi . Η ποσότητα 
 pj
ονομάζεται δέλτα (δpj) και

χαρακτηρίζει το νευρώνα “j”. Τελικά, Δpwji = δpjopi, όπου η σταθερά “” είναι ένας (μικρός) αριθμός. Το
πρόβλημα τώρα είναι να υπολογιστεί η ποσότητα δpj όπως παρουσιάζεται στη συνέχεια:
Ep Ep opj Ep
δpj =  =  , όπου opj = fj(pj). Συνεπώς, δpj =  f j( pj ) , όπου f j( pj ) είναι η παράγωγος
 pj opj  pj opj

της συνάρτησης f(pj) ως προς pj. Διακρίνουμε δύο περιπτώσεις:


Πρώτον, ο νευρώνας “j” είναι στο στρώμα εξόδου. Τότε είναι:
Ep  1 2
     tpj  opj    (tpj  opj ) . Συνεπώς, δpj = (tpj  opj ) f j( pj ) .
opj opj 2 j 
Δεύτερον, ο νευρώνας “j” είναι στο κρυμμένο στρώμα. Τότε είναι:
Ep Ep  pk Ep    Ep
   =    wki opi  =   wkj =  wkj .
opj  pk opj  pk opj  i
pk
k k  k pk k

 
Συνεπώς, δpj     pk wkj  f j( pj )
 k 
Σημειώστε ότι ο γενικευμένος κανόνας δέλτα βελτιστοποιεί αναλυτικά τα βάρη ενός ΤΝΔ.
Εναλλακτικά, η βελτιστοποίηση των βαρών ΤΝΔ μπορεί να μεθοδευτεί με εξελικτικό υπολογισμό, όπως
περιγράφεται στο Κεφάλαιο 3.

1.3.2 Επεκτάσεις
Τα προαναφερθέντα ΤΝΔ ονομάστηκαν προσωτροφοδοτούμενα, διότι οι κατευθυνόμενοι σύνδεσμοι (από
νευρώνα σε νευρώνα) δε σχηματίζουν κύκλο. Όταν, όμως, οι κατευθυνόμενοι σύνδεσμοι σχηματίζουν κύκλο,
τότε αυτό καλείται ανατροφοδοτούμενο ΤΝΔ (recurrent ANN) (Hopfield, 1982· Hochreiter κ.ά., 2001·
Kosko, 1988). Η ανατροφοδότηση εισάγει κάποιο είδος μνήμης στους υπολογισμούς, και γι’ αυτό τα
ανατροφοδοτούμενα ΤΝΔ έχουν χρησιμοποιηθεί επιτυχώς σε εφαρμογές αναγνώρισης χειρογράφων /ομιλίας.

1-10
1.4 Αυτο-οργανούμενοι Χάρτες
Οι αυτο-οργανούμενοι χάρτες (self-organizing maps) (Kohonen, 1995) είναι μια νευρωνική αρχιτεκτονική
για ομαδοποίηση και έγινε δημοφιλής χάρη στις εφαρμογές της σε προβλήματα αναγνώρισης ομιλίας. Από
τεχνική άποψη ο σκοπός των αυτο-οργανούμενων χαρτών είναι να απεικονίσουν σημεία ενός αρχικού χώρου
RN σε σημεία ενός τελικού χώρου RM, όπου M<N, έτσι ώστε να διατηρούνται σχέσεις εγγύτητας όσο το
δυνατόν περισσότερο. Δηλαδή, σημεία τα οποία είναι «κοντά» στον αρχικό χώρο RN να παραμείνουν
«κοντά» στον τελικό χώρο RM. Ο τρόπος λειτουργίας εξηγείται στη συνέχεια με ένα παράδειγμα.

Παράδειγμα
Έχουμε να μάθουμε μια απεικόνιση από το επίπεδο (τον χώρο-πηγή R2) προς μια ευθεία γραμμή (τον χώρο-
στόχο R), όπως φαίνεται στο Σχήμα 1.5. Συγκεκριμένα, το άκρο ενός ρομποτικού βραχίονα δύο συνδέσμων
σταθερού μήκους L1 και L2, αντίστοιχα, διαγράφει την τροχιά τ στο Σχήμα 1.5. Λαμβάνονται δείγματα από το
κινούμενο άκρο του ρομποτικού βραχίονα και καταγράφεται το διάνυσμα γωνιών φ= (φ1,φ2). Δοθείσης μιας
ακολουθίας μετρήσεων φ από το χώρο-πηγή, το ζητούμενο είναι να υπολογιστεί μια απεικόνιση από το φ στο
y έτσι, ώστε γειτονικά σημεία στο χώρο-πηγή (επί της τροχιάς τ) να απεικονίζονται σε γειτονικά σημεία στο
χώρο-στόχο. Ο προαναφερθείς στόχος της διατήρησης της γειτνίασης δίνει σ’ αυτήν την τεχνική την
εναλλακτική της ονομασία τοπολογικά διατεταγμένοι χάρτες (topologically ordered maps).
Η προαναφερθείσα απεικόνιση μαθαίνεται από ένα νευρωνικό δίκτυο αυτο-οργανούμενων χαρτών
δύο στρωμάτων με δύο εισόδους (φ1 και φ2), πλήρως συνδεδεμένο με μεγάλο αριθμό εξόδων, οι τελευταίες
αντιστοιχούν σε σημεία πάνω στο χώρο-στόχο, όπως φαίνεται στο Σχήμα 1.5(β). Όταν ένα δεδομένο φ
εμφανίζεται, κάθε κόμβος k στο χώρο-στόχο υπολογίζει τη διέγερσή του netk ως εξής: netk= φTwk. Κάποιος
από τους κόμβους εξόδου, έστω ο y*, διεγείρεται περισσότερο. Τα βάρη του νικητή κόμβου, καθώς και εκείνα
όλων των γειτονικών κόμβων, ξαναυπολογίζονται ως εξής:

wki(t+1) = wki(t) + (t)Λ(|y-y*|)φi (1.3)

όπου (t) είναι ο ρυθμός μάθησης που εξαρτάται από τον χρόνο t της επανάληψης. Η συνάρτηση Λ(|y-y*|)
καλείται συνάρτηση παραθύρου, και έχει τιμή 1 για |y-y*| = 0  y = y* και βαίνει μειούμενη για τιμές
μεγαλύτερες του |y-y*|. Η συνάρτηση παραθύρου είναι κρίσιμη για την επιτυχία του αλγορίθμου: εγγυάται ότι
γειτονικά σημεία στο χώρο-στόχο έχουν παρόμοια βάρη, και έτσι αντιστοιχούν σε γειτονικά σημεία στο
χώρο-πηγή, οπότε διατηρούνται οι τοπολογικές γειτονιές. Σε κάθε βήμα επαληθεύουμε ότι τα βάρη
κανονικοποιούνται έτσι, ώστε ||w|| = 1. Ο ρυθμός μάθησης (t) σταδιακά μειώνεται και τελικά μηδενίζεται,
ώστε τερματίζεται η διαδικασία μάθησης.

x2 P(px,py)
τ L2 Λ(|y-y*|)
φ2
y* y
L1
φ1 w
φ1 φ2
x1

(α) (β)
Σχήμα 1.5 (α) Ένας ρομποτικός βραχίονας, το άκρο (P) του οποίου κινείται επάνω σε μια καμπύλη τ στο επίπεδο, (β) Το
ΤΝΔ των αυτο-οργανούμενων χαρτών, μετά από εκπαίδευση, εδώ μαθαίνει να απεικονίζει σημεία της καμπύλης τ (Σχήμα
1.5 (α)) σε σημεία y της ευθείας έτσι, ώστε γειτονικά σημεία πάνω στην καμπύλη τ να αντιστοιχούν σε γειτονικά σημεία
πάνω στην ευθεία y.

1-11
Η Εξ.(1.3) ερμηνεύεται ως εξής: Για κάθε δεδομένο εισόδου, τα βάρη του νικητή κόμβου y* στο
χώρο-στόχο ρυθμίζονται έτσι, ώστε να γίνουν πιο όμοια με το δεδομένο εισόδου. Άλλοι κόμβοι στη γειτονιά
του y* επίσης ρυθμίζονται, ώστε τα βάρη τους να γίνουν πιο όμοια με το δεδομένο εισόδου σύμφωνα με τη
συνάρτηση παραθύρου. Με αυτόν τον τρόπο γειτονικά σημεία στο χώρο-πηγή οδηγούν σε γειτονικά σημεία
στο χώρο-στόχο. Μετά από μεγάλο αριθμό παρουσιάσεων των δεδομένων εισόδου επιτυγχάνεται μάθηση
έτσι, ώστε η ευθεία γραμμή y του χώρου-στόχου να αντιστοιχεί στην καμπύλη τ στο χώρο-πηγή.
Ένα εγγενές πρόβλημα των αυτο-οργανούμενων χαρτών είναι το πρόβλημα της συστροφής, κατά το
οποίο κάποιες αρχικές συνθήκες μπορούν να οδηγήσουν σε καταστάσεις όπου μέρος του χάρτη έχει μάθει
διαφορετικό προσανατολισμό από άλλο μέρος του χάρτη. Όταν συμβεί κάτι τέτοιο, το καλύτερο είναι να
αρχικοποιήσουμε τα βάρη και να επαναλάβουμε τη μάθηση, χρησιμοποιώντας ενδεχομένως μια φαρδύτερη
συνάρτηση παραθύρου ή/και πιο αργή μείωση του ρυθμού μάθησης.
Ένα από τα πλεονεκτήματα των αυτο-οργανούμενων χαρτών είναι ότι μαθαίνουν στο χώρο-στόχο μια
αντιστοιχία με τη δειγματοληπτική πιθανότητα p(x) στο χώρο-πηγή. Συγκεκριμένα, περιοχές πυκνής
πιθανότητας στο χώρο-πηγή έλκουν περισσότερα σημεία στο χώρο-στόχο. Σημειώστε ότι οι αυτο-
οργανούμενοι χάρτες δεν απαιτούν την αποθήκευση μεγάλου αριθμού δειγμάτων και, επίσης, οι αυτο-
οργανούμενοι χάρτες είναι ιδιαιτέρως χρήσιμοι όταν υπάρχουν εγγενείς μη-γραμμικότητες στο πρόβλημα
μάθησης.
Μια εφαρμογή αυτο-οργανούμενων χαρτών αφορά την επεξεργασία σήματος, όπου οι έξοδοι μιας
τράπεζας φίλτρων απεικονίζουν μια κυματομορφή σε ένα δισδιάστατο χώρο-στόχο. Συγκεκριμένα, όταν γίνει
εφαρμογή σε ήχους ομιλούμενων φωνηέντων, τότε παρόμοια φωνήεντα, όπως /ee/ και /eh/ απεικονίζονται σε
κοντινά μεταξύ τους σημεία του επιπέδου, ενώ διαφορετικά φωνήεντα, όπως /ee/ /oo/ απεικονίζονται σε
μακρινά μεταξύ τους σημεία του επιπέδου. Με τον προαναφερθέντα τρόπο επιτυγχάνεται μια οπτικοποίηση
(visualization ) φωνημάτων στο επίπεδο. Περαιτέρω μάθηση με επίβλεψη μπορεί να τοποθετήσει ετικέτες
στο χώρο-στόχο και έτσι να προκύψει ένας κατηγοριοποιητής.

1.5 Θεωρία Προσαρμοστικού Συντονισμού


Η θεωρία προσαρμοστικού συντονισμού (ΘΠΣ) (adaptive resonance theory (ART)) (Carpenter &
Grossberg, 1987) αναπτύχθηκε κατά τη διάρκεια των λεγόμενων «πέτρινων χρόνων» των ΤΝΔ, όταν σε
συνέχεια της δημοσίευσης του βιβλίου Perceptrons (Minsky, 1969) διεκόπη η χρηματοδότηση σε έργα ΤΝΔ
για αρκετά χρόνια.
Προτάθηκαν ΤΝΔ τύπου ΘΠΣ για να μοντελοποιήσουν με τη χρήση διαφορικών εξισώσεων με
ανάδραση τον τρόπο με τον οποίο βιολογικά νευρωνικά δίκτυα μπορούν να αναγνωρίζουν μη αναμενόμενα
ερεθίσματα και κατόπιν να τα συγκρατούν στη μνήμη τους για μελλοντική χρήση. Στην κατεύθυνση της ΘΠΣ
αργότερα αναπτύχθηκε η θεωρία δυναμικών πεδίων (dynamic field theory) (Sandamirskaya κ.ά., 2013), η
οποία πρότεινε αρχιτεκτονικές για μάθηση που βελτιώνουν τη χωροχρονική ευστάθεια διαφορικών
εξισώσεων μοντελοποίησης της λειτουργίας νευρώνων του εγκέφαλου.
Μεταγενέστερες προσπάθειες της ΘΠΣ επικεντρώθηκαν στην ανάπτυξη μοντέλων ΥΝ για (α)
ομαδοποίηση (Carpenter κ.ά., 1991· Simpson, 1993) και (β) κατηγοριοποίηση (Carpenter κ.ά., 1992· Simpson,
1992). Τα προαναφερθέντα δύο μοντέλα παρουσιάζονται στη συνέχεια σε πλαίσιο ΥΝ.

1.5.1 Ομαδοποίηση σε Πραγματικό Χρόνο


Πολλές τεχνικές ομαδοποίησης επιχειρούν να βελτιστοποιήσουν μια αντικειμενική συνάρτηση (objective
function), όπου ο αριθμός των σμηνών είναι είτε γνωστός, είτε υποτιθέμενος. Οι προαναφερθείσες τεχνικές
συχνά είναι ευαίσθητες σε μικρές μεταβολές της αντικειμενικής συνάρτησης. Συγκεκριμένα, όταν οι
προαναφερθείσες τεχνικές χρησιμοποιηθούν για ομαδοποίηση σε πραγματικό χρόνο, τότε μπορεί να συμβεί
τα σμήνη που σχηματίζονται να μην παραμένουν σταθερά, αλλά να μετακινούνται συνεχώς. Σημειώστε ότι
ένα χρήσιμο σύστημα μάθησης θα πρέπει, από τη μία μεριά, να χαρακτηρίζεται από πλαστικότητα, δηλ. να
μπορεί να μαθαίνει από νέα δεδομένα, και επίσης, να επιτρέπει τη δημιουργία νέων σμηνών. Όμως, από την
άλλη μεριά, θα πρέπει να υπάρχει κάποια ευστάθεια, ώστε το σύνολο σμηνών που υπολογίζεται να είναι
αναξιόπιστο. Το προαναφερθέν πρόβλημα είναι γνωστό ως το δίλημμα ευστάθειας/πλαστικότητας
(stability/plasticity dilemma).

1-12
Ένα αίτιο του προαναφερθέντος προβλήματος είναι ότι στην ομαδοποίηση που βασίζεται σε μία
αντικειμενική συνάρτηση κάθε δείγμα μπορεί να επηρεάσει τη θέση οποιουδήποτε σμήνους, ανεξάρτητα από
το πόσο μακριά βρίσκεται. Αυτή η διαπίστωση έχει οδηγήσει σε ΤΝΔ τεχνικές ανταγωνιστικής μάθησης
(competitive learning), όπου οι αλλαγές, εξ’ αιτίας της μάθησης, περιορίζονται μόνο στο σμήνος το οποίο
είναι το «πιο όμοιο» με το πιο πρόσφατο δεδομένο, ενώ όλα τα άλλα σμήνη δεν αλλάζουν.
Σε έναν αλγόριθμο ανταγωνιστικής μάθησης κάθε d-διάστατο δεδομένο επαυξάνεται, θεωρώντας
x0=1, και στη συνέχεια κανονικοποιείται έτσι, ώστε ||x||=1. Έτσι, όλα τα δεδομένα τοποθετούνται πάνω σε μια
σφαίρα στον (d+1)-διάστατο χώρο. Κάθε ένα από τα κέντρα των σμηνών αρχικοποιείται με ένα τυχαίο
διάνυσμα βάρους wj, το οποίο κανονικοποιείται έτσι, ώστε ||wj||=1, j=1,…,c. Μερικές φορές τα κέντρα των
σμηνών αρχικοποιούνται με τυχαίως επιλεγμένα δεδομένα. Όταν ένα νέο δεδομένο x παρουσιάζεται, η
ενεργοποίηση κάθε σμήνους με βάρος wj υπολογίζεται ως netj= wTjx. Μόνον ο νευρώνας με το μεγαλύτερο
net (το βάρος του οποίου είναι εγγύτερα στο δεδομένο x) επιτρέπεται να επανυπολογίσει το βάρος του
σύμφωνα με τον ακόλουθο τύπο

w(t+1) = w(t) + x,

όπου  είναι ο ρυθμός μάθησης. Τα βάρη κανονικοποιούνται ώστε η ενεργοποίηση wTx να εξαρτάται
αποκλειστικά από τη γωνία μεταξύ w και x. Να σημειωθεί ότι χωρίς κανονικοποίηση κάποιο βάρος wj θα
μπορούσε να μεγαλώσει υπερβολικά σε μέγεθος και να δίνει πάντοτε αυτό τη μεγαλύτερη τιμή netj
αποκλείοντας άλλα σμήνη από τη διαδικασία μάθησης. Στη συνέχεια περιγράφεται ένας γενικός αλγόριθμος
ανταγωνιστικής μάθησης.

Γενικός Αλγόριθμος Ανταγωνιστικής Μάθησης

1. Αρχικοποίησε τα , n, c, k, w1, w2,…, wc.


2. xi  {1,xi}, i=1,…n (επαύξησε όλα τα δεδομένα)
3. xi  xi/||xi||, i=1,…n (κανονικοποίησε όλα τα δεδομένα)
4. επανάλαβε επίλεξε τυχαία ένα δεδομένο x.
5. j  arg max w tj x (ταξινόμησε το x)
j

6. wj  wj + x (επανυπολογισμός του βάρους)


7. wj  wj/||wj|| (κανονικοποίηση του βάρους)
8. μέχρι να παρατηρηθεί μη-σημαντική μεταβολή στο w σε k προσπάθειες.
9. επίστρεψε τα w1, w2,…, wc.

Ένα μειονέκτημα του γενικού αλγορίθμου Ανταγωνιστικής Μάθησης είναι ότι δεν εγγυάται τον
τερματισμό του, ακόμη και για πεπερασμένο σύνολο δεδομένων. Ένας εμπειρικός (και αποτελεσματικός)
τρόπος για να ξεπεράσουμε την προαναφερθείσα δυσκολία είναι να μειώνουμε το ρυθμό μάθησης (), π.χ.
σύμφωνα με τον τύπο (t)= (0)αt για 0<α<1, όπου t είναι ο αριθμός επανάληψης. Ωστόσο, ένα σημαντικό
μειονέκτημα της μείωσης του ρυθμού μάθησης είναι ότι, εάν ένα νέο δεδομένο x εμφανιστεί όταν ο ρυθμός
μάθησης () είναι ήδη πολύ μικρός, τότε ο αλγόριθμος δε θα μάθει ποτέ το x. Ένα άλλο μειονέκτημα του
γενικού αλγορίθμου Ανταγωνιστικής Μάθησης είναι ότι θεωρεί δεδομένο τον αριθμό (c) των σμηνών που
πρόκειται να υπολογιστούν, ενώ στην πράξη ο αριθμός c είναι άγνωστος.
Όταν ο αριθμός c των σμηνών είναι άγνωστος, υπάρχουν δύο τουλάχιστον επιλογές. Πρώτη επιλογή
είναι να λύσουμε το πρόβλημα της ομαδοποίησης χρησιμοποιώντας το γενικό αλγόριθμο Ανταγωνιστικής
Μάθησης αρκετές φορές για διάφορες τιμές του c και στη συνέχεια να συγκρίνουμε τις ομαδοποιήσεις που
σχηματίστηκαν μεταξύ τους με βάση των αριθμό των υπολογισθέντων σμηνών. Ένα «μεγάλο άλμα» στον
αριθμό των υπολογισθέντων σμηνών συνήθως υποδεικνύει έναν «καλό» αριθμό σμηνών. Δεύτερη επιλογή
είναι να ορίσουμε μια συγκεκριμένη τιμή κατωφλίου για το σχηματισμό ενός νέου σμήνους. Η τελευταία
επιλογή είναι ιδιαίτερα χρήσιμη σε εφαρμογές πραγματικού χρόνου.
Η εμπειρία εφαρμογής άλλων αλγόριθμων ομαδοποίησης, όπως για παράδειγμα του αλγορίθμου κ-
μέσων (k-means algorithm), έχει δείξει ότι ένας καλός τρόπος εφαρμογής ενός αλγορίθμου Ανταγωνιστικής
Μάθησης είναι να αναπαριστάνονται τα σμήνη με τα κέντρα τους και στη συνέχεια να επανυπολογίζουμε
κάποιο κέντρο σμήνους βασιζόμενοι αποκλειστικά και μόνο στην παρούσα του τιμή, καθώς και στο δεδομένο

1-13
εισόδου. Δοθέντων c κέντρων σμηνών ο απλούστερος τρόπος επανυπολογισμού των κέντρων είναι να
μεταβάλουμε μόνο ένα κέντρο σμήνους, αυτό που υπό κάποια έννοια είναι το «πλησιέστερο» προς το παρόν
δεδομένο εισόδου. Ο προαναφερθείς τρόπος ανταγωνιστικής ομαδοποίησης είναι γνωστός με την ονομασία
αλγόριθμος ηγέτη-ακόλουθου (leader-follower algorithm) και παρουσιάζεται στη συνέχεια, όπου wi
παριστάνει το κέντρο του σμήνους i,  παριστάνει το ρυθμό μάθησης και  παριστάνει μια τιμή κατωφλίου.

Βασικός Αλγόριθμος Ηγέτη-Ακόλουθου

1. Αρχικοποίησε τα , θ.
2. w1  x.
3. επανάλαβε δέξου το επόμενο δεδομένο x.
4. j  arg max x  w j (βρες το πλησιέστερο σμήνος)
j
5. εάν ||x-wj|| < θ
6. τότε wj  wj + x (επανυπολογισμός του βάρους)
7. διαφορετικά εισάγαγε ένα νέο w  x
8. w  w/||w|| (κανονικοποίηση του βάρους)
9. μέχρι να τελειώσουν όλα τα δεδομένα.
10. επίστρεψε τα w1, w2,…, wc.

Η τιμή κατωφλίου θ καθορίζει τελικά τον αριθμό των σμηνών που θα υπολογιστούν: Μεγάλη τιμή
του θ ευνοεί το σχηματισμό μικρού αριθμού μεγάλων σμηνών, ενώ μικρή τιμή του θ ευνοεί το σχηματισμό
μεγάλου αριθμού μικρών σμηνών. Ελλείψει οποιασδήποτε πληροφορίας για τα δεδομένα, δεν υπάρχει τρόπος
επιλογής μιας κατάλληλης τιμής για το θ. Επιπλέον, ο βασικός αλγόριθμος ηγέτη-ακόλουθου δεν προβλέπει
τη μείωση του αριθμού των σμηνών, π.χ. με το να συγχωνεύει δύο σμήνη τα οποία είναι «επαρκώς» όμοια
μεταξύ τους. Η ομαδοποίηση τύπου ηγέτη-ακόλουθου είναι στην καρδιά των αυτο-οργανούμενων
νευρωνικών δικτύων τύπου ΘΠΣ, όπως περιγράφεται στη συνέχεια.

1.5.2 Αρχιτεκτονική Ασαφής-ΘΠΣ για Ομαδοποίηση


Ο αλγόριθμος ασαφής-ΘΠΣ, ή για συντομία αΘΠΣ, υπολογίζει υπερ-παραλληλεπίπεδα (hyperboxes) στο
N-διάστατο Ευκλείδειο χώρο RN. Σημειώστε ότι τα υπερ-παραλληλεπίπεδα εναλλακτικά αποκαλούνται
«κουτιά» ή «κατηγορίες» ή «σμήνη». Για την καλύτερη κατανόηση του αλγορίθμου αΘΠΣ δίνονται οι
ακόλουθες διευκρινίσεις. Τα διανύσματα εισόδου x είναι κανονικοποιημένα με συντεταγμένες στο διάστημα
[0,1]. Για να λειτουργήσει ο αλγόριθμος, σημαντικό είναι το κάθε Ν-διάστατο διάνυσμα εισόδου x=
(x1,…,xN) να «αυξηθεί» και να γίνει x= (x1,…,xN,1-x1,…,1-xN)  η προαναφερθείσα αύξηση καλείται
κωδικοποίηση συμπληρώματος (complement coding). Η πραγματική συνάρτηση «περίμετρος» απεικονίζει
ένα κουτί w στην περίμετρό του, δηλ. στο άθροισμα των ακμών του  προφανώς για σημειακές εισόδους x
ισχύει περίμετρος(x)=0. Το σύμβολο xw παριστάνει το μικρότερο κουτί που περιέχει τα κουτιά x και w.

Αλγόριθμος Ασαφής-ΘΠΣ

1. Αρχικοποίησε το θ.
2. w1  x.
3. επανάλαβε δέξου το επόμενο δεδομένο x.
περίμετρος(w j )
4. j  arg max (βρες το πλησιέστερο σμήνος)
j περίμετρος( x  w )
j

5. εάν περίμετρος(xwj) < θ («κριτήριο μεγέθους»)


6. τότε wj  xwj (επανυπολογισμός του σμήνους)
7. διαφορετικά εισάγαγε ένα νέο w  x
8. μέχρι να τελειώσουν όλα τα δεδομένα.
9. επίστρεψε τα w1, w2,…, wc.

1-14
Το Σχήμα 1.6 δείχνει δύο κουτιά x και w με συνεχείς γραμμές, καθώς και το κουτί xw με
διακεκομμένες γραμμές. Από το Σχήμα 1.6 φαίνεται ότι περίμετρος(x) = 0.4, περίμετρος(w) = 1.4 και
περίμετρος(xw) = 2.4.

1
0.9 x

0.7
xw

0.5

0.3
w

0.1

0.1 0.3 0.5 0.7 0.9 1

Σχήμα 1.6 Βλέπουμε δύο κουτιά x και w μέσα στο μοναδιαίο τετράγωνο. Το κουτί xw είναι το μικρότερο που
περιέχει ταυτόχρονα τα κουτιά x και w.

Η βασική ιδέα για ομαδοποίηση κατά τον αλγόριθμο ασαφής-ΘΠΣ είναι η εξής: όταν έρχεται ένα
δεδομένο εισόδου xRN, το ενσωματώνουμε σε ένα ήδη υπάρχον κουτί w, αντικαθιστώντας το w με το κουτί
xw, εφόσον το μέγεθος περίμετρος(xw) δεν ξεπερνάει ένα προκαθορισμένο κατώφλι θ. Διαφορετικά
γίνεται επαναφορά (reset) και επιλέγεται το επόμενο κουτί. Εάν κανένα κουτί δεν μπορεί να ενσωματώσει το
δεδομένο εισόδου x χωρίς να παραβιάσει το κατώφλι θ, τότε το x απομνημονεύεται ως ένα νέο κουτί.
Κάθε κουτί w που υπολογίζεται αντιστοιχεί σε ένα σμήνος. Πλεονέκτημα του αλγορίθμου ασαφής-
ΘΠΣ είναι η ταχύτητά του καθώς αρκεί ακριβώς ένα «πέρασμα» όλων των δεδομένων, ώστε να υπολογιστούν
τα σμήνη (κουτιά). Περαιτέρω περάσματα των δεδομένων δε θα αλλάξουν τα σμήνη που υπολογίστηκαν.
Μειονέκτημα του αλγορίθμου ασαφής-ΘΠΣ είναι ότι τα σμήνη που υπολογίζονται εξαρτώνται από τη σειρά
παρουσίασης των δεδομένων. Συγκεκριμένα, διαφορετική σειρά παρουσίασης των ίδιων δεδομένων
καταλήγει στον υπολογισμό διαφορετικών σμηνών (κουτιών).
Το Σχήμα 1.7 παρουσιάζει την ΤΝΔ αρχιτεκτονική επάνω στην οποία μπορεί να υλοποιηθεί ο
αλγόριθμος «αΘΠΣ για ομαδοποίηση».

1.5.3 Αρχιτεκτονική Ασαφής-ΘΠΣ για Κατηγοριοποίηση


Η ΤΝΔ αρχιτεκτονική «ασαφής-ΘΠΣ για κατηγοριοποίηση» παρουσιάζεται στο Σχήμα 1.8 και
χρησιμοποιείται για τον υπολογισμό μιας συνάρτησης f: INT για κατηγοριοποίηση στο μονοδιάστατο κύβο
IN. Κατά την εκπαίδευσή της δίδεται ένα δεδομένο XRN στο εξάρτημα ΘΠΣα, το οποίο είναι ένα ΤΝΔ
«ασαφής-ΘΠΣ για ομαδοποίηση», μαζί με την κατηγορία l(X)T στο εξάρτημα ΘΠΣβ, το οποίο είναι ένα
ΤΝΔ «ασαφής-ΘΠΣ για ομαδοποίηση». Το πεδίο ταιριάσματος Fab δυνητικά συσχετίζει τα δύο σμήνη που
ενεργοποιούνται στο στρώμα εξόδου F2 των εξαρτημάτων αΘΠΣα και αΘΠΣβ αντίστοιχα.
Μεταγενέστερες εργασίες γενίκευσαν το πεδίο εφαρμογής των ΤΝΔ τύπου αΘΠΣ πέραν του
μοναδιαίου κύβου IN σε χώρους μη-αριθμητικών δεδομένων που έχουν τη μαθηματική δομή πλήρους
πλέγματος (complete lattice) (Kaburlasos & Petridis, 2000· Kaburlasos κ.ά., 2013).
Όλες οι αρχιτεκτονικές της ΘΠΣ εμφανίζουν το πρόβλημα πολλαπλασιασμού των κατηγοριών
(category proliferation problem), δηλ. μπορεί να υπολογιστεί ένας υπερβολικός αριθμός κατηγοριών.

1-15
Στρώμα Κατηγοριών F2
Ανταγωνισμός: Ο Νικητής τα παίρνει όλα

1 2 K

σ(xw1) σ(xw2) σ(xw3) σ(xwK)

w2 w3 επαναφορά
wK
w1 

Στρώμα Εισόδου F1
Αποθήκευση & Σύγκριση

Σχήμα 1.7 Το ΤΝΔ «ασαφής-ΘΠΣ για ομαδοποίηση» χρησιμοποιείται για τον υπολογισμό σμηνών (βλ.
κουτιών) στο μοναδιαίο κύβο IN. Οι νευρώνες του στρώματος εξόδου F2 ανταγωνίζονται μεταξύ τους
υπολογίζοντας ο καθένας ένα βαθμό ομοιότητας με το δεδομένο x εισόδου. Η αποθήκευση του x, καθώς και η
σύγκριση των κατηγοριών w1,…,wK μεταξύ τους πραγματοποιείται στο στρώμα εισόδου F1. Σε περίπτωση που ο
νικητής της σύγκρισης δεν ικανοποιεί το «κριτήριο μεγέθους», τότε γίνεται επαναφορά και συνεχίζει το ψάξιμο
για νέο νικητή. Εάν, τελικά, δεν υπάρξει νικητής τότε απομνημονεύεται το δεδομένο εισόδου x.

Πεδίο ταιριάσματος Fab

xab

F2a ya yb F2b
επαναφορά ab επαναφορά
Εξάρτημα
παρακολούθηση Εξάρτημα
ΘΠΣα
ταιριάσματος ΘΠΣβ
F1a a F1b b
a b

X l(X)

Σχήμα 1.8 Το ΤΝΔ «ασαφής-ΘΠΣ για κατηγοριοποίηση» χρησιμοποιείται για τον υπολογισμό μιας συνάρτησης
f: INT για κατηγοριοποίηση.

1-16
1.6 Σύγχρονες Τάσεις
Τα ΤΝΔ που παρουσιάστηκαν παραπάνω αποτελούν την «1η γενιά ΤΝΔ» η οποία εν πολλοίς εστίασε σε
εφαρμογές στο Ν-διάστατο Ευκλείδειο χώρο RN, συμπεριλαμβανομένων εφαρμογών επεξεργασίας σημάτων
και αναγνώρισης προτύπων δίνοντας ιδιαίτερη έμφαση στην ανάλυση κυρίων συνιστωσών (principal
component analysis), στην ανάλυση ανεξάρτητων συνιστωσών (independent component analysis), κ.α.
(Διαμαντάρας, 2007· Bishop, 2004).
Η «2η γενιά ΤΝΔ» περιλαμβάνει αρχιτεκτονικές βαθιάς μάθησης (deep learning) που σήμερα είναι
από τις πλέον δημοφιλείς στα ΤΝΔ (Farabet κ.ά., 2013· LeCun κ.ά, 2015). Το χαρακτηριστικό της βαθιάς
μάθησης είναι η χρήση υπολογιστικών αρχιτεκτονικών ΤΝΔ με πολλαπλά στρώματα νευρώνων, ώστε να
καθίσταται δυνατή η μάθηση αναπαραστάσεων με πολλαπλά επίπεδα αφαίρεσης. Τα ΤΝΔ βαθιάς μάθησης
μπορούν να αλλάζουν τις εσωτερικές τους παραμέτρους υπολογίζοντας την αναπαράσταση κάθε στρώματος
από την αναπαράσταση του προηγούμενου στρώματος. Υπολογιστική εμπειρία έχει δείξει ότι οι
αρχιτεκτονικές βαθιάς μάθησης μπορούν να ανακαλύπτουν την περίπλοκη εσωτερική (μη-προφανή) δομή σε
μεγάλο αριθμό δεδομένων. Σημειώστε ότι η ανάπτυξη αρχιτεκτονικών ΤΝΔ βαθιάς μάθησης χρονολογείται
από την εισαγωγή του ΤΝΔ Neocognitron (Fukushima, 1980). Έχουν προταθεί διάφορες αρχιτεκτονικές
βαθιάς μάθησης, οι οποίες περιλαμβάνουν τα ΤΝΔ βαθιάς συνέλιξης (deep convolutional ANN), τα
αναδρομικά ΤΝΔ (recursive ANN) κ.ά. Η πρακτική εφαρμογή ΤΝΔ βαθιάς μάθησης έχει βελτιώσει
σημαντικά την ταχύτητα καθώς και την εξόρυξη γνώσης σε μια ποικιλία προβλημάτων αναγνώρισης
προτύπων. Για παράδειγμα, τα ΤΝΔ βαθιάς συνέλιξης έχουν επιφέρει βελτιώσεις κυρίως σε προβλήματα
επεξεργασίας εικόνων, βίντεο, ομιλίας και ήχου, ενώ τα αναδρομικά ΤΝΔ έχουν επιδείξει
αποτελεσματικότητα κυρίως στην επεξεργασία σειριακών δεδομένων (sequential data) και δενδρικές δομές
σε εφαρμογές επεξεργασίας της φυσικής γλώσσας.
Η «3η γενιά ΤΝΔ» περιλαμβάνει αρχιτεκτονικές ακιδωτών ΤΝΔ (spiking ANN), όπου τα σήματα
μεταφέρονται με εκφορτίσεις χρονικών παλμών (Kasabov κ.ά., 2015). Σημασία δεν έχει μόνον η διάρκεια του
κάθε χρονικού παλμού, αλλά και η συχνότητα των χρονικών παλμών μεταξύ των νευρώνων. Ένα σημαντικό
χαρακτηριστικό των ακιδωτών ΤΝΔ είναι ότι προσομοιώνουν τον τρόπο λειτουργίας των βιολογικών
κυττάρων του εγκεφάλου και υπάρχουν βάσιμες προσδοκίες για καλύτερη αναπαράσταση του χωρο-χρόνου.
Μια περιεκτική συλλογή των σημαντικότερων αρχιτεκτονικών ΤΝΔ παρουσιάστηκε από τον Arbib
(2003). Κατά κανόνα, τα ΤΝΔ διαφοροποιούνται κυρίως ως προς την αρχιτεκτονική τους, μέσω της οποίας
κάθε ΤΝΔ υλοποιεί συμβατικούς υπολογισμούς για μάθηση/γενίκευση στο συμβατικό χώρο RN.
ΤΝΔ «4ης γενιάς» ή μεταγενέστερα ενδέχεται να υλοποιούν μη-συμβατικούς υπολογισμούς ή/και να
εφαρμόζονται πέραν του χώρου RN. Συγκεκριμένα, κβαντικοί υπολογισμοί έχουν ήδη προταθεί για εκθετική
επιτάχυνση των υπολογισμών (Hirvensalo, 2003)· σημειώστε ότι παράλληλες αρχιτεκτονικές ΤΝΔ
προσφέρονται για παράλληλους κβαντικούς υπολογισμούς. Περαιτέρω, έχουν προταθεί υπολογισμοί με
σημασιολογίες (semantics) οι οποίες παριστάνονται με μερικώς διατεταγμένες σχέσεις (partially ordered
relations) (Kaburlasos κ.ά., 2013)· τέτοιου είδους υπολογισμοί, αντί για άλεσμα αριθμών, θα μπορούσαν να
βελτιώσουν την αλληλεπίδραση μηχανών με τον άνθρωπο.

Ερωτήσεις Κατανόησης και Ασκήσεις

1.1) Εξηγήστε με ποιο τρόπο τα ανατροφοδοτούμενα ΤΝΔ μπορούν να εισάγουν τον παράγοντα
«χρόνος» στους υπολογισμούς τους.
1.2) Ένα ΤΝΔ τριών στρωμάτων Ν-Κ-Μ χρησιμοποιείται για να υλοποιεί μια συνάρτηση f: RNRM.
Περιγράψτε με ποιο τρόπο ένα τέτοιο ΤΝΔ μπορεί να χρησιμοποιηθεί σε εφαρμογές αναγνώρισης
προτύπων.
1.3) Στα γραμμικά ΤΝΔ τύπου perceptron στη θεωρία περιγράφτηκε (α) η αναπαράσταση νευρώνων, και
(β) η αναπαράσταση προτύπων. Εξηγήστε τα συγκριτικά πλεονεκτήματα της κάθε αναπαράστασης.

1-17
1.4) Κατά την εφαρμογή του γενικευμένου κανόνα δέλτα σε ΤΝΔ τριών στρωμάτων υπολογίζεται η
ποσότητα δpj στο νευρώνα j κατά την εφαρμογή του διανύσματος xp στην είσοδο του ΤΝΔ.
Εξηγήστε:
(α) τον τρόπο υπολογισμού του δpj σε νευρώνες του κάθε στρώματος, και
(β) την χρήση του δpj στους υπολογισμούς.
1.5) Θεωρήστε το παρακάτω ΤΝΔ. Δοθέντων των βαρών w1,…,w5 υπολογίστε το εύρος τιμών των
κατωφλίων T1 και T2, ώστε να υλοποιείται η πύλη XOR.
t

T2 Στρώμα εξόδου

w3 w5
w4

T1 Κρυμμένο στρώμα

w1 w2
Στρώμα εισόδου

x1 x2

1.6) Θεωρήστε ένα ΤΝΔ 342 τριών στρωμάτων με γραμμική συνάρτηση μεταφοράς f(σ)= σ για κάθε
 1 2 1 3 
νευρώνα. Έστω W1=  6 2 8 5  ο πίνακας βαρών των συνδέσμων μεταξύ του στρώματος
 9 7 4 1 
3 2
1 9 
εισόδου και του κρυμμένου στρώματος, και έστω W2=   ο πίνακας βαρών των συνδέσμων
7 3
 
6 1 
μεταξύ του κρυμμένου στρώματος και του στρώματος εξόδου. Υπολογίστε ένα ΤΝΔ δύο
στρωμάτων το οποίο να υλοποιεί την ίδια γραμμική συνάρτηση f: R3R2 εισόδου-εξόδου όπως το
προαναφερθέν ΤΝΔ τριών στρωμάτων.
1.7) Θεωρήστε το παράδειγμα στην ενότητα 1.4 των αυτο-οργανούμενων χαρτών και έστω ότι υπάρχουν
5 σημεία τοποθετημένα ανά μια μονάδα μήκους το κάθε σημείο επί της ευθείας y (βλ. Σχήμα 1.5(β))
με βάρη w1= (2.1, -1), w2= (-1, 2), w3= (1.7, 1.4), w4= (1.8, -1.8) και w5= (1.5,-1.5). Έστω ότι η
συνάρτηση παραθύρου Λ(|y-y*|) είναι τριγωνική με ύψος ίσο με 1 και βάση ίση με 2. Υπολογίστε
ένα εύρος τιμών του διανύσματος γωνιών φ= (φ1,φ2) ώστε νικητής να είναι ο κόμβος με βάρος w2.
1.8) Θεωρήστε το ΤΝΔ τύπου αΘΠΣ για ομαδοποίηση. Έστω οι δύο κατηγορίες (κουτιά /σμήνη) w1=
[0.1,0.2][0.7,0.8] και w2= [0.3,0.7][0.2,0.5] και έστω x= (0.25,0.6) το διάνυσμα εισόδου. Οι δύο
κατηγορίες w1 και w2 θα ανταγωνιστούν μεταξύ τους διεκδικώντας η κάθε μια την ενσωμάτωση του
διανύσματος x. Υπολογίστε το νικητή του προαναφερθέντος ανταγωνισμού.

1-18
Βιβλιογραφία

Arbib, M.A. (Εd.). (2003). The Handbook of Brain Theory and Neural Networks (2nd ed.). Cambridge, MA:
The MIT Press.
Bishop, C.M. (2004). Neural Networks for Pattern Recognition. Oxford, Great Britain: Oxford University
Press.
Carpenter, G.A. & Grossberg, S. (1987). A massively parallel architecture for a self-organizing neural pattern
recognition machine. Computer Vision, Graphics, and Image Processing, 37(1), 54-115.
Carpenter, G.A., Grossberg, S. & Rosen, D.B. (1991). Fuzzy ART: fast stable learning and categorization of
analog patterns by an adaptive resonance system. Neural Networks, 4(6), 759-771.
Carpenter, G.A, Grossberg, S., Markuzon, N., Reynolds, J.H. & Rosen, D.B. (1992). Fuzzy ARTMAP: a
neural network architecture for incremental supervised learning of analog multidimensional maps. IEEE
Transactions on Neural Networks, 3(5), 698-713.
Διαμαντάρας, Κ. (2007). Τεχνητά Νευρωνικά Δίκτυα. Αθήνα, Ελλάς: Κλειδάριθμος.
Farabet, C., Couprie, C., Najman, L. & LeCun, Y. (2013). Learning hierarchical features for scene labeling.
IEEE Transactions on Pattern Analysis & Machine Intelligence, 35(8), 1915-1929.
Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern
recognition unaffected by shift in position. Biological Cybernetics, 36, 193-202.
Hebb, D.O. (1949). The Organization of Behavior. New York, N.Y.: Wiley.
Hirvensalo, M. (2003). Quantum Computing (2nd ed.) (Series in Natural Computing). Berlin, Germany:
Springer.
Hochreiter, S., Bengio, Y., Frasconi, P. & Schmidhuber, J. (2001). Gradient flow in recurrent nets: the
difficulty of learning long-term dependencies. In S.C. Kremer & J.F. Kolen (Eds.), A Field Guide to
Dynamical Recurrent Neural Networks. Piscataway, NJ: IEEE Press.
Hopfield, J.J. (1982). Neural networks and physical systems with emergent collective computational abilities.
In Proceedings of the National Academy of Sciences of the USA, 79(8), 2554-2558.
Kaburlasos, V.G., Petridis, V. (2000). Fuzzy lattice neurocomputing (FLN) models. Neural Networks, 13(10),
1145-1170.
Kaburlasos, V.G., Papadakis, S.E. & Papakostas, G.A. (2013). Lattice computing extension of the FAM neural
classifier for human facial expression recognition. IEEE Transactions on Neural Networks and Learning
Systems, 24(10), 1526-1538.
Kasabov, N., Scott, N., et al. (to be published). Evolving spatio-temporal data machines based on the
NeuCube neuromorphic framework: Design methodology and selected applications. Neural Networks.
Kohonen, T. (1995). Self-Organizing Maps (Springer Series in Information Sciences 30). Heidelberg,
Germany: Springer-Verlag, 1995.
Kosko, B. (1988). Bidirectional associative memories. IEEE Transactions on Systems, Man, and Cybernetics,
18(1), 49-60.
LeCun, Y., Bengio, Y. & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.
Minsky, M. & Papert, S. (1969). Perceptrons. Oxford, England: MIT Press.
Rumelhart, D.E., McClelland, J.L. & the PDP Research Group (1986). Parallel Distributed Processing,
Volume 1: Foundations. Cambridge, MA: The MIT Press.
Sandamirskaya, Y., Zibner, S.K.U., Schneegans, S. & Schöner, G. (2013). Using dynamic field theory to
extend the embodiment stance toward higher cognition. New Ideas in Psychology, 31(3), 322-339.
Simpson, P.K. (1992). Fuzzy min-max neural networks - part1: classification. IEEE Transactions on Neural
Networks, 3(5), 776-786.
Simpson, P.K. (1993). “Fuzzy min-max neural networks - part2: clustering”, IEEE Transactions on Fuzzy
Systems, 1(1), pp. 32-45.
Werbos, P. (1974). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences.
PhD thesis, Harvard University, Cambridge, MA.

1-19
Κεφάλαιο 2: Ασαφή Συστήματα
Έχει διατυπωθεί η άποψη ότι η αποτελεσματικότητα της συνεργασίας των ανθρώπων μεταξύ τους οφείλεται
στο γεγονός ότι οι άνθρωποι επικοινωνούν με ανακριβείς έννοιες μάλλον παρά με ακριβείς αριθμούς (Zadeh,
1999). Σε μια προσπάθεια ανάπτυξης μηχανών που να συνεργάζονται μεταξύ τους τόσο αποτελεσματικά όσο
και οι άνθρωποι προτάθηκε η αναπαράσταση μιας έννοιας (concept) με ένα ασαφές σύνολο καθώς και η
εξαγωγή συμπερασμάτων στη βάση μιας ασαφούς λογικής. Έτσι αναπτύχθηκε η θεωρία των ασαφών
συνόλων, της ασαφούς λογικής και, τελικά, η τεχνολογία ασαφών συστημάτων που θα παρουσιαστούν σ’
αυτό το κεφάλαιο.

2.1 Βασικές Έννοιες Ασαφών Συνόλων


Για καλύτερη κατανόηση θα χρησιμοποιηθεί συνολοθεωρητική ορολογία. Κατ’ αρχάς χρειαζόμαστε ένα
σύνολο Ω, το οποίο ονομάζουμε σύνολο αναφοράς ή, εναλλακτικά, βασικό σύνολο (universe of discourse).
Ένα ασαφές σύνολο (fuzzy set) Α του Ω ταυτίζεται με την χαρακτηριστική συνάρτησή του (characteristic
function) Α: Ω[0,1]. Η χαρακτηριστική συνάρτηση A(x) ενός ασαφούς συνόλου Α, εναλλακτικά,
ονομάζεται συνάρτηση συμμετοχής (membership function) του ασαφούς συνόλου Α (Zadeh, 1965).
Σημειώστε ότι ένα ασαφές σύνολο συμβολίζεται με το ζεύγος (Ω,Α). Ένα ασαφές σύνολο ερμηνεύεται ως
κόκκος πληροφορίας (information granule) (Kaburlasos, 2006· Zadeh, 1999) και ορίζεται ως μια ομάδα
τιμών που νοούνται ως μια ολότητα εξαιτίας της ομοιότητας, της εγγύτητας ή/και της λειτουργικότητάς τους.
Μια συνάρτηση συμμετοχής A(x) συνήθως ορίζεται υποκειμενικά από κάποιον άνθρωπο. Όμως, αφού
η συνάρτηση A(x) οριστεί (υποκειμενικά), τη χειριζόμαστε με συγκεκριμένες υπολογιστικές τεχνικές, όπως
περιγράφεται σ' αυτό το κεφάλαιο.
Ένα ασαφές σύνολο Α αναπαρίσταται ως ένα σύνολο διατεταγμένων ζευγών

Α = {(x,A(x))| xΩ και A(x)[0,1]} (2.1)

όπου το A(x) δείχνει το βαθμό στον οποίο το x είναι μέλος του ασαφούς συνόλου Α. Εναλλακτικά, ένα ασαφές
A( x )
σύνολο Α μπορεί να αναπαρασταθεί ως Α = { | xΩ και A(x)[0,1]}. Σημειώστε ότι όταν το Ω είναι
x
n
A( xi )
αριθμήσιμο (π.χ. πεπερασμένο) σύνολο (countable set), τότε το ασαφές σύνολο Α γράφεται: Α =  ,
i 1 xi
όπου το σύμβολο Σ δε σημαίνει αλγεβρική πρόσθεση, αλλά συνολοθεωρητική ένωση (). Ενώ, όταν το Ω
A( x )
είναι μη-αριθμήσιμο (π.χ. Ω = [0,1]), τότε το ασαφές σύνολο Α γράφεται: Α =  , όπου το σύμβολο 

x
δεν έχει την έννοια του ολοκληρώματος, αλλά την έννοια της επέκτασης της προαναφερθείσας
συνολοθεωρητικής ένωσης () στο συνεχές.

Παράδειγμα Α
Θεωρήστε το βασικό σύνολο Ω οπωρολαχανικών που ακολουθεί

Ω = {μήλο, αχλάδι, κεράσι, μαρούλι, ντομάτα}

Μπορούμε να ορίσουμε το ασαφές σύνολο Π: Ω[0,1] έτσι, ώστε η χαρακτηριστική συνάρτηση Π(x)
να δείχνει το βαθμό κατά τον οποίο το οπωρολαχανικό xΩ είναι πράσινο. Συγκεκριμένα, το ασαφές σύνολο
Π θα μπορούσε να είναι το ακόλουθο Π = {(μήλο,0.2), (αχλάδι,0.9), (κεράσι,0), (μαρούλι,1), (ντομάτα,0.2)}.
0. 2
Εναλλακτικά, σύμφωνα με τα παραπάνω, το ασαφές σύνολο Π μπορεί να αναπαρασταθεί ως Π = +
μήλο
0.9 0 1 0.2
+ + + , όπου η πράξη «+» δε σημαίνει αλγεβρική πρόσθεση αλλά
αχλάδι κεράσι μαρούλι ντομάτα

2-1
A( x )
συνολοθεωρητική ένωση (). Ζεύγη (x,A(x)), είτε , με A(x)=0 μπορούν να παραλειφθούν. Ασφαλώς, οι
x
ακριβείς τιμές που λαμβάνει η συνάρτηση Π(x) εξαρτώνται από το βαθμό της ωρίμανσης του
οπωρολαχανικού x σύμφωνα με την υποκειμενική κρίση αυτού που δίδει τιμές στη συνάρτηση Π(x). Για
παράδειγμα, θα μπορούσε να είναι «Π(ντομάτα) = 1» όταν μια ντομάτα είναι εντελώς άγουρη, ενώ να είναι
«Π(ντομάτα) = 0» όταν μια ντομάτα είναι κατακόκκινη ώριμη. Προφανώς, για κάποιο ενδιάμεσο βαθμό
ωρίμανσης θα μπορούσε να είναι «Π(ντομάτα) = 0.8» ή «Π(ντομάτα) = 0.3» κ.λπ., κατά την κρίση αυτού που
δίδει τιμές στην συνάρτηση Π(x).
Ένα κλασικό σύνολο θεωρείται ως ειδική περίπτωση ασαφούς συνόλου όπου το πεδίο τιμών της
χαρακτηριστικής συνάρτησης είναι το διμελές σύνολο αριθμών {0,1} αντί του κλειστού διαστήματος
αριθμών [0,1]. Για παράδειγμα, θεωρήστε το ακόλουθο βασικό σύνολο Ω φοιτητών και φοιτητριών

Ω = {Μαρία, Ελένη, Γιάννης, Κώστας, Νίκη, Γεωργία, Ανδρέας}

Ένα κλασικό σύνολο Κ θα μπορούσε περιγραφικά να οριστεί ως το υποσύνολο εκείνο των φοιτητών
και φοιτητριών του Ω που έχουν περάσει το μάθημα της Υπολογιστικής Νοημοσύνης. Η χαρακτηριστική
συνάρτηση, έστω Κ(x), του συνόλου Κ λαμβάνει τιμές στο διμελές σύνολο {0, 1}. Έτσι, θα μπορούσε να
είναι είτε «Κ(Ελένη) = 1» είτε «Κ(Ελένη) = 0», δηλ. είτε η Ελένη πέρασε το μάθημα «Υπολογιστική
Νοημοσύνη» είτε η Ελένη δεν το πέρασε, αντίστοιχα, και οτιδήποτε άλλο αποκλείεται.

2.1.1 Τεχνικά Χαρακτηριστικά Ασαφών Συνόλων


Στη συνέχεια απαριθμούμε μερικά τεχνικά χαρακτηριστικά ασαφών συνόλων:

1) Ονομάζεται α-διατομή (α-cut) ενός ασαφούς συνόλου Α ως προς σύνολο αναφοράς Ω, το κλασικό
σύνολο Αα που ορίζεται ως εξής:

Αα = {xΩ| Α(x)  α}, όπου α[0,1] (2.2)

Για α = 1, το σύνολο 1-διατομή Α1 ονομάζεται και πυρήνας (core) του ασαφούς συνόλου Α. Η
αναπαράσταση των α-διατομών θα χρησιμοποιηθεί σε ένα διαφορετικό θεωρητικό πλαίσιο (από αυτό
των ασαφών συνόλων) στο Μέρος-ΙΙΙ αυτού του βιβλίου όπου προτείνεται μια ενοποίηση στην
Υπολογιστική Νοημοσύνη.

2) Ονομάζεται στήριγμα ή, εναλλακτικά, φορέας (support) ενός ασαφούς συνόλου Α ως προς σύνολο
αναφοράς Ω, το κλασικό σύνολο supp(Α) που ορίζεται ως εξής:

supp(Α) = {xΩ| Α(x) > 0} (2.3)

3) Ονομάζεται ύψος (height) ενός ασαφούς συνόλου Α ως προς σύνολο αναφοράς Ω, το ελάχιστο άνω
φράγμα (least upper bound ή, εναλλακτικά, (sup)premum) των βαθμών συμμετοχής (degrees of
membership) στο Α όλων των στοιχείων του Α:
hgt(Α) = sup{ A( x)} (2.4)
x

Σημειώστε ότι όταν, όπως τυπικά συμβαίνει στην πράξη, το πλήθος των στοιχείων του ασαφούς
συνόλου Α είναι πεπερασμένο, τότε το ελάχιστο άνω φράγμα (sup) αντιστοιχεί στο μέγιστο (max) των
βαθμών συμμετοχής στο Α όλων των στοιχείων του ασαφούς συνόλου Α. Αν hgt(Α) = 1, τότε το
ασαφές σύνολο Α ονομάζεται κανονικό (normal). Δηλαδή, ένα κανονικό ασαφές σύνολο Α έχει (μη
κενό) πυρήνα, συμβολικά Α1.

4) Ένα ασαφές σύνολο Α ως προς σύνολο αναφοράς Ω ονομάζεται κενό (empty) ασαφές σύνολο, όταν
για κάθε xΩ είναι Α(x) = 0.

2-2
5) Δύο ασαφή σύνολα Α και Β ως προς σύνολο αναφοράς Ω ονομάζονται ίσα (equal) όταν για κάθε
xΩ είναι Α(x) = Β(x). Ωστόσο, ένας τέτοιος ορισμός της ισότητας κρίθηκε αυστηρός από κάποιους
ερευνητές και γι' αυτό το λόγο ορίστηκαν εναλλακτικές (ασαφείς) σχέσεις ισότητας με διαβαθμίσεις.
6) Σχέση εγκλεισμού ή, εναλλακτικά, σχέση υποσυνολότητας. Για δύο ασαφή σύνολα Α και Β ως προς
(κοινό) σύνολο αναφοράς Ω, λέμε ότι το Α είναι υποσύνολο του Β (ή ότι το Α περιέχεται στο Β) και
γράφουμε Α  Β τότε και μόνον τότε, αν Α(x)  Β(x), xΩ. Ωστόσο, ένας τέτοιος ορισμός της
υποσυνολότητας κρίθηκε ως αυστηρός από κάποιους ερευνητές και γι' αυτό το λόγο ορίστηκαν
εναλλακτικές (ασαφείς) σχέσεις υποσυνολότητας με διαβαθμίσεις.
7) Το ασαφές δυναμοσύνολο (fuzzy power set) ως προς σύνολο αναφοράς Ω ορίζεται ως το σύνολο
όλων των ασαφών υποσυνόλων του Ω, συμβολικά F(Ω) = [0,1]Ω = {Α| Α: Ω[0,1]}. Οι πράξεις
ένωση (), τομή () και συμπλήρωμα () μπορούν να οριστούν στο F(Ω) ως εξής:

(AB)(x) = max{A(x),B(x)}
(AB)(x) = min{A(x),B(x)} (2.5)
A(x) = 1-A(x)

Σημειώστε ότι ο τελεστής max (δηλ. maximum  μέγιστο) χρησιμοποιείται για πεπερασμένο πλήθος
στοιχείων, ενώ σε διαφορετική περίπτωση, χρησιμοποιείται ο τελεστής sup (δηλ. supremum 
ελάχιστο άνω φράγμα) συμβολικά . Αντίστοιχα ισχύουν και για τον τελεστή min (δηλ. minimum 
ελάχιστο), ο οποίος για μη-πεπερασμένο πλήθος στοιχείων αντικαθίσταται με τον τελεστή inf, βλ.
μέγιστο κάτω φράγμα (greatest lower bound ή, εναλλακτικά, (inf)imum)) ή συμβολικά .
Συνεπώς, οι τελεστές  και  είναι γενικότεροι των τελεστών max και min, αντίστοιχα, και οι
προαναφερθέντες ορισμοί για την ένωση () και την τομή () μπορούν να γραφτούν ως (AB)(x) =
A(x)B(x) και (AB)(x) = A(x)B(x), αντίστοιχα.
Στα μαθηματικά αποδείχτηκε ότι η δομή (F(Ω),) είναι ένα πλήρες πλέγμα (Για το μαθηματικό
ορισμό του πλήρους πλέγματος βλέπε στο κεφάλαιο 7). Σημειώστε ότι ο όρος «πλέγμα» προτείνεται
εδώ, στο πλαίσιο της Υπολογιστικής Νοημοσύνης, αντί του όρου «δικτυωτό» που έχει προταθεί στα
μαθηματικά (Θεοδώρου, 2010) ως η μετάφραση στα ελληνικά του αγγλικού όρου «lattice».
Επισημαίνουμε ότι ο όρος πλέγμα μπορεί να έχει και μια άλλη, διαφορετική έννοια, δηλ. αυτή του
ορθογώνιου πλέγματος, η οποία δεν θα μας απασχολήσει στο παρόν βιβλίο.

Στη βιβλιογραφία διατυπώνεται ένα πλήθος άλλων χαρακτηριστικών και ιδιοτήτων ασαφών συνόλων
με μαθηματικό κυρίως ενδιαφέρον. Πιο πάνω εστιάσαμε σε ορισμένα χαρακτηριστικά και ιδιότητες που
ενδιαφέρουν σε πρακτικές εφαρμογές.

2.2 Επεκτάσεις Ασαφών Συνόλων


Το επόμενο αποτέλεσμα έχει σημαντικές προεκτάσεις, τόσο θεωρητικές, όσο και πρακτικές.

2.2.1 Αναπαράσταση ενός Ασαφούς Συνόλου


Ένα μαθηματικό αποτέλεσμα της θεωρίας ασαφών συνόλων είναι το θεώρημα της ταυτοποίησης
(resolution identity theorem), το οποίο λέει ότι ένα ασαφές σύνολο μπορεί να αναπαρασταθεί, ισοδύναμα,
είτε με την συνάρτηση συμμετοχής του είτε με τις -διατομές του (Zadeh, 1975). Ένα πλεονέκτημα των -
διατομών είναι η δυνατότητα παράλληλης επεξεργασίας επίπεδο-προς-επίπεδο.
Έτσι, υπάρχουν δύο ισοδύναμοι τρόποι αναπαράστασης ενός ασαφούς συνόλου: είτε με την
χαρακτηριστική συνάρτησή του είτε με το σύνολο των α-διατομών του. Η ισοδυναμία των προαναφερθέντων
δύο αναπαραστάσεων χρησιμοποιείται συχνά για να μετατρέπονται σχέσεις και πράξεις μεταξύ ασαφών
συνόλων σε σχέσεις και πράξεις μεταξύ α-διατομών.

2.2.2 Η Αρχή της Επέκτασης


Η αρχή της επέκτασης (extension principle) χρησιμοποιείται για την ασαφοποίηση (fuzzification)
συναρτήσεων, όπως εξηγείται παρακάτω. Συγκεκριμένα, έστω δύο (κλασικά) σύνολα αναφοράς X και Y και
μια συνάρτηση f: XY. Δοθέντος ενός ασαφούς συνόλου Α στο σύνολο αναφοράς X, η αρχή της επέκτασης
ορίζει το ασαφές σύνολο Β στο σύνολο αναφοράς Y, στο οποίο απεικονίζεται το Α μέσω της συνάρτησης f:

2-3
B( y )  f ( A( x))  sup { A( x)} (2.6)
xX | y  f ( x )
Η αρχή της επέκτασης μπορεί να εφαρμοστεί με υπολογισμούς α-διατομών ως εξής:

[f(A)]a = f(Aa) (2.7)

Σημειώστε ότι η εφαρμογή της αρχής της επέκτασης δεν οδηγεί αναγκαστικά σε καλύτερα
αποτελέσματα. Συγκεκριμένα, είναι δυνατόν να επινοηθεί ένα εξειδικευμένο ασαφές μοντέλο το οποίο σε
κάποια πρακτική εφαρμογή να δίνει καλύτερα αποτελέσματα από το ασαφές μοντέλο που προκύπτει από την
εφαρμογή της αρχής της επέκτασης.

2.2.3 Ασαφής Σχέση


Μια ασαφής σχέση (fuzzy relation) R μεταξύ δύο (κλασικών) συνόλων X και Y είναι ένα ασαφές σύνολο ως
προς το σύνολο αναφοράς XY και ορίζεται ως R: XY[0,1]. Γενικότερα, μια ασαφής σχέση ορίζεται στο
Καρτεσιανό γινόμενο (Cartesian product) N (κλασικών) συνόλων. Για παράδειγμα, έστω τα (κλασικά)
σύνολα Μ και Θ πόλεων της Μακεδονίας και Θεσσαλίας που ορίζονται ως Μ = {Σέρρες, Καβάλα} και Θ =
{Καρδίτσα, Βόλος}. Μια ασαφής σχέση R = «ομοιότητα» μεταξύ των Μ και Θ θα μπορούσε να οριστεί ως
0.8 0.2 0.1 0.6
R(x,y) = + + + . Υπενθυμίζουμε ότι ο προαναφερθείς
(Σερ, Καρ) (Σερ, Βολ) (Καβ, Καρ) (Καβ, Βολ)
συμβολισμός κλάσματος δεν έχει την κλασική έννοια του κλάσματος: π.χ. 0.2/(Σερ,Βολ) απλώς σημαίνει ότι
η ομοιότητα των Σερρών και του Βόλου ορίζεται (από το χρήστη) να είναι 0.2. Η προαναφερθείσα ασαφής
0.8 0.2 
σχέση R μπορεί να παρασταθεί υπό μορφή δισδιάστατου πίνακα ως R =  .
 0.1 0.6 

2.2.4 Προβολή
Μια χρήσιμη πράξη είναι η προβολή (projection) μιας ασαφούς σχέσης. Συγκεκριμένα, έστω μια ασαφής
σχέση Α(x1,…,xN) ως προς σύνολο αναφοράς το Καρτεσιανό γινόμενο X=X1XN και έστω
H  Xi1   Xim με {i1,…,im}= I  I ={1,…,N} ένας υποχώρος του X. Ονομάζουμε προβολή (projection)
του Α(x1,…,xN) στον υποχώρο H  Xi1   Xim το ασαφές σύνολο που ορίζεται ως

ProjHA(x1,,xN) = P( xi1 , , xim ) = max { A( x1, , xN )} (2.8)


i{i1, ,i m }

Για μη-πεπερασμένο πλήθος αριθμητικών τιμών A(x1,,xN) ο τελεστής max αντικαθίσταται με τον
τελεστή sup ή, ισοδύναμα, . Για παράδειγμα, έστω μια ασαφής σχέση R(x,y), όπου xX=, yY= και 
είναι το σύνολο των πραγματικών αριθμών. Η προβολή της R(x,y) στο Y είναι το ασαφές σύνολο B(y) =
ProjYR(x,y) =  R( x, y ) .
x

2.2.5 Γενικεύσεις Ασαφών Συνόλων


Στα προηγούμενα, η χαρακτηριστική συνάρτηση Α: Ω[0,1] ενός ασαφούς συνόλου Α ως προς το σύνολο
αναφοράς Ω απεικόνιζε ένα συγκεκριμένο στοιχείο xΩ σε έναν αριθμό στο διάστημα [0,1]. Τέτοια ασαφή
σύνολα ονομάζονται τύπου-1 (type-1). Ωστόσο, πολλοί ερευνητές θεώρησαν ότι τα ασαφή σύνολα τύπου-1
περιορίζουν την ασάφεια. Για το λόγο αυτό προτάθηκε η χαρακτηριστική συνάρτηση να λαμβάνει τιμές στο
σύνολο των κλειστών διαστημάτων του [0,1]. Με άλλα λόγια, ένα στοιχείο xΩ να απεικονίζεται σε ένα
διάστημα του [0,1]. Έτσι, προέκυψε το διαστημότιμο ασαφές σύνολο (interval-valued fuzzy set).
Ένα διαστημότιμο ασαφές σύνολο Α μπορεί να γενικευτεί περαιτέρω, θεωρώντας ότι η
χαρακτηριστική του συνάρτηση λαμβάνει τιμές στο ασαφές δυναμοσύνολο [0,1][0,1]. Με άλλα λόγια, ένα
στοιχείο xΩ απεικονίζεται σε ένα ασαφές σύνολο ως προς το σύνολο αναφοράς Ω = [0,1], συμβολικά Α:
ΩF([0,1]), όπου η δομή (F([0,1]),) είναι ένα πλήρες πλέγμα, όπως προαναφέρθηκε. Το προκύπτον ασαφές

2-4
σύνολο ονομάζεται (γενικευμένο) ασαφές σύνολο τύπου-2 ((generalized) type-2 fuzzy set). Σημειώστε ότι
ένα διαστημότιμο ασαφές σύνολο είναι ειδική περίπτωση (γενικευμένου) ασαφούς συνόλου τύπου-2.
Όλα τα προαναφερθέντα ασαφή σύνολα μπορούν να θεωρηθούν ως ειδικές περιπτώσεις της
γενικότερης περίπτωσης ασαφούς συνόλου Α: ΩL, όπου η δομή (L,⊑) είναι πλήρες πλέγμα. Π.χ. για L =
[0,1] προκύπτουν τα ασαφή σύνολα τύπου-1, για L = F([0,1]) προκύπτουν τα ασαφή σύνολα τύπου-2 κ.λπ.
Ένας αριθμός εναλλακτικών ασαφών συνόλων, συνήθως με μαθηματικό ενδιαφέρον αποκλειστικά,
έχουν οριστεί και συνεχίζεται να παρουσιάζονται στην βιβλιογραφία για αναπαράσταση της ασάφειας, της
αμφιβολίας, της ανακρίβειας, κ.λπ. Για παράδειγμα, αναφέρουμε το διαισθητικό ασαφές σύνολο
(intuitionistic fuzzy set) (Χατζημιχαηλίδης, 2014), έστω Α, το οποίο χαρακτηρίζεται πρώτον, από μία
συνάρτηση συμμετοχής Α: Ω[0,1] και δεύτερον, μία συνάρτηση μη-συμμετοχής (non-membership
function) Α: Ω[0,1] στο σύνολο αναφοράς Ω έτσι ώστε 0  Α(x) + Α(x)  1.

2.3 Ασαφής Λογική


Η ασαφής λογική (fuzzy logic) ξεκινάει με την παραδοχή ότι μια πρόταση μπορεί να μην είναι ούτε
(απόλυτα) αληθής, ούτε (απόλυτα) ψευδής, αλλά να χαρακτηρίζεται από κάποιο βαθμό αλήθειας (degree of
truth). Με άλλα λόγια, μπορεί η αλήθεια μιας πρότασης να μην είναι δίτιμη (two-valued) στο διμελές
σύνολο {0,1}, αλλά να είναι πλειότιμη (multi-valued) στο απειροσύνολο (κλειστό) διάστημα [0,1]. Στη
συνέχεια παρουσιάζουμε συγκεκριμένα παραδείγματα.

Παράδειγμα Β
Παράδειγμα δίτιμης πρότασης είναι «Η Ελένη πέρασε το μάθημα της Υπολογιστικής Νοημοσύνης» διότι,
εφόσον εξετάστηκε, η Ελένη είτε το πέρασε το μάθημα, είτε όχι, και οτιδήποτε άλλο αποκλείεται. Άλλο
παράδειγμα δίτιμης πρότασης είναι «Ο Πέτρος έχει ελληνικό διαβατήριο» διότι ο Πέτρος είτε έχει ελληνικό
διαβατήριο, είτε όχι, και αποκλείεται να συμβαίνει οτιδήποτε άλλο. Τέλος, σημειώστε τη διαδεδομένη
πεποίθηση ότι οι μαθηματικές προτάσεις είναι δίτιμες, δηλ. είναι είτε αληθείς είτε ψευδείς. Έτσι, για
παράδειγμα, στη Γεωμετρία μπορεί να αναζητηθεί η δίτιμη τιμή αλήθειας της πρότασης «Τα ύψη ενός
τριγώνου διέρχονται από το ίδιο σημείο».

Παράδειγμα Γ
Κάποιες προτάσεις από τη φύση τους δεν είναι δίτιμες, αλλά πλειότιμες. Για παράδειγμα, η πρόταση «Το
φύλλωμα του δένδρου είναι καταπράσινο» είναι αληθής στο βαθμό που το φύλλωμα του δένδρου είναι
καταπράσινο. Έτσι, η προαναφερθείσα πρόταση μπορεί να είναι απόλυτα αληθής στις αρχές της άνοιξης, να
είναι απόλυτα ψευδής στα τέλη του φθινοπώρου, όταν όλα τα φύλλα του δένδρου έχουν κιτρινίσει, και να
είναι ως κάποιο βαθμό αληθής σε κάποια ενδιάμεση χρονική στιγμή, όταν τα φύλλα είναι εν μέρει
κίτρινα/πράσινα.

Τυπικά, όπως συμβαίνει σ’ αυτό το κεφάλαιο, μια πλειότιμη πρόταση λαμβάνει τιμές στο
απειροσύνολο (κλειστό) διάστημα [0,1]. Ωστόσο, έχουν προταθεί επεκτάσεις, μαθηματικού κυρίως
ενδιαφέροντος, όπου μια πλειότιμη πρόταση λαμβάνει τιμές σε ένα (πλήρες) πλέγμα (Goguen, 1967).
Σημειώστε ότι στις περισσότερες των περιπτώσεων μια προτεινόμενη (πλειότιμη) λογική επέκταση είναι
τέτοια, ώστε η γνωστή δίτιμη (προτασιακή) λογική ισχύει ως ειδική περίπτωση. Στη συνέχεια, μελετούμε μια
μοντελοποίηση της ομιλούμενης γλώσσας στο πλαίσιο της δίτιμης (προτασιακής) λογικής.

2.3.1 Μια Δίτιμη Μοντελοποίηση της Ομιλούμενης Γλώσσας


Μια δίτιμη πρόταση P μπορεί να είναι σύνθετη (composite proposition), αποτελούμενη από τη διάζευξη
ή/και τη σύζευξη ή/και την άρνηση κ.λπ. περισσότερων από μια δίτιμων προτάσεων P1,,Pn. Για
παράδειγμα, μπορεί μια πρόταση, έστω P, να είναι η σύζευξη «P1 ΚΑΙ  ΚΑΙ Pn». Οπότε, η σύνθετη
πρόταση P είναι αληθής, εάν και μόνο εάν όλες οι προτάσεις P1,,Pn είναι αληθείς.
Προτάσεις εμπλέκονται σε γλωσσικές δομές, οι οποίες ονομάζονται κανόνες (rules), της μορφής
R: ΕΑΝ «πρόταση-αίτιο» ΤΟΤΕ «πρόταση-αποτέλεσμα»

ή συμβολικά
R: PQ

2-5
όπου P είναι η «πρόταση-αίτιο» και Q είναι η «πρόταση-αποτέλεσμα». Συνηθίζεται η πρόταση P να
ονομάζεται το αίτιο (antecedent) και η πρόταση Q το αποτέλεσμα (consequent) του κανόνα R: PQ.
Ένας κανόνας R: PQ αποτελεί (και αυτός) μια πρόταση, η τιμή αληθείας της οποίας είναι
συνάρτηση των τιμών αληθείας p και q των προτάσεων P(αίτιο) και Q (αποτέλεσμα) αντίστοιχα. Η πρώτη
στήλη του Πίνακα 2.1 δείχνει την τιμή αλήθειας του κανόνα R: PQ για τη δίτιμη (Boolean) συνάρτηση
συνεπαγωγής (implication function) pq. Επιπλέον, ο Πίνακας 2.1 δείχνει τη συνάρτηση pq και τη
σχέση pq που έχουν τον ίδιο πίνακα αλήθειας με τη συνάρτηση συνεπαγωγής pq. Συγκεκριμένα, η
συνάρτηση pq είναι μια δίτιμη συνάρτηση των δίτιμων μεταβλητών p και q, ενώ η σχέση pq είναι είτε
αληθής (τιμή 1), είτε ψευδής (τιμή 0), ανάλογα με τις τιμές που λαμβάνουν οι δίτιμες μεταβλητές p και q.

p q pq pq pq

0 0 1 1 1
0 1 1 1 1
1 0 0 0 0
1 1 1 1 1

Πίνακας 2.1 Πίνακας αληθείας της δίτιμης συνάρτησης συνεπαγωγής pq, όπου p και q είναι οι δίτιμες τιμές αλήθειας
των προτάσεων P (αίτιο) και Q (αποτέλεσμα) ενός κανόνα PQ. Η συνάρτηση pq και η σχέση p  q έχουν τον ίδιο
πίνακα αλήθειας με την συνεπαγωγή pq.

Ας μελετήσουμε τον ακόλουθο κανόνα


R: ΕΑΝ «ο άνθρωπος Α πέφτει στο νερό» ΤΟΤΕ «ο άνθρωπος Α βρέχεται»,
όπου η πρόταση P είναι «ο άνθρωπος Α πέφτει στο νερό», ενώ η πρόταση Q είναι «ο άνθρωπος Α βρέχεται».
Σημειώστε ότι όχι μόνον η κάθε πρόταση P και Q ξεχωριστά έχει νόημα, αλλά και ο κανόνας R: PQ έχει
νόημα και, τέλος, οι τιμές της συνάρτησης συνεπαγωγής pq του Πίνακα 2.1 μπορούν να επαληθευτούν με
την κοινή λογική.
Ωστόσο, τα πράγματα είναι διαφορετικά όταν P είναι, έστω, η πρόταση «υπάρχει ένα βιβλίο επάνω
στο τραπέζι», ενώ Q είναι η πρόταση «βρέχει στο Τόκυο». Προφανώς, κάθε μια από τις προτάσεις P και Q,
ξεχωριστά, έχει νόημα και μπορεί να είναι είτε αληθής είτε ψευδής, ωστόσο ο κανόνας R: PQ δεν έχει
νόημα στο πλαίσιο της κοινής λογικής. Συνεπώς, ένας κανόνας R: PQ αναπαριστά περισσότερη
πληροφορία από αυτήν που αναπαριστούν κάθε μία από τις προτάσεις P και Q ξεχωριστά. Συγκεκριμένα, η
επιπλέον πληροφορία στον κανόνα R: PQ έγκειται στη συσχέτιση δύο προτάσεων P και Q με τη σχέση
αίτιου-αποτελέσματος ή, με συνολοθεωρητικούς όρους, μπορούμε να πούμε ότι η επιπλέον πληροφορία
έγκειται στη θεώρηση του διατεταγμένου ζεύγους (P,Q) ως γεγονός.
Στα προηγούμενα, ένας κανόνας R: PQ μπορεί να θεωρηθεί ως ένα «(μηχανικό) σύστημα» με μία
είσοδο (την πρόταση P) και μία έξοδο (την πρόταση Q). Παρακάτω θα θεωρήσουμε επεκτάσεις τέτοιων
συστημάτων με περισσότερες εισόδους και εξόδους.
Ένα σύνολο κανόνων ονομάζεται αλγόριθμος (algorithm) ή, εναλλακτικά, σύστημα (system) ή,
εναλλακτικά, μοντέλο και αποτελεί το υψηλότερο επίπεδο της ομιλούμενης γλώσσας που μοντελοποιείται
εδώ στο πλαίσιο της προτασιακής λογικής. Στη συνέχεια μελετούμε πώς η προαναφερθείσα μοντελοποίηση
της ομιλούμενης γλώσσας επεκτείνεται στο πλαίσιο της ασαφούς λογικής.

2.3.2 Επεκτάσεις στην Ασαφή Λογική


Έχουμε ήδη εξηγήσει παραπάνω πως η αλήθεια μιας πρότασης μπορεί να είναι πλειότιμη στο διάστημα [0,1].
Μια ασαφής επέκταση της δίτιμης προτασιακής λογικής τυπικά βασίζεται σε μια αξιωματική επέκταση των
λογικών πράξεων της σύζευξης, της διάζευξης και της άρνησης για τη δημιουργία σύνθετων (ασαφών)
προτάσεων. Συγκεκριμένα, έχουν προταθεί τελεστές T: [0,1][0,1][0,1] με το όνομα τριγωνική νόρμα ή,
εναλλακτικά, τ-νόρμα (triangular norm ή, εναλλακτικά, t-norm), ως επεκτάσεις της λογικής σύζευξης,
τελεστές S: [0,1][0,1][0,1] με το όνομα τριγωνική συννόρμα ή, εναλλακτικά, τ-συννόρμα ή σ-νόρμα

2-6
(triangular conorm ή, εναλλακτικά, t-conorm ή s-norm), ως επεκτάσεις της λογικής διάζευξης, καθώς και,
αντιστοίχως, τελεστές N: [0,1][0,1] για την άρνηση (Klir & Yuan, 1995· Nguyen & Walker, 2005).

Συνήθως, μια τριγωνική νόρμα τυπικά ζητείται να έχει τις ακόλουθες ιδιότητες:

Ν1. T(x,y) = T(y,x)  Αντιμεταθετική.


Ν2. T(x,T(y,z) = T(T(x,y),z)  Προσεταιριστική.
Ν3. y  z  T(x,y)  T(x,z)  Μονοτονική.
Ν4. T(x,1) = x  Ουδέτερο Στοιχείο 1.

Μια τριγωνική συννόρμα τυπικά ζητείται να έχει τις ακόλουθες ιδιότητες:

Κ1. S(x,y) = S(y,x)  Αντιμεταθετική.


Κ2. S(x,S(y,z) = S(S(x,y),z)  Προσεταιριστική.
Κ3. y  z  S(x,y)  S(x,z)  Μονοτονική.
Κ4. S(x,0) = x  Ουδέτερο Στοιχείο 0.

Ενώ, ένας τελεστής για την άρνηση τυπικά ζητείται να έχει την ακόλουθη ιδιότητα:

Α1. x  y  N(x)  N(y).

Παραδείγματα τριγωνικής νόρμας


TM(x,y) = min{x,y}  Ελάχιστη τ-νόρμα ή, εναλλακτικά, τ-νόρμα Gödel.
TP(x,y) = xy  τ-νόρμα γινομένου.
TL(x,y) = max{x+y-1,0}  τ-νόρμα Lukasiewicz.

Παραδείγματα τριγωνικής κονόρμας


SM(x,y) = max{x,y}  Μέγιστη τ-συννόρμα ή, εναλλακτικά, τ-συννόρμα Gödel.
SP(x,y) = x+y-xy  τ-νόρμα γινομένου ή, εναλλακτικά, πιθανοτικό άθροισμα.
SL(x,y) = min{x+y,1}  τ-συννόρμα Lukasiewicz ή, εναλλακτικά, φραγμένου αθροίσματος.

Παράδειγμα άρνησης
N(x) = 1-x.

Μια πλειότιμη (ασαφής) πρόταση Α μπορεί να είναι σύνθετη αποτελούμενη από τη διάζευξη ή/και τη
σύζευξη ή/και την άρνηση απλών, πλειότιμων προτάσεων Α1,,Αn. Ο βαθμός αλήθειας της σύνθετης
πρότασης Α υπολογίζεται από τους βαθμούς αλήθειας των Α1,,Αn, έτσι ώστε μια σύζευξη υπολογίζεται με
μια τ-νόρμα, μια διάζευξη υπολογίζεται με σ-νόρμα και μια άρνηση με έναν τελεστή άρνησης. Για
παράδειγμα, εάν η πρόταση Α έχει τη μορφή της σύζευξης «Α1 ΚΑΙ  ΚΑΙ Αn», τότε ο βαθμός αλήθειας a
της πρότασης Α μπορεί να υπολογίζεται είτε ως το ελάχιστο a = min{a1,,an} είτε ως το γινόμενο a =
a1an κ.λπ., όπου a1,,an είναι οι βαθμοί αλήθειας των ασαφών προτάσεων A1,,An αντίστοιχα.
Περαιτέρω, ο βαθμός αλήθειας μιας ασαφούς συνεπαγωγής Ι: [0,1][0,1][0,1] ορίζεται ως μια
συνάρτηση Ι(a,b) με δύο ορίσματα a και b, έτσι ώστε για a,b{0,1} η συνάρτηση I(a,b) να επαληθεύει τον
Πίνακα 2.1. Στα μαθηματικά έχουν προταθεί οι ακόλουθες οικογένειες συναρτήσεων ασαφών συνεπαγωγών
(Hatzimichailidis κ.ά., 2012):

IS(a,b) = S(n(a),b)  Συνεπαγωγές-S,


IR(a,b) = sup{x[0,1]| T(a,x)  b}  Συνεπαγωγές-R,
IQL(a,b) = S(n(a), T(a,b))  Συνεπαγωγές-QL,

όπου η συνάρτηση T(.,.) είναι τ-νόρμα, η συνάρτηση S(.,.) είναι σ-νόρμα και η συνάρτηση n(.) είναι άρνηση.
Σε πρακτικές εφαρμογές συχνά χρησιμοποιούνται οι ακόλουθες συναρτήσεις ασαφών συνεπαγωγών:
IB(a,b) = (1-a)b  κατά Boole.

2-7
IL(a,b) = 1(1-a+b)  κατά Lukasiewicz.
IZ(a,b) = (ab)(1-a)  κατά Zadeh.
IM(a,b) = ab  κατά Mamdani.
Είναι ενδιαφέρον ότι μόνον οι τρεις πρώτες συνεπαγωγές (δηλ. οι κατά Boole, Lukasiewicz και
Zadeh) επαληθεύουν τον Πίνακα 2.1 της δίτιμης συνάρτησης συνεπαγωγής. Εντούτοις, η συνεπαγωγή κατά
Mamdani είναι μακράν η δημοφιλέστερη λόγω της αποτελεσματικότητάς της, καθώς και λόγω της ταχύτητας
υλοποίησής της, αφού επιλέγει το μικρότερο μεταξύ δύο αριθμών. Το τελευταίο δείχνει ότι στην πράξη
προτιμώνται τεχνικές αποτελεσματικότερες από άλλες, οι οποίες μπορεί να ικανοποιούν κάποιες θεωρητικές
αρχές.
Έστω μια σύνθετη (ασαφής) πρόταση Α. Μια ασαφής συνεπαγωγή (κανόνας) Ι: ΑΒ μπορεί να
θεωρηθεί ως ένα «(μηχανικό) σύστημα» με πολλές εισόδους (που συνθέτουν την πρόταση Α) και με μία
έξοδο (την πρόταση Β). Περαιτέρω, μπορούμε να θεωρήσουμε πολλές εξόδους, όταν η πρόταση Β είναι
σύνθετη. Ωστόσο, η πάγια πρακτική στη βιβλιογραφία είναι η χρήση κανόνων με πολλές εισόδους και με μία
έξοδο ο καθένας. Περισσότερες έξοδοι προκύπτουν από την παράλληλη θεώρηση κανόνων με πολλές
εισόδους και με μία έξοδο ο καθένας.
Ένα σύνολο κανόνων ονομάζεται ασαφής αλγόριθμος (fuzzy algorithm) ή, εναλλακτικά, ασαφές
σύστημα (fuzzy system) ή ασαφές μοντέλο (fuzzy model) και αποτελεί το υψηλότερο επίπεδο της
ομιλούμενης γλώσσας (spoken language) που μοντελοποιείται εδώ στο πλαίσιο της ασαφούς λογικής.

2.4 Έμφαση σε Κατηγορηματικές Προτάσεις και σε Ασαφείς Αριθμούς


Προηγουμένως σ’ αυτό το κεφάλαιο μελετήσαμε γενικά ασαφή σύνολα και ασαφή λογική. Στη συνέχεια
εστιάζουμε σε ένα συγκεκριμένο τύπο ασαφών συνόλων, συγκεκριμένα στους ασαφείς αριθμούς, καθώς και
σε ένα τύπο ασαφούς λογικής συνυφασμένο με κατηγορηματικές προτάσεις, όπως εξηγείται στη συνέχεια.

2.4.1 Κατηγορηματικές Προτάσεις


Στο Συντακτικό της ομιλούμενης γλώσσας μια πρόταση ονομάζεται κατηγορηματική (categorical), όταν
χρησιμοποιεί συγκεκριμένα ρήματα (συνδετικά), με συνηθέστερο το ρήμα είναι. Παράδειγμα
κατηγορηματικής πρότασης είναι η: «Η θερμοκρασία είναι υψηλή». Το ουσιαστικό «θερμοκρασία» είναι το
υποκείμενο (subject) της πρότασης (Margaris, 1990), ενώ η φράση «είναι υψηλή» αποτελεί το κατηγόρημα
(predicate), όπου το επίθετο «υψηλή» λειτουργεί ως κατηγορούμενο (predicative) του υποκειμένου.
Κατηγορηματικές προτάσεις είναι ιδιαίτερα δημοφιλείς στη θεωρία και στις εφαρμογές Ασαφών
Συστημάτων /Μοντέλων, όπου το υποκείμενο είναι ένα μετρήσιμο φυσικό μέγεθος, όπως «θερμοκρασία»
παραπάνω, ενώ το κατηγορούμενο, βλ. «υψηλή» παραπάνω, αναπαρίσταται με ένα ασαφές σύνολο που
ορίζεται πάνω σε σύνολο αναφοράς (Ω) πραγματικών αριθμών, δηλ. Ω  .
Το υποκείμενο μιας κατηγορηματικής πρότασης ονομάζεται ασαφής μεταβλητή (fuzzy variable)
(Zadeh, 1975). Σύμφωνα με τα προηγούμενα, ως ασαφής μεταβλητή συνήθως επιλέγεται το όνομα ενός
μετρήσιμου (φυσικού) μεγέθους όπως: Θερμοκρασία, Πίεση, Ταχύτητα, Βάρος κ.λπ. Σημειώστε ότι, αντίθετα,
ως ασαφής μεταβλητή δε συνηθίζεται να επιλέγεται το όνομα μιας μη-μετρήσιμης οντότητας όπως: Σχολείο,
Νόμος, Διαδικασία, Ερμηνεία, κλπ. Συγκεκριμένα, το κατηγορούμενο της (κατηγορηματικής) πρότασης
τυπικά αποτελεί την έννοια η οποία αναπαρίσταται με ένα ασαφές σύνολο.
Σε κάθε ασαφές σύνολο επικολλάται ως (λεκτική) ετικέτα (label) το κατηγορούμενο, βλ. «υψηλή»
στο παραπάνω παράδειγμα. Επιπλέον, μια (λεκτική) ετικέτα μπορεί να συνοδεύεται από ένα περίγραμμα
(descriptor) ή μία υπεκφυγή (hedge). Για παράδειγμα, η ετικέτα «υψηλή» μπορεί να συνοδεύεται από τον
προσδιορισμό «πολύ», για να γίνει «πολύ υψηλή», ή από την υπεκφυγή «μάλλον όχι» για να γίνει «μάλλον
όχι υψηλή». Σημειώστε ότι στη βιβλιογραφία έχουν προταθεί τεχνικές τροποποίησης της αρχικής συνάρτησης
συμμετοχής του κατηγορουμένου μέσω προσδιορισμών /υπεκφυγών.
Το ρήμα «είναι» αποδίδει το κατηγορούμενο στο υποκείμενο. Έτσι, μια κατηγορηματική πρόταση «Χ
είναι Α» της ομιλούμενης γλώσσας μπορεί συμβολικά να αναπαρασταθεί με μια ισότητα, η οποία αποδίδει
την τιμή A (βλ. ασαφές σύνολο) στην ασαφή μεταβλητή X, συμβολικά Χ = Α.
Μια πρόταση μπορεί να είναι σύνθετη αποτελούμενη από τη διάζευξη ή/και τη σύζευξη ή/και την
άρνηση περισσότερων από μια κατηγορηματικών προτάσεων. Με τον τρόπο αυτό ένα σύνολο λογικά
συσχετισμένων (κατηγορηματικών) προτάσεων μπορεί να αναπαρασταθεί με ένα σύνολο λογικά
συσχετισμένων ασαφών συνόλων. Αυτή είναι μια μοντελοποίηση (απλών) προτάσεων της ομιλούμενης
γλώσσας στο πλαίσιο των ασαφών συνόλων και της ασαφούς λογικής.

2-8
2.4.2 Ασαφείς Αριθμοί
Ένα φυσικό μέγεθος, όπως το Ύψος, η Ταχύτητα, ο Χρόνος, το Βάρος, το Ηλεκτρικό Δυναμικό, η
Θερμοκρασία, κ.λπ. μπορεί να μετρηθεί αν το συγκρίνουμε με ένα άλλο ομοειδές μέγεθος το οποίο
αποκαλούμε «μονάδα». Για παράδειγμα, όταν θέλουμε να μετρήσουμε ένα «μήκος», τότε θεωρούμε μια
ομοειδή μονάδα μήκους, έστω ένα «μέτρο», και καταγράφουμε πόσες φορές το μέτρο χωράει στο προς
μέτρηση μήκος. Το ακέραιο πηλίκο και το υπόλοιπο της διαίρεσης του προς μέτρηση (measurement)
μήκους με τη μονάδα ορίζουν έναν πραγματικό αριθμό. Είναι ενδιαφέρουσα η άποψη του φυσικού/μηχανικού
Λόρδου Κέλβιν: «Όταν μπορείς να μετρήσεις αυτό για το οποίο μιλάς και να το εκφράσεις αριθμητικά τότε
και μόνον τότε ξέρεις ουσιαστικά κάτι γι’ αυτό». Αυτός, ισχυριζόμαστε, είναι ο λόγος που το σύνολο  των
πραγματικών αριθμών κατέστη το πλέον δημοφιλές σύνολο αναφοράς Ω για τον ορισμό ασαφών συνόλων.
Ως αποτέλεσμα της μακροχρόνιας χρήσης των ασαφών συνόλων στην πράξη προτάθηκαν επιπλέον
περιορισμοί στη χαρακτηριστική συνάρτηση ενός ασαφούς συνόλου. Συγκεκριμένα, μια πρώτη παραδοχή
είναι ότι ένα ασαφές σύνολο είναι κανονικό, δηλ. έχει ύψος ίσο με 1. Μια δεύτερη, δημοφιλής παραδοχή είναι
ότι η χαρακτηριστική συνάρτηση Α: [0,1] έχει κωδωνοειδή (κυρτή) μορφή που ισοδυναμεί με το ότι μια
α-διατομή, για α[0,1], είναι ένα (κλειστό) διάστημα. Μια επιπλέον παραδοχή μπορεί να είναι ότι η
χαρακτηριστική συνάρτηση Α: [0,1] είναι συνεχής.
Ένα ασαφές σύνολο (τύπου-1) το οποίο ικανοποιεί τις προαναφερθείσες παραδοχές είναι γνωστό στη
βιβλιογραφία ως ασαφής αριθμός (fuzzy number) ή, εναλλακτικά, ασαφές διάστημα (fuzzy interval).
Σημειώστε ότι μια -διατομή ενός ασαφούς αριθμού είναι ένα (κλειστό) διάστημα. Στη συντριπτική
πλειοψηφία των πρακτικών εφαρμογών στη βιβλιογραφία χρησιμοποιούνται ασαφείς αριθμοί. Το σύνολο των
ασαφών αριθμών εδώ συμβολίζεται με F1.
Στη βιβλιογραφία έχουν προταθεί διάφορες (παραμετρικές) οικογένειες χαρακτηριστικών
συναρτήσεων για ασαφείς αριθμούς. Για παράδειγμα, έχουν προταθεί τριγωνικές, τραπεζοειδείς κ.λπ.
χαρακτηριστικές συναρτήσεις. Κάποια τυπικά δείγματα μορφών χαρακτηριστικών συναρτήσεων
παρουσιάζονται στο Σχήμα 2.1. Σημειώστε ότι στη βιβλιογραφία έχουν προταθεί διάφορες αριθμητικές
ασαφών αριθμών (fuzzy number arithmetics) οι οποίες μπορούν να τελούνται μέσω των αντίστοιχων α-
διατομών, οι οποίες είναι (κλειστά) διαστήματα. Στο κεφάλαιο 9 μελετούμε καινοτόμες τεχνικές χειρισμού
ασαφών αριθμών οποιουδήποτε σχήματος (Belohlavek, 2007).

1 1

0 0
(α) (β)

Σχήμα 2.1 Μια χαρακτηριστική συνάρτηση ασαφούς αριθμού μπορεί να έχει μορφή (α) Τραπεζοειδή (η Τριγωνική είναι
μια ειδική περίπτωση), (β) Κωδωνοειδή.

Στη συνέχεια, διάφορα χαρακτηριστικά ασαφών συνόλων παρουσιάζονται σε ασαφείς αριθμούς.


Έτσι, το Σχήμα 2.2 απεικονίζει γραφικά τέσσερα ασαφή σύνολα Αi: [0,1], i{1,2,3,4}. Συγκεκριμένα, τα
A1 και A2 δεν είναι ασαφείς αριθμοί, ενώ τα A3 και A4 είναι. Περαιτέρω, το Σχήμα 2.3 δείχνει (α) επάνω στην
ευθεία των πραγματικών αριθμών την α-διατομή Α0.6 ενός ασαφούς συνόλου Α με ύψος hgt(Α) = 0.8 και (β)
το στήριγμα supp(B) = B0 του ασαφούς αριθμού B. Το Σχήμα 2.4 δείχνει δύο ασαφείς αριθμούς Α (με
τριγωνική χαρακτηριστική συνάρτηση) και Β (με τραπεζοειδή χαρακτηριστική συνάρτηση) έτσι ώστε Α  Β
ή, εναλλακτικά, A(x)  B(x), x. Η ένωση (), η τομή () και το συμπλήρωμα () ασαφών αριθμών δεν
είναι αναγκαστικά ασαφής αριθμός, όπως παρουσιάζεται στο Σχήμα 2.5.

2-9
Α2
1 1
Α1

0 0
(α) (β)

Α3 Α4
1 1

0 0

(γ) (δ)

Σχήμα 2.2 (α) Κυρτό, μη-κανονικό ασαφές σύνολο Α1. (β) Μη-κυρτό, κανονικό ασαφές σύνολο Α2. (γ) Ασαφής αριθμός Α3
και (δ) Ασαφής αριθμός Α4 (δηλ. κανονικό και κυρτό ασαφές σύνολο ως προς σύνολο αναφοράς το σύνολο  των
πραγματικών αριθμών) με συνεχή χαρακτηριστική συνάρτηση.

B
1 1
A
0.8
0.6

A0.6 supp(B) = B0
0 0
(α) (β)

Σχήμα 2.3 (α) Κυρτό, μη-κανονικό ασαφές σύνολο A με ύψος hgt(A) = 0.8. Η α-διατομή A0.6 επισημαίνεται με έντονη
γραμμή επάνω στην ευθεία  των πραγματικών αριθμών. (β) Ασαφής αριθμός B. Το στήριγμα supp(B) είναι η α-διατομή
B0.

B
1

0 x

Σχήμα 2.4 Δύο ασαφείς αριθμοί A (με τριγωνική χαρακτηριστική συνάρτηση) και B (με τραπεζοειδή χαρακτηριστική
συνάρτηση) προς επίδειξη της σχέσης AB ή, ισοδύναμα, A(x)B(x), x.

2-10
A B AB
1 1

0 0
(α) (β)
B B
1 1

AB

0 0
(γ) (δ)

Σχήμα 2.5 (α) Δύο ασαφείς αριθμοί A και B. (β) Η ένωση AB. (γ) Η τομή AB. (δ) Το συμπλήρωμα B (του ασαφούς
αριθμού B) έχει μη-κυρτή χαρακτηριστική συνάρτηση που επισημαίνεται με συνεχή γραμμή.

2.4.3 Διακριτές Χαρακτηριστικές Συναρτήσεις


Εναλλακτικά, αντί για παραμετρική (συνεχή) χαρακτηριστική συνάρτηση με πεδίο ορισμού ένα (συνεχές)
διάστημα, η χαρακτηριστική συνάρτηση ενός ασαφούς συνόλου μπορεί να ορίζεται σε αριθμήσιμο (βλ.
διακριτό) και μάλιστα πεπερασμένο πεδίο ορισμού. Για παράδειγμα, θεωρήστε τα ασαφή σύνολα Α = {(1,1),
(2,0.9), (3,0.6), (4,0.2)}, Β = {(3,0.1), (4,0.5), (5,0.7), (6,0.9), (7,1), (8,1), (9,1)}, και Γ = {(1,0.1), (2,0.3),
(3,0.9), (4,1), (5,0.6), (6,0.2)} ως προς το σύνολο αναφοράς Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9}. Στη συνέχεια
υπολογίζουμε τα αποτελέσματα πράξεων μεταξύ των προαναφερθέντων ασαφών συνόλων Α, Β και Γ.

ΑΒ = {(3,0.1), (4,0.2)}.


ΒΓ = {(1,0.1), (2,0.3), (3,0.9), (4,1), (5,0.7), (6,0.9), (7,1), (8,1), (9,1)}.
(ΑΒ)Γ = {(1,0.1), (2,0.3), (3,0.6), (4,0.5), (5,0.6), (6,0.2)}.
Β = {(1,1), (2,1), (3,0.9), (4,0.5), (5,0.3), (6,0.1)}.
Πλεονεκτήματα της διακριτής αναπαράστασης μιας χαρακτηριστικής συνάρτησης αποτελούν η
ευκολία ψηφιακής υλοποίησης καθώς και η υπολογιστική ταχύτητα.

2.4.4 Υπολογισμός Ασαφούς Συμπεράσματος


Στη συνέχεια μελετάμε πώς μπορούμε να υπολογίσουμε το συμπερασμός (inference) ενός ασαφούς κανόνα.
Η κλασική μέθοδος εξαγωγής συμπερασμάτων στη Λογική είναι η modus ponens (στα λατινικά σημαίνει
τρόπος που θέτει) που περιγράφεται στη συνέχεια.

Έστω ο κανόνας: ΕΑΝ «το Χ είναι Α» ΤΟΤΕ «το Υ είναι Β».


Έστω το γεγονός: «το Χ είναι Α».
Άρα, το συμπέρασμα είναι ότι: «το Υ είναι Β».

Για παράδειγμα, θεωρήστε την ακόλουθη εφαρμογή από τη Γεωμετρία:


Κανόνας: ΕΑΝ «ένα τρίγωνο είναι ισόπλευρο» ΤΟΤΕ «το τρίγωνο είναι ισογώνιο».
Έστω το γεγονός: «το τρίγωνο ΑΒΓ είναι ισόπλευρο».

2-11
Άρα, το συμπέρασμα, σύμφωνα με τη μέθοδο modus ponens, είναι ότι η κάθε γωνία του τριγώνου
ΑΒΓ είναι ίση με 60ο. Συνεπώς, δε χρειάζεται να μετρήσουμε τις γωνίες του ισόπλευρου τριγώνου ΑΒΓ.
Εφόσον μετρήσαμε τις πλευρές του και βρήκαμε ότι είναι ίσες, η μέθοδος εξαγωγής συμπεράσματος Modus
Ponens μας οδηγεί στο ασφαλές συμπέρασμα ότι κάθε γωνία του τριγώνου ΑΒΓ είναι ίση με 60ο.
Η μέθοδος εξαγωγής συμπερασμάτων Modus Ponens χρησιμοποιήθηκε εκτεταμένα σε κλασικά
έμπειρα συστήματα (expert systems). Ωστόσο, κατά την εφαρμογή της στην πράξη εμφάνισε ένα βασικό
πρόβλημα όπως περιγράφεται στο ακόλουθο παράδειγμα.
Έστω ο κανόνας: ΕΑΝ «η θερμοκρασία ενός ανθρώπου είναι ίση ή μεγαλύτερη από 40 οC» ΤΟΤΕ
«χορήγησε αντιπυρετικό σύμφωνα με τις οδηγίες».
Έστω το γεγονός: «Ο Παύλος έχει θερμοκρασία 39.9 οC εδώ και ώρες».
Με βάση τη μέθοδο Modus Ponens δε βγαίνει το συμπέρασμα να χορηγηθεί αντιπυρετικό στον
Παύλο, ενώ η κοινή λογική μας λέει πως θα έπρεπε να χορηγηθεί μια καλή δόση αντιπυρετικού στον Παύλο,
διότι το 39.9 οC είναι πολύ κοντά στο 40 οC.
Περιπτώσεις όπως αυτή του παραπάνω παραδείγματος, οδήγησαν σε μια γενίκευση της μεθόδου
Modus Ponens όπως σκιαγραφείται στη συνέχεια.
Έστω ο κανόνας: ΕΑΝ «το Χ είναι Α» ΤΟΤΕ «το Υ είναι Β».
Έστω το γεγονός: «το Χ είναι A», όπου το A «μοιάζει», υπό κάποια έννοια, με το A.
Άρα, το συμπέρασμα είναι ότι: «το Υ είναι Β», όπου το ασαφές σύνολο B (θέλουμε να) «μοιάζει» ,
υπό την προαναφερθείσα έννοια, με το B.
Συγκεκριμένα, έστω ο κανόνας «R: ΕΑΝ (X είναι A(x)) ΤΟΤΕ (Y είναι B(y))», συμβολικά «R: (X =
A(x))(Y = B(y))» ή, απλούστερα, «R: A(x)B(y)», όπου τα A(x) και B(y) είναι ασαφή σύνολα σε
κατηγορηματικές προτάσεις, όπως αναπτύχθηκε παραπάνω. Σ’ αυτήν την περίπτωση η γενικευμένη μέθοδος
Modus Ponens λαμβάνει την εξής μορφή:

Κανόνας: R: (X = A(x))(Y = B(y)).


Γεγονός: X = A(x)

Το ζητούμενο είναι ο υπολογισμός ενός συμπεράσματος Β(y) που να αντιστοιχεί στο γεγονός A(x)
σύμφωνα με την εμπειρία, η οποία αναπαρίσταται με τον κανόνα R.
Ένας τρόπος υπολογισμού του Β είναι με το συνθετικό συμπερασματικό κανόνα (compositional
rule of inference) του Zadeh:
B = A○R,
όπου R είναι μια συνάρτηση ασαφούς συνεπαγωγής για τον κανόνα R: (X=Α(x))(Y=Β(y)), ενώ “○” είναι ο
τελεστής του ελάχιστου άνω φράγματος μιας τ-νόρμας, δηλαδή:

B(y0) =  T ( A( x), R( x, y )) (2.9)


( x,y0 ) ( x, y )

Συγκεκριμένα, για τ-νόρμα ίση με min προκύπτει ο ακόλουθος υπολογισμός του B

B(y0) =  [ A( x)  R( x, y )] . (2.10)


( x,y0 ) ( x, y )

Εναλλακτικές τ-νόρμες μπορούν να χρησιμοποιηθούν. Ακόμη, στην πράξη χρησιμοποιούνται


εναλλακτικές συναρτήσεις ασαφούς συνεπαγωγής που περιλαμβάνουν τις ακόλουθες:

1) Κατά Boole: R(x,y) = (1-A(x))B(y)


2) Κατά Lukasiewicz: R(x,y) = 1(1-A(x)+B(y))
3) Κατά Zadeh: R(x,y) = (A(x)B(y))(1-A(x))
4) Κατά Mamdani:R(x,y) = A(x)B(y)

Σημειώστε ότι μια συνάρτηση ασαφούς συνεπαγωγής R ορίζεται άμεσα στο Καρτεσιανό γινόμενο
[0,1][0,1] και έμμεσα στο Καρτεσιανό γινόμενο βασικών συνόλων XY, όπως φαίνεται στην έκφραση
R(A(x),B(y)). Παρατηρήστε ότι η ασαφής συνεπαγωγή R(x,y) ενός ασαφούς κανόνα R: Α(x)Β(y) αποτελεί

2-12
μια ασαφή σχέση. Σημειώστε ακόμη ότι ο υπολογισμός του B(y0) σύμφωνα με το συνθετικό συμπερασματικό
κανόνα του Zadeh αντιστοιχεί στην προβολή της ασαφούς σχέσης R(x,y) = T ( A( x), R( x, y )) στο y.
( x, y )

Παράδειγμα Δ
Παρουσιάζουμε ένα παράδειγμα εφαρμογής του συνθετικού συμπερασματικού κανόνα του Zadeh για τον
υπολογισμό της εξόδου B ενός κανόνα «R: ΑΒ» με μια είσοδο (Α) και μια έξοδο (Β) που ορίζονται σε
πεπερασμένο πλήθος τιμών του πεδίου ορισμού τους. Θα χρησιμοποιήσουμε την τ-νόρμα TM(x,y) = min(x,y)
και την συνεπαγωγή κατά Mamdani R(x,y) = A(x)B(y), δηλ. θα χρησιμοποιήσουμε την Εξ.(2.10). Έστω, A =
{(1,0), (2,0.1), (3,0.4), (4,0.6), (5,0.9), (6,1)} και B = {(0,1), (10,1), (20,0.7), (30,0.3), (40,0)}. Η ασαφής
συνεπαγωγή R υπολογίζεται όπως φαίνεται στον Πίνακα 2.2.
Έστω ότι παρουσιάζεται η είσοδος A = {(1,0), (2,0.2), (3,0.7), (4,1), (5,1), (6,0.7)} στον κανόνα R:
ΑΒ. Για ευκολία του αναγνώστη η είσοδος A(x) παρουσιάζεται στην τελευταία στήλη του Πίνακα 2.2. Η
ασαφής σχέση R(x,y) = A( x)  R( x, y ) παρουσιάζεται στον Πίνακα 2.3. Τέλος, η προβολή της ασαφούς
( x, y )
σχέσης R(x,y) στο σύνολο Y = {0, 10, 20, 30, 40} αποτελεί την ζητούμενη έξοδο B(y0) =  R( x, y ) ως B
( x,y0 )
= {(0,0.9), (10,0.9), (20,0.7), (30,0.3), (40,0)}, y0Y. Παρατηρήστε ότι, δοθείσης της «ομοιότητας» (υπό την
έννοια της Ευκλείδειας απόστασης) του A με το A, η προηγούμενη τεχνική υπολόγισε ένα B που παρόμοια
«μοιάζει» με το B.

Β(y) 0 10 20 30 40
Α(x) 1 1 0.7 0.3 0 Α(x)
1 0 0 0 0 0 0 0
2 0.1 0.1 0.1 0.1 0.1 0 0.2
3 0.4 0.4 0.4 0.4 0.3 0 0.7
4 0.6 0.6 0.6 0.6 0.3 0 1
5 0.9 0.9 0.9 0.7 0.3 0 1
6 1 1 1 0.7 0.3 0 0.7

Πίνακας 2.2 Ασαφής συνεπαγωγή Α(x)Β(y) κατά Mamdani A(x)B(y). Στην τελευταία στήλη παρουσιάζεται το ασαφές
σύνολο Α(x).

0 0 0 0 0
0.1 0.1 0.1 0.1 0
0.4 0.4 0.4 0.3 0
0.6 0.6 0.6 0.3 0
0.9 0.9 0.7 0.3 0
0.7 0.7 0.7 0.3 0
Πίνακας 2.3 Ασαφής σχέση R(x,y) στο συνθετικό συμπερασματικό κανόνα  R( x, y ) του Zadeh.
( x,y0 )

2.5 Ασαφή Μοντέλα τύπου Mamdani, και Sugeno


Στην πλειοψηφία των πρακτικών εφαρμογών ένα Ασαφές Μοντέλο βρίσκεται στην «καρδιά» μηχανισμού που
υλοποιεί μια συνάρτηση f: NT (Kaburlasos & Kehagias, 2014), όπως φαίνεται στο Σχήμα 2.6, όπου το
σύνολο T μπορεί να είναι είτε ο Ευκλείδειος χώρος M, οπότε το ασαφές μοντέλο λειτουργεί ως
παλινδρομητής (regressor), είτε κάποιο (πεπερασμένο) σύνολο L, οπότε το ασαφές μοντέλο λειτουργεί ως

2-13
κατηγοριοποιητής (classifier) που διαμερίζει το πεδίο ορισμού N της συνάρτησης f σε κατηγορίες. Αν και
άλλα μοντέλα, όπως τεχνητά νευρωνικά δίκτυα, μπορούν να υλοποιήσουν μια συνάρτηση f: NT, εντούτοις
ένα μοναδικό χαρακτηριστικό των Ασαφών Μοντέλων είναι ότι αξιοποιούν την ανθρώπινη εμπειρία
χρησιμοποιώντας όρους της ομιλούμενης γλώσσας προς υλοποίηση της συνάρτησης f.

x=(x1,,xN) y = f(x1,,xN)
Ασαφές
Ασαφοποιητής Μοντέλο Απο-ασαφοποιητής
(κανόνων)

Σχήμα 2.6 Το Ασαφές Μοντέλο (κανόνων) βρίσκεται στην «καρδιά» ενός μηχανισμού υλοποίησης μιας συνάρτησης f:
NT. Ο Ασαφοποιητής (fuzzifier) μετατρέπει τους εισερχόμενους αριθμούς x1,,xN σε ασαφή σύνολα. Ο Απo-
ασαφοποιητής (de-fuzzifier) μετατρέπει τις απαντήσεις των κανόνων του Ασαφούς Μοντέλου σε ένα στοιχείο του πεδίου
τιμών T της συνάρτησης f: NT.

Δύο δημοφιλή Ασαφή Μοντέλα είναι τα ασαφή συστήματα συμπερασμού (ΑΣΣ) (fuzzy inference
systems (FISs)) τύπου Mamdani και τύπου Sugeno (Guillaume, 2001) που μελετώνται στη συνέχεια.

2.5.1 Ασαφές Μοντέλo τύπου Mamdani


Ένας ο ασαφής κανόνας (fuzzy rule) τύπου Mamdani (Mamdani & Assilian, 1975) παρουσιάζεται στη
συνέχεια:
RM: ΕΑΝ (το υποκείμενο Χ είναι Α) ΤΟΤΕ (το υποκείμενο Υ είναι Β).

ή συμβολικά

RM: ΕΑΝ Χ = Α ΤΟΤΕ Υ = Β ή


RM: (Χ = Α)  (Υ = Β) ή
RM: Α  Β.
Στον κανόνα RM η πρόταση «το υποκείμενο Χ είναι Α» αποτελεί το αίτιο, ενώ η πρόταση «το
υποκείμενο Υ είναι Β» αποτελεί το αποτέλεσμα. Ή, ισοδύναμα, η ισότητα «Χ = Α» αποτελεί το αίτιο, ενώ η
ισότητα «Υ = Β» αποτελεί το αποτέλεσμα του κανόνα RM.
Οι κανόνες ενός μοντέλου Mamdani απεικονίζουν ασαφείς αριθμούς σε ασαφείς αριθμούς. Ένα
σύνολο κανόνων τύπου Mamdani «Ri: ΕΑΝ Χ = Αi ΤΟΤΕ Υ = Βi», i{1,,I} μπορεί να ερμηνευτεί ως ένα
σύνολο ζευγών (Αi,Βi), i{1,,I} δειγμάτων μιας συνάρτησης f: F1F1, η οποία απεικονίζει ασαφείς
αριθμούς σε ασαφείς αριθμούς. Τυπικά, ένα μοντέλο Mamdani χρησιμοποιείται σε εφαρμογές όπου υπάρχει
διαθέσιμη γνώση εμπειρογνωμόνων (experts).

2.5.2 Ασαφές Μοντέλo τύπου Sugeno


Ένας ασαφής κανόνας τύπου Sugeno (Sugeno & Kang, 1988· Takagi & Sugeno, 1985) παρουσιάζεται στη
συνέχεια:
RS: ΕΑΝ (το υποκείμενο Χ είναι Α) ΤΟΤΕ (η συνάρτηση y ισούται με f(x)).

ή συμβολικά

RS: ΕΑΝ Χ = Α ΤΟΤΕ y = f(x) ή


RS: (Χ = Α)  (y = f(x)) ή
RS: Α  y = f(x),
όπου x=(x1,,xN) όπως φαίνεται στο Σχήμα 2.6.

2-14
Στον κανόνα RS η πρόταση «το υποκείμενο Χ είναι Α» αποτελεί το αίτιο, ενώ η πρόταση «η
συνάρτηση y ισούται με f(x)» αποτελεί το αποτέλεσμα. Ή, ισοδύναμα, η ισότητα «Χ = Α» αποτελεί το αίτιο,
ενώ η ισότητα «y = f(x)» αποτελεί το αποτέλεσμα του κανόνα RS.
Ένα μοντέλο κανόνων τύπου Sugeno «Ri: ΕΑΝ Χ = Αi ΤΟΤΕ y = fi(X)», i{1,,I} απεικονίζει
ασαφείς αριθμούς σε πραγματικές συναρτήσεις. Η συνάρτηση fi(X) στο αίτιο συνήθως είναι γραμμική.
Τυπικά, ένα μοντέλο Sugeno χρησιμοποιείται σε εφαρμογές όπου υπάρχουν πολλές αριθμητικές μετρήσεις.
Δεδομένου ενός αιτίου, ένα ασαφές σύστημα τύπου Mamdani/Sugeno χρησιμοποιεί ανθρώπινη
γνώση που αναπαρίσταται με κανόνες, καθώς και ασαφή λογική προκειμένου να υπολογίσει ένα
συμπέρασμα. Θα εξηγήσουμε πως πραγματοποιείται αυτό, πρώτα για ένα σύστημα Mamdani και στη
συνέχεια για ένα σύστημα Sugeno.

2.5.3 Παράδειγμα Mamdani


Ένα σύστημα Mamdani τυπικά περιλαμβάνει ένα σύνολο κανόνων κατηγορηματικών προτάσεων της μορφής
«ΕΑΝ (X είναι A) ΤΟΤΕ (Y είναι B)» ή συμβολικά «Α(x)  Β(y)» όπου τα Α(x) και Β(y) είναι ασαφείς
αριθμοί Α: [0,1] και Β: [0,1]. Σημειώστε ότι τα ορίσματα x και y των ασαφών αριθμών Α(x) και Β(y),
αντίστοιχα, τυπικά αναφέρονται σε διαφορετικά σύνολα αναφοράς και αντιστοιχούν σε διαφορετικές ασαφείς
μεταβλητές. Επίσης, η πρόταση-αίτιο (X είναι A) μπορεί να είναι σύνθετη αποτελούμενη από τη σύζευξη
ή/και τη διάζευξη ή/και την άρνηση απλών κατηγορηματικών προτάσεων. Συγκεκριμένα, έστω το ακόλουθο
σύστημα Mamdani τριών κανόνων με δύο εισόδους τις (είσοδος1, είσοδος2) και μια έξοδο την (έξοδος1).

K1: EAN (η είσοδος1 είναι μικρή) ΚΑΙ (η είσοδος2 είναι κανονική) ΤΟΤΕ (η έξοδος1 είναι λίγη)
K2: EAN (η είσοδος1 είναι μεγάλη) ΚΑΙ (η είσοδος2 είναι χαμηλή) ΤΟΤΕ (η έξοδος1 είναι αρκετή)
K3: EAN (η είσοδος1 είναι μεσαία) ΚΑΙ (η είσοδος2 είναι υψηλή) ΤΟΤΕ (η έξοδος1 είναι πολλή)

Σύμφωνα με τα παραπάνω, η καθεμιά από τις «είσοδος1», «είσοδος2» και «έξοδος1» είναι ασαφής
μεταβλητή. Έστω ότι το βασικό σύνολο για την «είσοδος1» είναι το κλειστό διάστημα [0,10], για την
«είσοδος2» είναι το [10,20], ενώ για την «έξοδος1» είναι το κλειστό διάστημα [50,100]. Μια συνηθισμένη
πρακτική είναι να προκαθορίζονται τα ασαφή σύνολα /αριθμοί που επιτρέπεται να λάβει ως τιμές μια ασαφής
μεταβλητή. Για παράδειγμα, έστω ότι η ασαφής μεταβλητή «είσοδος1» μπορεί να λάβει ως τιμές τους
ασαφείς αριθμούς με ετικέτες «μικρή», «μεσαία» και «μεγάλη» που φαίνονται στο Σχήμα 2.7(α). Οι τιμές για
τις ασαφείς μεταβλητές «είσοδος2» και «έξοδος1» φαίνονται στο Σχήμα 2.7 (β) και (γ), αντίστοιχα.
Σημειωτέον ότι το ακριβές σχήμα και θέση των ασαφών αριθμών που μπορεί να λάβει ως τιμές μια ασαφής
μεταβλητή είναι αντικείμενο έρευνας. Σημειώστε επίσης ότι μια συνηθισμένη πρακτική είναι η πλήρης
κάλυψη ολόκληρου του βασικού συνόλου από τη (συνολοθεωρητική) ένωση των στηριγμάτων όλων των
ασαφών τιμών που μπορεί να λάβει μια ασαφής μεταβλητή, διότι θέλουμε κάθε πραγματικός αριθμός του
βασικού συνόλου να ανήκει οπωσδήποτε τουλάχιστον σε ένα ασαφές σύνολο του βασικού συνόλου. Μια
άλλη συνηθισμένη πρακτική είναι η (μερική) επικάλυψη (overlapping) των ασαφών τιμών που μπορεί να
λάβει μια ασαφής μεταβλητή, διότι η προαναφερθείσα (μερική) επικάλυψη αποφεύγει τις απότομες αλλαγές
στη συνάρτηση f: NT (βλ. Σχήμα 2.6), όπως απαιτείται σε πολλές εφαρμογές.
Το Σχήμα 2.8 απεικονίζει τους τρεις κανόνες Κ1, Κ2 και Κ3 χρησιμοποιώντας τα ασαφή σύνολα του
Σχήματος 2.7. Οι τρεις κανόνες Κ1, Κ2 και Κ3 αποτελούν το Ασαφές Μοντέλο (κανόνων) του Σχήματος 2.6.
Το Σχήμα 2.9 εμφανίζει δύο αριθμητικές εισόδους x1=6 και x2=15 (βλ. Σχήμα 2.6 για N=2). Ο βαθμός
συμμετοχής του αριθμού x1=6 ή x2=15 σε καθένα από τα ασαφή σύνολα του αντίστοιχου βασικού συνόλου
ενεργοποιεί μέρος του ασαφούς συνόλου, όπως επισημαίνεται με παχιές γραμμές στο Σχήμα 2.10. Αυτή η
διαδικασία ονομάζεται ασαφοποίηση (των αριθμητικών εισόδων x1 και x2) και μετατρέπει έναν αριθμό όπως
τον x1=6 ή τον x2=15 σε ένα ασαφές σύνολο, με σκοπό να αξιοποιηθεί η υπάρχουσα βάση γνώσης
(knowledge base) ασαφών κανόνων. Συγκεκριμένα, στο Σχήμα 2.10 αναφορικά με τον κανόνα Κ3 ο αριθμός
x1=6 ανήκει στον ασαφή αριθμό «μεσαία» με βαθμό συμμετοχής 0.75, ενώ ο αριθμός x2=15 ανήκει στον
ασαφή αριθμό «υψηλή» με βαθμό συμμετοχής 0.167. Γι’ αυτόν τον λόγο οι ασαφείς αριθμοί «μεσαία» και
«υψηλή» ενεργοποιούνται μέχρι ύψους 0.75 και 0.167 αντίστοιχα και προκύπτουν τα ασαφή σύνολα που
δείχνονται με παχιές γραμμές στο Σχήμα 2.10. Παρόμοια, στο Σχήμα 2.10, αναφορικά με τον κανόνα Κ2, οι
ασαφείς αριθμοί «μεγάλη» και «χαμηλή» ενεργοποιούνται μέχρι ύψους 0.4 και 0.5, αντίστοιχα, και
προκύπτουν τα ασαφή σύνολα που επισημαίνονται με παχιές γραμμές. Για τον κανόνα Κ1 οι ασαφείς αριθμοί
«μικρή» και «κανονική» ενεργοποιούνται μέχρι ύψους 0 και 1 αντίστοιχα.

2-15
μικρή μεσαία μεγάλη
1

0 1 1.5 4 5 6 9 10

(α)

χαμηλή κανονική υψηλή


1

5 10 11 14 15 18 19 20

(β)

λίγη αρκετή πολλή


1

50 60 70 80 85 100

(γ)

Σχήμα 2.7 Εδώ απεικονίζονται όλες οι δυνατές τιμές (βλ. ασαφείς αριθμοί) που μπορούν να λάβουν οι ασαφείς μεταβλητές
(α) «είσοδος1», (β) «είσοδος2» και (γ) «έξοδος1» στο αντίστοιχο βασικό σύνολο.

2-16
μικρή κανονική λίγη

1 1 1
Κ1: ΕΑΝ ΚΑΙ ΤΟΤΕ

0 1.5 6 10 10 15 19 20 50 70 100

μεγάλη χαμηλή αρκετή

1 1 1
Κ2: ΕΑΝ ΚΑΙ ΤΟΤΕ

0 4 9 10 10 12 18 20 50 60 85 100

μεσαία υψηλή πολλή

1 1 1
Κ3: ΕΑΝ ΚΑΙ ΤΟΤΕ

0 1 5 9 10 10 14 20 50 80 100

Σχήμα 2.8 Γραφική αναπαράσταση των τριών κανόνων Κ1, Κ2 και Κ3 που αναφέρονται στο κείμενο δοθέντων των
ασαφών συνόλων του Σχήματος 2.7.

Έστω ότι οι κατηγορηματικές προτάσεις στο αίτιο οποιουδήποτε από τους κανόνες Κ1, Κ2, Κ3 είναι
σε σύζευξη. Συνεπώς, ο βαθμός αλήθειας του αιτίου ενός κανόνα υπολογίζεται με μια τ-νόρμα, έστω την
TM(x,y) = min{x,y}. Συνεπώς, για τις δύο αριθμητικές εισόδους x1=6 και x2=15 ο βαθμός ενεργοποίησης
(degree of activation) του αιτίου του κανόνα Κ1 είναι Κ1(0,1)= min{0,1}= 0, ο βαθμός ενεργοποίησης του
αιτίου του κανόνα Κ2 είναι Κ2(0.4,0.5)= min{0.4,0.5}= 0.4 και του αιτίου του κανόνα Κ3 είναι
Κ3(0.75,0.167)= min{0.75,0.167}= 0.167. Ο προαναφερθείς βαθμός ενεργοποίησης του αιτίου του κάθε
κανόνα χρησιμοποιείται για να υπολογιστεί το ασαφές σύνολο στην έξοδο του κάθε κανόνα που
παρουσιάζεται στο Σχήμα 2.11 με παχιές γραμμές  Προφανώς ο κανόνας Κ1 δεν παράγει καμιά έξοδο. Η
ασαφής έξοδος του κάθε κανόνα αποτελεί το μερικό αποτέλεσμα του συγκεκριμένου κανόνα, το οποίο πρέπει
να συναθροιστεί, κατά κάποιο τρόπο, με τα μερικά αποτελέσματα όλων των κανόνων της βάσης, ώστε να
παραχθεί το ολικό αποτέλεσμα του Ασαφούς Μοντέλου Mamdani που παρουσιάζεται μόνο του στο Σχήμα
2.11 κάτω από τους τρεις κανόνες Κ1, Κ2 και Κ3. Συγκεκριμένα, το ολικό αποτέλεσμα του Ασαφούς
Μοντέλου στο Σχήμα 2.11 προκύπτει από τη (συνολοθεωρητική) ένωση του μερικού αποτελέσματος κάθε
κανόνα ακριβώς από πάνω του.

2-17
μικρή κανονική λίγη

1 1 1
Κ1:

0 1.5 6 10 10 15 19 20 50 70 100

μεγάλη χαμηλή αρκετή

1 1 1
Κ2:
0.4 0.5

0 4 9 10 10 12 18 20 50 60 85 100

μεσαία υψηλή πολλή


μεσαία
1 m 1 1
Κ3: 0.75
0.167

0 1 5 9 10 10 14 20 50 80 100

x1=6 x2=15

Σχήμα 2.9 Οι αριθμητικές είσοδοι x1=6 και x2=15 στο Ασαφές Μοντέλο των τριών κανόνων Κ1, Κ2 και Κ3 του Σχήματος
2.8 έχουν βαθμό συμμετοχής (σε ασαφή σύνολα) που παρουσιάζεται στον αντίστοιχο κατακόρυφο άξονα.

2-18
μικρή κανονική λίγη

1 1 1

Κ1:

0 1.5 6 10 10 15 19 20 50 70 100

μεγάλη χαμηλή αρκετή

1 1 1

Κ2: 0.4 0.5


0.4

0 4 9 10 10 12 18 20 50 60 85 100

μεσαία υψηλή πολλή

1 1 1

Κ3: 0.75
0.167 0.167

0 1 5 9 10 10 14 20 50 80 100

x1=6 x2=15

Σχήμα 2.10 Διαδικασία ασαφοποίησης. Οι αριθμοί x1=6 και x2=15 μετατρέπονται σε ασαφή σύνολα που επισημαίνονται
με παχιές γραμμές ενεργοποιώντας έναν ασαφή αριθμό στο αντίστοιχο βασικό σύνολο κατά το βαθμό συμμετοχής τους, ο
οποίος υποδεικνύεται στον κατακόρυφο άξονα στο διάστημα [0,1]. Ο βαθμός ενεργοποίησης του κάθε κανόνα ισούται με
το ελάχιστο (min) των βαθμών συμμετοχής των αριθμών x1=6 και x2=15 στα ασαφή σύνολα του αιτίου του κάθε κανόνα.
Σημειώστε ότι ο κανόνας Κ1 δεν ενεργοποιείται.

2-19
μικρή κανονική λίγη

1 1 1

Κ1:

0 1.5 6 10 10 15 19 20 50 70 100

μεγάλη χαμηλή αρκετή

1 1 1
Κ2: 0.5
0.4 0.4

0 4 9 10 10 12 18 20 50 60 85 100

μεσαία υψηλή πολλή

1 1 1
Κ3: 0.75

0.167 0.167

0 1 5 9 10 10 14 20 50 80 100

x1=6 x2=15

0.4
0.167

50 60 85 100

Σχήμα 2.11 Ο βαθμός ενεργοποίησης του αιτίου του κάθε κανόνα χρησιμοποιείται για να υπολογίσει το μερικό (ασαφές)
αποτέλεσμα του κάθε κανόνα. Η (συνολοθεωρητική) ένωση του μερικού αποτελέσματος κάθε κανόνα δίνει το ολικό
αποτέλεσμα που παρουσιάζεται μόνο του κάτω από όλους τους κανόνες. Με απο-ασαφοποίηση υπολογίζεται ένας αριθμός
από το ολικό αποτέλεσμα που επισημαίνεται με μια παχιά κατακόρυφη γραμμή.

Η τελευταία πράξη που απομένει για να ολοκληρωθεί η περιγραφή του μηχανισμού του Σχήματος 2.6
είναι η απο-ασαφοποίηση (de-fuzzification), δηλ. η μετατροπή του ολικού ασαφούς αποτελέσματος σε ένα
στοιχείο του πεδίου ορισμού T της συνάρτησης f: NT. Επειδή εδώ είναι T= το ολικό ασαφές
αποτέλεσμα με χαρακτηριστική συνάρτηση έστω B(y) θα πρέπει να μετατραπεί σε έναν πραγματικό αριθμό, η
τιμή του οποίου επισημαίνεται με τη θέση της παχιάς κάθετης γραμμής στο ολικό ασαφές αποτέλεσμα του
Σχήματος 2.11. Στη βιβλιογραφία έχουν προταθεί διάφορες τεχνικές απο-ασαφοποίησης (Runkler, 1997). Στη
συνέχεια παρουσιάζουμε μερικές από αυτές.

2-20
Απο-ασαφοποίηση Μεγίστου:
yˆM  argmaxB( y )

Από όλους τους αριθμούς του βασικού συνόλου επιλέγεται ο αριθμός ŷM στον οποίο μεγιστοποιείται
η συνάρτηση B(y). Αν υπάρχουν περισσότεροι από ένας τέτοιοι αριθμοί τότε επιλέγουμε κάποιον καλώς
ορισμένο «μέσο (αριθμό)». Για παράδειγμα, για το ασαφές σύνολο στο Σχήμα 2.12(α) αυτή η τεχνική απο-
ασαφοποίησης υπολογίζει yˆM  argmaxB( y ) = 5. Ενώ, για το ασαφές σύνολο στο Σχήμα 2.12(β) είναι
yˆM  argmaxB( y ) = (3+5)/5 = 4.

Απο-ασαφοποίηση Διχοτόμου:
yˆ  
 B( y )dy  yˆ 
B( y )dy

Από όλους τους αριθμούς του βασικού συνόλου επιλέγεται ο αριθμός yˆ  , ο οποίος διαμερίζει το
εμβαδόν κάτω από τη συνάρτηση B(y) σε δύο ίσα μέρη. Για παράδειγμα, για το ασαφές σύνολο στο Σχήμα
2.12(α) αυτή η τεχνική απο-ασαφοποίησης υπολογίζει

yˆ 9
1   ( 0.25 y + 2.25)dy   ( 0.25 y + 2.25)dy  yˆ 2  18 yˆ  69  0  yˆ

5.536 (η άλλη λύση
5 yˆ
yˆ 12.464 απορρίπτεται). Ενώ, για το ασαφές σύνολο στο Σχήμα 2.12(β) υπολογίζει

yˆ   yˆ 7
 B( y )dy  yˆ 
B( y )dy  1.5 + 2 + 5 ( 0.3 y + 2.5)dy   ( 0.3 y + 2.5)dy
yˆ
+ 2 + 0.4 

0.3 yˆ 2  5 yˆ  17.8  0  yˆ 5.153 (η άλλη λύση yˆ 11.513 απορρίπτεται).

B(y)
1

0 3 5 9 10
(α)

B(y)
1

0.4

0 3 5 7 12 14 20
(β)

Σχήμα 2.12 Δύο ασαφείς αριθμοί που χρησιμοποιούνται στο κείμενο για να εξηγήσουν διάφορες τεχνικές απο-
ασαφοποίησης. (α) Οι δύο πλευρές του τριγώνου περιγράφονται από τις εξισώσεις B(y) = 0.5y-1.5 και B(y) = -0.25y+2.25.
(β) Η ευθεία στο διάστημα [5,7] περιγράφεται από την εξίσωση B(y) = -0.3y+2.5.

2-21
Απο-ασαφοποίηση Κέντρου Βάρους:

 yB( y )dy
yˆ  

 B( y )dy
Αυτή είναι η δημοφιλέστερη μέθοδος από-ασαφοποίησης, διότι συνήθως δίνει καλά αποτελέσματα.
Ωστόσο, είναι η πιο χρονοβόρα στον υπολογισμό. Για παράδειγμα, για το ασαφές σύνολο στο Σχήμα 2.12(α)
αυτή η τεχνική απο-ασαφοποίησης υπολογίζει

 5 9
 yB( y )dy
yˆ   =
3 y(0.5 y - 1.5)dy + 5 y(0.25 y - 2.25)dy =
17
.

 B( y )dy
3 3

Ο υπολογισμός του yˆ για το ασαφές σύνολο στο Σχήμα 2.12(β) αφήνεται ως άσκηση.
Οπτικο-ακουστικό υλικό (video), όπου επιδεικνύεται η σχεδίαση του ασαφούς συστήματος Mamdani
του προηγούμενου παραδείγματος πάνω στην πλατφόρμα MATLAB είναι διαθέσιμο στο σύνδεσμο:
Multimedia File. Συγκεκριμένα, στο Σχήμα 2.13 παρουσιάζεται ένα στιγμιότυπο του εισαγωγικού παράθυρου
σχεδιασμού της εργαλειοθήκης (toolbox) «fuzzy» του MATLAB.

Σχήμα 2.13 Η εργαλειοθήκη «fuzzy» του MATLAB είναι ένα εκπαιδευτικό εργαλείο για το σχεδιασμό ασαφών συστημάτων
συμπερασμού (ΑΣΣ) τύπου Mamdani ή τύπου Sugeno. Εδώ παρουσιάζεται το εισαγωγικό παράθυρο.

2-22
Οι προηγούμενες τεχνικές παρουσιάστηκαν σε συνεχή σύνολα αναφοράς. Εφαρμογές σε διακριτά
(βλ. πεπερασμένα) σύνολα αναφοράς γίνονται απευθείας με βάση τις ίδιες αρχές. Για παράδειγμα, η απο-
ασαφοποίηση μεγίστου ενός ασαφούς συνόλου

B = {(yk,B(yk))| yk, B(yk)[0,1] με k{1,,K}}

υπολογίζεται ως yˆM  arg max B( yk ) . Δηλαδή, είναι εκείνος ο αριθμός yk του συνόλου αναφοράς , ο
k{1, ,K }
οποίος χαρακτηρίζεται από το μεγαλύτερο βαθμό συμμετοχής στο ασαφές σύνολο B. Αν υπάρχουν
περισσότεροι από ένας τέτοιοι αριθμοί, τότε επιλέγουμε κάποιον καλώς ορισμένο «μέσο (αριθμό)».

2.5.4 Παράδειγμα Sugeno


Έστω το ακόλουθο σύστημα Sugeno τριών κανόνων με δύο εισόδους τις (είσοδος1, είσοδος2) και μια έξοδο
(την έξοδος1).

K1: EAN (η είσοδος1 είναι μικρή) ΚΑΙ (η είσοδος2 είναι κανονική) ΤΟΤΕ y1(x1,x2)=2x1+x2
K2: EAN (η είσοδος1 είναι μεγάλη) ΚΑΙ (η είσοδος2 είναι χαμηλή) ΤΟΤΕ y2(x1,x2)=3x1+x2-5
K3: EAN (η είσοδος1 είναι μεσαία) ΚΑΙ (η είσοδος2 είναι υψηλή) ΤΟΤΕ y3(x1,x2)=2x1+1.2x2-1

Για απλότητα θεωρήσαμε τα αίτια των κανόνων K1, K2 και K3 ίδια με τα αίτια των κανόνων K1,
K2 και K3, αντίστοιχα, του συστήματος Mamdani που μελετήσαμε παραπάνω. Έστω, ακόμα, ότι
παρουσιάζονται οι ίδιες είσοδοι x1=6 και x2=15. Τότε, ο βαθμός ενεργοποίησης του αιτίου του κάθε κανόνα
θα είναι ακριβώς όπως προηγουμένως, και για τους ίδιους λόγους. Συγκεκριμένα, ο βαθμός ενεργοποίησης
του αιτίου του κανόνα K1 είναι K1(x1,x2) = min{0,1} = 0, του αιτίου του κανόνα K2 είναι K2(x1,x2) =
min{0.4,0.5} = 0.5, και του αιτίου του κανόνα K3 είναι K3(x1,x2) = min{0.75,0.167} = 0.167. Ωστόσο, το
αποτέλεσμα κάθε κανόνα τώρα υπολογίζεται διαφορετικά, όπως περιγράφεται στη συνέχεια. Συγκεκριμένα,
το αριθμητικό αποτέλεσμα του κανόνα K1 υπολογίζεται με τη χρήση της γραμμικής συνάρτησης
y1(x1,x2)=2x1+x2 στο «αποτέλεσμα» του κανόνα K1. Έτσι προκύπτει y1(6,15) = 2*6+ 15 = 27. Το αριθμητικό
αποτέλεσμα του κανόνα K2 υπολογίζεται ως y2(6,15) = 3*6+ 15 – 5 = 28 και του κανόνα K3 υπολογίζεται
ως y3(6,15) = 2*6+ 1.2*15 – 1 = 29. Παρατηρήστε ότι σε συστήματα Sugeno δεν υπάρχει ασάφεια στο
αποτέλεσμα του κάθε κανόνα, αφού κάθε κανόνας υπολογίζει ένα συγκεκριμένο αριθμό. Ωστόσο, η ασάφεια
υπεισέρχεται από το γεγονός ότι κάθε κανόνας έχει υπολογίσει ένα διαφορετικό αριθμητικό αποτέλεσμα και,
επιπλέον, ο βαθμός ενεργοποίησης του κάθε κανόνα είναι διαφορετικός. Συνεπώς, υπάρχει και πάλι ανάγκη
απο-ασαφοποίησης με τη συνάθροιση, κατά κάποιο τρόπο, των μερικών αποτελεσμάτων όλων των κανόνων
της βάσης, ώστε να παραχθεί η ολική έξοδος του Ασαφούς Μοντέλου Sugeno, όπως παρουσιάζεται στη
συνέχεια.

K1( x1, x2 )y1( x1, x2 )  K2( x1, x2 )y2 ( x1, x2 )  K3( x1, x2 )y3 ( x1, x2 )
yˆ ( x1, x2 ) = =
K1( x1, x2 )  K2( x1, x2 )  K3( x1, x2 )
(0)( 27)  (0.4)( 28)  (0.167)( 29)
= 28.2945
0  0.4  0.167

2.5.5 Ένα Συνολοθεωρητικό Πλεονέκτημα


Ένα συνολοθεωρητικό πλεονέκτημα της μοντελοποίησης με ασαφές σύστημα συμπερασμού (είτε τύπου
Mamdani, είτε τύπου Sugeno) αντί μοντελοποίησης με παραμετρικό μοντέλο ΥΝ (π.χ. ένα κλασικό ΤΝΔ)
είναι η δυνατότητα που έχει ένα παραμετρικό μοντέλο ΥΝ να υλοποιήσει «μόνον» 1 συναρτήσεις της
μορφής f: RNRM, ενώ ένα ασαφές σύστημα συμπερασμού μπορεί να υλοποιήσει 2 συναρτήσεις της

μορφής f: RNRM, όπου 2= 2 1 >1 και 1 είναι η πληθικότητα του συνόλου R των πραγματικών αριθμών
(Kaburlasos & Kehagias, 2007). Στο προαναφερθέν πλαίσιο, επίσης, υποστηρίζεται ότι η αποκλειστική χρήση
απλών (π.χ. τριγωνικών) συναρτήσεων συμμετοχής σε ένα ασαφές σύστημα συμπερασμού αρκεί.

2-23
2.5.6 Μοντέλο Κατηγοριοποιητή
Έστω ένας ασαφής κανόνας είτε τύπου Mamdani «RM: Α  Β», είτε τύπου Sugeno «RS: Α  y = f(x)». Εάν
αντικατασταθεί το αποτέλεσμα ενός από τους προαναφερθέντες κανόνες με το στοιχείο ενός πεπερασμένου
συνόλου L, τότε προκύπτει το μοντέλο ενός κατηγοριοποιητή. Δηλ. το πεδίο ορισμού RN της συνάρτησης f:
RNT (Σχήμα 2.6) διαμερίζεται σε κατηγορίες.

2.5.7 Επεκτάσεις
Σε διάφορα στάδια υλοποίησης του μηχανισμού του Σχήματος 2.6 μπορούν να χρησιμοποιηθούν
εναλλακτικές τεχνικές. Σημειώστε ότι στα παραπάνω παραδείγματα χρησιμοποιήθηκε η ασαφής συνεπαγωγή
IM(a,b) = ab. Ωστόσο, θα μπορούσε να χρησιμοποιηθεί κάποια άλλη ασαφής συνεπαγωγή. Επίσης, για τη
σύζευξη των κατηγορηματικών προτάσεων στο αίτιο ενός κανόνα χρησιμοποιήθηκε η τ-νόρμα TM(x,y) =
min{x,y}. Ωστόσο, θα μπορούσε να χρησιμοποιηθεί κάποια άλλη τ-νόρμα. Συνήθως, η καλύτερη συνάρτηση
επιλέγεται, κατά περίπτωση, μετά από δοκιμές σε υπολογιστικά πειράματα. Συχνά επιλέγεται η απλούστερη
συνάρτηση.
Όλα τα παραπάνω ασαφή μοντέλα μπορούν εύκολα να επεκταθούν συμπεριλαμβάνοντας
περισσότερες εισόδους Α1,,ΑΝ, καθώς και περισσότερους κανόνες Κ1,, ΚL.
Αυτό το κεφάλαιο παρουσίασε τις αρχές λειτουργίας και τη χρήση ενός ασαφούς μοντέλου τύπου
Mamdani/Sugeno στο πλαίσιο της ΥΝ. Οι ασαφείς κανόνες εδώ είναι σταθεροί και αμετάβλητοι. Στο
κεφάλαιο 4 παρουσιάζονται τεχνικές μεταβολής των κανόνων ενός ασαφούς μοντέλου έτσι ώστε να
βελτιστοποιείται η προσέγγιση της συνάρτησης f: NT από δείγματά της στο Καρτεσιανό γινόμενο NT.

2.5.8 Προβλήματα Κλασικών Ασαφών Μοντέλων


Ένα πρόβλημα προκύπτει όταν αυξάνει ο αριθμός των εισόδων Α1,,ΑΝ καθώς και το σύνολο των δυνατών
τιμών ανά είσοδο (βλ. Σχήμα 2.7). Οι προαναφερθείσες αυξήσεις έχουν ως συνέπεια την εκθετική αύξηση, η
τελευταία είναι γνωστή στη βιβλιογραφία ως εκθετική έκρηξη (exponential explosion), του συνολικού
αριθμού των κανόνων του ασαφούς μοντέλου, ενώ η καλή πρακτική απαιτεί την ύπαρξη μόνο λίγων κανόνων
(Kóczy & Hirota, 1997).
Ένα άλλο πρόβλημα είναι ότι τα κλασικά ασαφή μοντέλα (βλ. Σχήμα 2.6) δεν μπορούν να χειριστούν
αβεβαιότητα (uncertainty) στις εισόδους τους. Συγκεκριμένα, η είσοδος x=(x1,,xN) στο Σχήμα 2.6
επιτρέπεται να είναι ένα διάνυσμα αριθμών, αλλά δεν επιτρέπεται να είναι Ν-άδα ασαφών αριθμών. Τα
προαναφερθέντα προβλήματα αντιμετωπίζονται αποτελεσματικά στο κεφάλαιο 9 με τη χρήση καινοτόμων
μαθηματικών εργαλείων.

2.6 Υπολογισμός με Λέξεις


Όπως έχει προαναφερθεί, δοθέντος ενός συνόλου αναφοράς Ω ένα γενικευμένο ασαφές σύνολο τύπου-2 έχει
χαρακτηριστική συνάρτηση Α: Ω[0,1][0,1], δηλ. ένα στοιχείο xΩ απεικονίζεται σε ένα στοιχείο του
ασαφούς δυναμοσυνόλου [0,1][0,1].
Το ενδιαφέρον μας εδώ εστιάζεται σε μια συγκεκριμένη κατηγορία γενικευμένων ασαφών συνόλων
τύπου-2, ώστε ένα στοιχείο xΩ=  απεικονίζεται σε έναν ασαφή αριθμό που ορίζεται πάνω στο σύνολο
αναφοράς [0,1]. Το ασαφές σύνολο που προκύπτει ονομάζεται ασαφής αριθμός τύπου-2 (ΑΑ2) (type-2
fuzzy number) για συντομία (Karnik κ.ά., 1999· Mendel, 2014· Mendel & John, 2002). Το Σχήμα 2.14
απεικονίζει έναν ΑΑ2, όπως εξηγείται στη συνέχεια.
Το Σχήμα 2.14(α) σημειώνει τρεις τριγωνικές χαρακτηριστικές συναρτήσεις με τα γράμματα f, t και
F, οι οποίες ορίζονται στο σύνολο αναφοράς Ω = . Συναρτήσεις συμμετοχής όπως οι f, t και F ονομάζονται
πρωτεύουσες (primary) χαρακτηριστικές συναρτήσεις. Συγκεκριμένα, η f και F, ονομάζονται
κάτω(lower)- και άνω(upper)- χαρακτηριστική συνάρτηση, αντίστοιχα. Γενικά, κάθε ΑΑ2 έχει μια κάτω
χαρακτηριστική συνάρτηση f και μια άνω χαρακτηριστική συνάρτηση F έτσι ώστε f(x)  F(x) για κάθε x.
Έστω μια κατακόρυφη ευθεία στη θέση x0 του Σχήματος 2.14 (α) η οποία τέμνει τις συναρτήσεις f και
F στα σημεία (x0, f(x0)) και (x0, F(x0)), αντίστοιχα. Το Σχήμα 2.14 (β) παρουσιάζει μια δευτερεύουσα
(secondary) συνάρτηση συμμετοχής με τριγωνική χαρακτηριστική συνάρτηση που ορίζεται επάνω στο
ευθύγραμμο τμήμα μεταξύ των σημείων (x0, f(x0)) και (x0, F(x0)). Έστω ότι όλες οι δευτερεύουσες
συναρτήσεις συμμετοχής για κάθε x μεταξύ xα και xβ έχουν τριγωνική χαρακτηριστική συνάρτηση έτσι ώστε
οι κορυφές όλων των (τριγωνικών) δευτερευουσών συναρτήσεων συμμετοχής ορίζουν την συνάρτηση t.

2-24
Οι ΑΑ2 συγκεντρώνουν σήμερα, με μεγάλη διαφορά συγκριτικά με εναλλακτικές τεχνολογίες, το
ενδιαφέρον της παγκόσμιας ερευνητικής κοινότητας που ασχολείται με ασαφή συστήματα. Από θεωρητική
άποψη έχει αναπτυχθεί επιχειρηματολογία ότι ένας ΑΑ2 μπορεί να αναπαραστήσει μια λέξη της
(ομιλούμενης) γλώσσας. Συνεπώς, υπολογισμός με λέξεις (computing with words) μπορεί να επιδιωχθεί
μέσω υπολογισμών με ΑΑ2. Από πρακτική (πειραματική) άποψη, η καλή επίδοση των ΑΑ2 αποδίδεται στο
γεγονός ότι ένας ΑΑ2 αναπαριστά επιπλέον πληροφορία στατιστικής φύσεως σχετικά με την κατανομή των
μετρήσεων μεταξύ της πρωτεύουσας και της δευτερεύουσας συνάρτησης συμμετοχής. Ήδη έχουν προταθεί
(και συνεχίζουν να προτείνονται) μεθοδολογίες που επεκτείνουν σε ΑΑ2 τις ασαφείς τεχνικές που
παρουσιάστηκαν σ’ αυτό το κεφάλαιο.

F
1 1
F(x0) t

t(x0)
f
f(x0)

0 xα x0 xβ 0 f(x0) t(x0) F(xβ) 1

(α) (β)

Σχήμα 2.14 (α) Ένας ΑΑ2 ορίζεται ανάμεσα στις δύο πρωτεύουσες συναρτήσεις συμμετοχής f (κάτω χαρακτηριστική
συνάρτηση) και F (άνω χαρακτηριστική συνάρτηση). Εδώ η πρωτεύουσα συνάρτηση συμμετοχής t ορίζει τις κορυφές των
δευτερευουσών (τριγωνικών) συναρτήσεων συμμετοχής. (β) Η τριγωνική, δευτερεύουσα συνάρτηση συμμετοχής στη θέση x
= x 0.

2-25
Ερωτήσεις Κατανόησης και Ασκήσεις

2.1) Δοθέντων των πεπερασμένων ασαφών συνόλων Α = {(1,0.1), (2,0.4), (3,0.7), (4,0.9), (*,1)}, Β =
{(α,0.4), (1,1), (2,0.5), (3,0.9), (4,0.2) } και Γ = {(α,1), (1,0.3), (2,0.1), (4,0.9), (*,0.5)} ορισμένα
στο βασικό σύνολο  = {α, 1, 2, 3, 4, *} υπολογίστε τα ασαφή σύνολα ΑΒ και Α(ΒΓ) και
Α(ΒΓ).
2.2) Έστω οι παρακάτω δύο ασαφείς αριθμοί.
Α: «ασαφές 2» = {0.1/0, 0.4/1, 1/2, 0.3/3, 0.1/4}
Β: «ασαφές 4» = {0.1/2, 0.2/3, 1/4, 0.5/5, 0.1/6}
Να χρησιμοποιηθεί η Αρχή της Επέκτασης για να υπολογιστεί η απόλυτη τιμή της διαφοράς |Α – Β|
= |«ασαφές 2» - «ασαφές 4»|.
2.3) Έστω η ασαφής σχέση A(x1,x2,x3)= {((1,β,c),0.7), ((1,γ,c),0.4), ((2,α,d),0.2), ((2,α,e),1), ((2,β,e),0.3),
((3,β,c),0.4), ((3,γ,d),0.8), ((3,γ,e),1)} και ο υποχώρος H= X1 του X=X1X2X3=
{1,2,3}{α,β,γ}{c,d,e}. Να ευρεθεί η προβολή της σχέσης A(x1,x2,x3) στον υποχώρο H=X1.
2.4) Χρησιμοποιώντας την τεχνική απο-ασαφοποίησης «κέντρου βάρους» να υπολογίσετε τον αριθμό
yˆ στον οποίον απο-ασαφοποιείται το ασαφές σύνολο B(y) του Σχήματος 2.12.
2.5) Έστω ένα ασαφές μοντέλο Sugeno με δύο εισόδους (τις input1, input2) και μια έξοδο (την output1)
με τους ακόλουθους τρεις κανόνες:

S1: EAN (η input1 είναι small) ΚΑΙ (η input2 είναι low) ΤΟΤΕ y1(x1,x2)=x1+x2+4,
S2: EAN (η input1 είναι medium) ΚΑΙ (η input2 είναι normal) ΤΟΤΕ y2(x1,x2)=2x1+x2,
S3: EAN (η input1 είναι large) ΚΑΙ (η input2 είναι high) ΤΟΤΕ y3(x1,x2)=3x1+x2-3,

όπου όλα τα ασαφή σύνολα δείχνονται στο Σχήμα 2.7. Έστω οι είσοδοι x1=5 και x2=16. Να
υπολογιστεί η ολική έξοδος yˆ ( x1, x2 ) .
2.6) Έστω δύο ασαφή σύνολα Α= {(a,1) (b,1), (c,0.7), (d,0.5), (e,0.2)}, Β= {(1,0.1), (2,0.3), (3,0.6),
(4,0.8), (5,0.9), (6,1)}, ο κανόνας Κ: ΑΒ, και το αίτιο Α= {(a,0.6) (b,.8), (c,1), (d,0.7), (e,0.4)}.
Χρησιμοποιώντας τον συνθετικό συμπερασματικό κανόνα του Zadeh και τη συνεπαγωγή κατά
Lukasiewicz υπολογίστε το αποτέλεσμα Β που αντιστοιχεί στο αίτιο Α.

2-26
Βιβλιογραφία
Belohlavek, R. (2007). Do exact shapes of fuzzy sets matter?. International Journal of General Systems, 36(5),
527-555.
Goguen, J.A. (1967). L-fuzzy sets. Journal of Mathematical Analysis and Applications, 18(1), 145-174.
Guillaume, S. (2001). Designing fuzzy inference systems from data: an interpretability-oriented review. IEEE
Trans. on Fuzzy Systems, 9(3), 426-443.
Hatzimichailidis, A.G., Papakostas, G.A. & Kaburlasos, V.G. (2012). A study on fuzzy D-implications. In
Proceedings of the 10th International Conference on Uncertainty Modeling in Knowledge Engineering
and Decision Making (FLINS 2012), Istanbul, Turkey, 26-29 August.
Χατζημιχαηλίδης, Α. (2014). Στοιχεία Διακριτών Μαθηματικών. Θεσσαλονίκη, Εκδόσεις Τζιόλα.
Kaburlasos, V.G. (2006). Towards a Unified Modeling and Knowledge-Representation Based on Lattice
Theory. Heidelberg, Germany: Springer, series: Studies in Computational Intelligence, 27.
Kaburlasos, V.G. & Kehagias, A. (2007). Novel fuzzy inference system (FIS) analysis and design based on
lattice theory. IEEE Transactions on Fuzzy Systems, 15(2), 243-260.
Kaburlasos, V.G. & Kehagias, A. (2014). Fuzzy inference system (FIS) extensions based on lattice theory.
IEEE Trans. on Fuzzy Systems, 22(3), 531-546.
Karnik, N.N., Mendel, J.M. & Liang, Q. (1999). Type-2 fuzzy logic systems. IEEE Transactions on Fuzzy
Systems, 7(6), 643-658.
Klir, G.J. & Yuan, B. (1995). Fuzzy Sets and Fuzzy Logic: Theory and Applications. Upper Saddle River, NJ:
Prentice Hall.
Kóczy, L.T. & Hirota, K. (1997). Size reduction by interpolation in fuzzy rule bases. IEEE Transactions on
Systems, Man, Cybernetics – B, 27(1), 14-25.
Mamdani, E.H. & Assilian, S. (1975). An experiment in linguistic synthesis with a fuzzy logic controller. Intl.
Journal of Man-Machine Studies, 7(1), 1-13.
Margaris, A. (1990). First Order Mathematical Logic. Mineola, NY: Dover Publications.
Mendel, J.M. (2014). General type-2 fuzzy logic systems made simple: a tutorial. IEEE Trans. on Fuzzy
Systems, 22(5), 1162-1182.
Mendel, J.M. & John, R.I. (2002). Type-2 fuzzy sets made simple. IEEE Trans. on Fuzzy Systems, 10(2), 117-
127.
Nguyen, H.T. & Walker, E.A. (2005). A First Course in Fuzzy Logic. 3rd ed. Boca Raton: Chapman & Hall /CRC.
Runkler, T.A. (1997). Selection of appropriate defuzzification methods using application specific properties.
IEEE Trans. on Fuzzy Systems, 5(1), 72-79.
Sugeno, M. & Kang, G.T. (1988). Structure identification of fuzzy model. Fuzzy Sets and Systems, 28(1), 15-
33.
Takagi, T. & Sugeno, M. (1985). Fuzzy identification of systems and its applications to modeling and control.
IEEE Trans. on Systems, Man and Cybernetics, 15(1), 116-132.
Θεοδώρου, Γ.Α. (2010). Εισαγωγή στην Ασαφή Λογική (Fuzzy Logic). Θεσσαλονίκη, Εκδόσεις Τζιόλα.
Zadeh, L.A. (1965). Fuzzy sets. Information and Control, 8, 338-353.
Zadeh, L.A. (1975). The concept of a linguistic variable and its application to approximate reasoning – I.
Information Sciences, 8(3), 199-249.
Zadeh, L.A. (1999). From computing with numbers to computing with words. From manipulation of
measurements to manipulation of perceptions. IEEE Trans. on Circuits and Systems - I, 46(1), 105-119.

2-27
Κεφάλαιο 3: Εξελικτικός Υπολογισμός
Ένα σημαντικό ζητούμενο σε πρακτικές εφαρμογές ΥΝ αποτελεί κάποιου είδους βελτιστοποίηση
(optimization), η οποία τυπικά μεθοδεύεται μέσω της ελαχιστοποίησης μιας καλώς ορισμένης συνάρτησης
κόστους, που ονομάζεται αντικειμενική συνάρτηση, ενδεχομένως με ταυτόχρονη ικανοποίηση ενός συνόλου
(αλγεβρικών) περιορισμών (constraints). Η ύπαρξη κλασικών αλγόριθμων βελτιστοποίησης, όπως, για
παράδειγμα, η μέθοδος των ελαχίστων τετραγώνων (least-squares method) του Gauss, δεν αρκεί για την
αντιμετώπιση σύγχρονων προβλημάτων βελτιστοποίησης εξαιτίας της πολύμορφης πολυπλοκότητας των
σύγχρονων προβλημάτων.
Μια δημοφιλής κατηγορία αλγορίθμων βελτιστοποίησης λειτουργεί με εξομοίωση (emulation)
νόμων και αρχών που διέπουν φυσικά φαινόμενα και ζωντανούς οργανισμούς αντίστοιχα. Γι' αυτό το λόγο οι
προαναφερθέντες αλγόριθμοι βελτιστοποίησης ονομάζονται εμπνευσμένοι από τη φύση (nature inspired).
Το παρόν κεφάλαιο εστιάζει σε ένα υποσύνολο αλγόριθμων βελτιστοποίησης εμπνευσμένων από την φύση,
οι οποίοι είναι γνωστοί ως αλγόριθμοι εξελικτικού υπολογισμού. Μάλιστα, έμφαση δίνεται εδώ σε
γενετικούς αλγορίθμους (genetic algorithms).

3.1 Βασικές Αρχές Βελτιστοποίησης


Η γενική μορφή ενός προβλήματος βελτιστοποίησης (Boyd & Vandenberghe, 2004· Deb, 2001), το οποίο
χαρακτηρίζεται από μία αντικειμενική συνάρτηση f : n
 , είναι η ακόλουθη:
min f ( x)
(3.1)
gi  x   αi , i = 1,2,3,...,m.

όπου x =  x1 , x 2 , x 3 ,..., x n  είναι το διάνυσμα των παραμέτρων βελτιστοποίησης πλήθους n , ενώ gi  x  και
αi , i = 1,2,3,...,m είναι (αλγεβρικές) συναρτήσεις περιορισμών και σταθερές, αντίστοιχα. Αυτά τα
προβλήματα διακρίνονται, πρώτον, σε προβλήματα βελτιστοποίησης χωρίς περιορισμούς (unconstrained)
και, δεύτερον, σε προβλήματα βελτιστοποίησης με περιορισμούς (constrained), ανάλογα με το εάν οι
μεταβλητές βελτιστοποίησης της αντικειμενικής συνάρτησης οφείλουν να ικανοποιούν κάποιους
(αλγεβρικούς) περιορισμούς ή όχι. Η δεύτερη κατηγορία μπορεί να περιλαμβάνει περιορισμούς ισοτήτων και
περιορισμούς ανισοτήτων. Με βάση τη γενική μορφή της Εξ.(3.1) μπορούμε επίσης να διακρίνουμε τις
περιπτώσεις της γραμμικής (linear) βελτιστοποίησης και της μη-γραμμικής (non-linear) βελτιστοποίησης,
ανάλογα με το αν οι συναρτήσεις f  x  και gi  x  είναι γραμμικές ή μη-γραμμικές αντίστοιχα.
Η διαδικασία βελτιστοποίησης αναζητεί βέλτιστες τιμές των μεταβλητών x μέσα στο χώρο
(αναζήτησης) των λύσεων (solution (search) space) που ελαχιστοποιούν την αντικειμενική συνάρτηση και
ταυτόχρονα ικανοποιούν τους περιορισμούς. Σημειώστε ότι κάθε πρόβλημα βελτιστοποίησης μπορεί να
αντιμετωπιστεί ως πρόβλημα ελαχιστοποίησης, αφού ένα πρόβλημα μεγιστοποίησης μετασχηματίζεται στη
μορφή της Εξ.(3.1) είτε αντιστρέφοντας ( 1 / f  x  ), είτε αλλάζοντας το πρόσημο ( - f  x  ) της αντικειμενικής
συνάρτησης.
Ιδιαίτερο ενδιαφέρον παρουσιάζουν προβλήματα βελτιστοποίησης στα οποία οι συναρτήσεις f  x 
και gi  x  είναι κυρτές (convex), δηλαδή ικανοποιούν την ανισότητα (Bertsekas κ.ά., 2003· Deb, 2001):

f ( x1  1    x2 )   f  x1   1    f  x2  (3.2)

για κάθε 0    1 . Ένα παράδειγμα κυρτής συνάρτησης απεικονίζεται στο Σχήμα 3.1. Αντίθετα, οι
συναρτήσεις που δεν ικανοποιούν την Εξ.(3.2) ονομάζονται μη-κυρτές.
Η κυρτότητα αποτελεί σημαντική ιδιότητα μιας αντικειμενικής συνάρτησης προς βελτιστοποίηση
διότι το ελάχιστο μίας κυρτής συνάρτησης στο πεδίο ορισμού της είναι ολικό ελάχιστο (global minimum)
και όχι μόνον τοπικό ελάχιστο (local minimum). Αυτό σημαίνει ότι η λύση του προβλήματος είναι η
βέλτιστη λύση. Ωστόσο, οι αντικειμενικές συναρτήσεις συχνά δεν είναι κυρτές.
Ο ορισμός του προβλήματος βελτιστοποίησης της Εξ.(3.1) μπορεί να επεκταθεί ώστε να
συμπεριλάβει περισσότερες από μία αντικειμενικές συναρτήσεις. Σε αυτή την περίπτωση μιλάμε για
βελτιστοποίηση πολλαπλών στόχων (multi-objective optimization) (Deb, 2001), η οποία συνήθως είναι

3-1
σημαντικά πολυπλοκότερη ειδικά όταν οι πολλαπλές αντικειμενικές συναρτήσεις βρίσκονται σε αντίφαση
μεταξύ τους, δηλ. όταν η βελτίωση μιας αντικειμενικής συνάρτησης συνεπάγεται επιδείνωση μιας άλλης.
Επίσης, ιδιαίτερο ενδιαφέρον παρουσιάζει η βελτιστοποίηση πολυτροπικών (multi-modal) συναρτήσεων, οι
οποίες χαρακτηρίζονται από περισσότερα του ενός (ίσων μεταξύ τους) ολικών ακρότατων σε διαφορετικά
σημεία του χώρου των λύσεων. Η εύρεση όλων των ακρότατων είναι δύσκολο πρόβλημα για κλασικούς
αλγορίθμους βελτιστοποίησης.
Εν κατακλείδι, σημειώστε ότι η βελτιστοποίηση μιας αντικειμενικής συνάρτησης αποτελεί σημαντικό
πεδίο έρευνας με εφαρμογή σε πολλά επιστημονικά πεδία. Για το λόγο αυτό υπάρχει μόνιμο ενδιαφέρον για
αποτελεσματικούς αλγορίθμους βελτιστοποίησης που υπολογίζουν γρήγορα το ολικό βέλτιστο μίας
πολύπλοκης αντικειμενικής συνάρτησης.

Σχήμα 3.1 Μια κυρτή συνάρτηση.

3.2 Κλασικοί Αλγόριθμοι Βελτιστοποίησης


Για αρκετά χρόνια στην ερευνητική βιβλιογραφία κυριάρχησαν οι κλασικοί αλγόριθμοι βελτιστοποίησης, οι
οποίοι είναι επαναληπτικοί αλγόριθμοι κατάβασης (descent) και έχουν την ακόλουθη γενική μορφή:

xk+1 = xk + ηΔxk (3.3)

όπου k = 0,1,... είναι ο αριθμός επανάληψης του αλγορίθμου, xk , xk+1 είναι οι τιμές της μεταβλητής της
αντικειμενικής συνάρτησης f(.) στην επανάληψη k και k + 1 αντίστοιχα. Τέλος, η παράμετρος η καλείται
μέγεθος βήματος (step size), ενώ ο όρος Δxk ονομάζεται κατεύθυνση αναζήτησης (search direction).
Χαρακτηριστικό των επαναληπτικών αλγόριθμων κατάβασης είναι ότι σε κάθε επανάληψη ισχύει
f  xk+1  < f  xk  , δηλ. κάθε επανάληψη μειώνει την τιμή της αντικειμενικής συνάρτησης.
Όταν η κατεύθυνση αναζήτησης περιγράφεται από την παράγωγο της αντικειμενικής συνάρτησης,
δηλ. Δxk = -f  xk  , τότε ο αλγόριθμος ονομάζεται αλγόριθμος κατάβασης βαθμίδας (gradient descent).
Άλλες παραλλαγές του βασικού αλγορίθμου Εξ.(3.3) αποτελούν η μέθοδος του Νεύτωνα (Newton’s
method) (Coleman & Li, 1994) και οι αλγόριθμοι συζυγούς κατάβασης (conjugate descent) (Møller, 1993).
Οι προαναφερθέντες κλασικοί αλγόριθμοι βελτιστοποίησης έχουν χρησιμοποιηθεί εκτεταμένα για την
εκπαίδευση ΤΝΔ, όπως περιγράφτηκε στο Κεφάλαιο 1. Συγκεκριμένα, η κλασική εκπαίδευση ενός ΤΝΔ
αντιμετωπίζεται ως ένα πρόβλημα βελτιστοποίησης, όπου αναζητούνται τα βέλτιστα βάρη του ΤΝΔ, που
ελαχιστοποιούν την αντικειμενική συνάρτηση του σφάλματος εξόδων του ΤΝΔ χρησιμοποιώντας έναν
επαναληπτικό αλγόριθμο κατάβασης.

3-2
3.2.1 Παραδοχές Κλασικών Αλγόριθμων Βελτιστοποίησης
Οι κλασικοί αλγόριθμοι βελτιστοποίησης χρησιμοποιούνται ευρύτατα στην βελτιστοποίηση συστημάτων και
διαδικασιών. Οι αλγόριθμοι αυτοί τυπικά προϋποθέτουν κάποιες παραδοχές, οι οποίες απαριθμούνται στη
συνέχεια.
1. Μια βασική παραδοχή είναι η ύπαρξη αντικειμενικής συνάρτησης. Ωστόσο, δεν υπάρχει πάντοτε μια
αντικειμενική συνάρτηση ειδικά σε περιπτώσεις πολύπλοκων προβλημάτων.
2. Δοθείσης της αντικειμενικής συνάρτησης, μια δημοφιλής παραδοχή για την ύπαρξη (μοναδικού)
ολικού ελάχιστου είναι η παραδοχή της κυρτότητας της αντικειμενικής συνάρτησης, όπως εξηγήθηκε
στην προηγούμενη ενότητα. Ωστόσο, μια αντικειμενική συνάρτηση συχνά δεν είναι κυρτή. Επιπλέον,
στους αλγορίθμους στους οποίους γίνεται χρήση της (πρώτης) παραγώγου της αντικειμενικής
συνάρτησης είναι πιθανό το ενδεχόμενο παγίδευσης σε τοπικό ελάχιστο, όπου ο αλγόριθμος
βελτιστοποίησης τερματίζει χωρίς να εγγυάται την εύρεση του ολικού ελάχιστου. Συνεπώς, ένας
κλασικός αλγόριθμος βελτιστοποίησης μπορεί να συγκλίνει σε υποβέλτιστες λύσεις.
3. Μια επιπλέον παραδοχή των κλασικών αλγορίθμων, οι οποίοι κάνουν χρήση της πρώτης παραγώγου
της αντικειμενικής συνάρτησης, είναι και η ύπαρξη της δεύτερης παραγώγου. Ωστόσο, σε
περιπτώσεις πολύπλοκων αντικειμενικών συναρτήσεων ο υπολογισμός των δύο παραγώγων δεν είναι
δεδομένος.

Η προϋπόθεση των προαναφερθέντων παραδοχών αποτελεί το λόγο για τον οποίο οι κλασικοί
αλγόριθμοι βελτιστοποίησης συχνά αποτυγχάνουν σε πολύπλοκα προβλήματα. Η ανάγκη ύπαρξης
αποτελεσματικών αλγόριθμων, που να μπορούν να εφαρμοστούν σε διάφορα προβλήματα βελτιστοποίησης,
αποτελεί ενεργό πεδίο επιστημονικής έρευνας.

3.3 Βασικές Έννοιες Εξελικτικού Υπολογισμού


Η έννοια του εξελικτικού υπολογισμού έχει τις ρίζες της στις δεκαετίες του 1950 και 1960. Ο όρος αυτός
χρησιμοποιήθηκε για να περιγράψει ένα σύνολο αλγόριθμων, όπου κάθε αλγόριθμος βασίζεται σε έναν
πληθυσμό υποψήφιων λύσεων, η καθεμιά από τις οποίες ονομάζεται άτομο (individual) (του πληθυσμού).
Βασικό χαρακτηριστικό του εξελικτικού υπολογισμού αποτελεί η παράλληλη αναζήτηση στο χώρο
αναζήτησης, καθώς οι υποψήφιες λύσεις του πληθυσμού δοκιμάζονται στο πρόβλημα παράλληλα (βλ.
ταυτόχρονα). Δηλαδή, σε αντίθεση με τους κλασικούς αλγορίθμους, όπου η βελτιστοποίηση μεθοδεύεται
ψάχνοντας στο χώρο αναζήτησης σημείο-προς-σημείο, στον εξελικτικό υπολογισμό η βελτιστοποίηση
μεθοδεύεται ψάχνοντας στο χώρο αναζήτησης ταυτόχρονα σε πολλά σημεία. Με αυτόν τον τρόπο
επιτυγχάνεται μια ευρύτερη εξερεύνηση (exploration), καθώς και μια στοχευμένη εκμετάλλευση
(exploitation) του χώρου αναζήτησης προς εύρεση μιας βέλτιστης λύσης.
Σε κάθε επανάληψη μεταξύ των ατόμων (βλ. υποψήφιων λύσεων) του πληθυσμού εφαρμόζονται
κατάλληλοι τελεστές (operators), βλ. «μηχανισμοί», εμπνευσμένοι από τη Δαρβινική θεωρία της εξέλιξης
(Darwin, 2014), ώστε να παράγονται καλύτερες λύσεις σε κάθε επανάληψη. Τελικά, μετά από έναν αριθμό
επαναλήψεων, η πειραματική (βλ. υπολογιστική) εμπειρία έχει δείξει ότι ολόκληρος ο πληθυσμός συγκλίνει
προς μία βέλτιστη λύση. Η εφαρμογή των τελεστών αποσκοπεί αφενός στην παραγωγή καλύτερων λύσεων
και αφετέρου στην εξάλειψη χειρότερων λύσεων. Σε κάθε επανάληψη υπολογίζεται ένας νέος πληθυσμός
ατόμων που περιέχει καλύτερες λύσεις με τελικό σκοπό να προσεγγιστεί το ολικό βέλτιστο του προβλήματος.
Ένα πρόβλημα το οποίο μπορεί να εμφανιστεί σε όλους τους αλγορίθμους εξελικτικού υπολογισμού
είναι η πρόωρη σύγκλιση (premature conevrgence). Το φαινόμενο αυτό εμφανίζεται όταν ο αλγόριθμος
προσεγγίζει πολύ γρήγορα μία λύση, δηλ. όταν όλες οι λύσεις του πληθυσμού αποκτούν την ίδια τιμή, οπότε
τυπικά αποτρέπεται η δημιουργία διαφορετικών λύσεων (μέσω της εφαρμογής των τελεστών) με αποτέλεσμα
να μην εξερευνάται ευρέως ο χώρος αναζήτησης των λύσεων. Μία μεθόδευση για την αποφυγή πρόωρης
σύγκλισης είναι η διατήρηση της ποικιλομορφίας (diversity) (Toffolo & Benini, 2003), δηλ. μιας καλώς
ορισμένης διαφορετικότητας των ατόμων του πληθυσμού ως αποτέλεσμα της εφαρμογής τελεστών.

3.4 Γενετικοί Αλγόριθμοι


Οι γενετικοί αλγόριθμοι (ΓΑ) (genetic algorithms (GA)) αποτελούν τους δημοφιλέστερους από τους
εξελικτικούς αλγορίθμους και βασίζονται σε αρχές της εξέλιξης των ειδών που εισήγαγε ο Δαρβίνος με το
βιβλίο του «Η Καταγωγή των Ειδών» (Darwin, 2014). Οι ΓΑ προτάθηκαν τη δεκαετία του 1960 από τον
Holland (1992) και τους συνεργάτες του. Παρά το γεγονός ότι η αρχική ορολογία που εισήγαγε ο Holland

3-3
ήταν γενετικό σχέδιο (genetic plan), ο όρος γενετικός αλγόριθμος υιοθετήθηκε αργότερα για να
υπογραμμίσει τον κεντρικό ρόλο του υπολογισμού στον καθορισμό και την υλοποίηση των σχεδίων.

3.4.1 Βασικές Αρχές


Η βασική ιδέα για την ανάπτυξη των ΓΑ προέρχεται από το γεγονός ότι οι ζωντανοί οργανισμοί είναι
πετυχημένα παραδείγματα βελτιστοποίησης μέσω της εφαρμογής τελεστών εξέλιξης, όπως εξηγείται
λεπτομερώς παρακάτω. Αντίθετα, ένας προγραμματιστής υπολογιστών μπορεί να προσπαθεί μάταια
προκειμένου να αναπτύξει έναν καλό αλγόριθμο βελτιστοποίησης. Συγκεκριμένα, η φυσική επιλογή εξαλείφει
ένα σημαντικό εμπόδιο που αντιμετωπίζει ένας άνθρωπος, τη μοντελοποίηση, δηλ. την ακριβή μαθηματική
περιγραφή, φυσικών νόμων και αρχών, η οποία είναι αναγκαία προϋπόθεση για την υπολογιστική
βελτιστοποίηση. Χρησιμοποιώντας εξελικτικούς μηχανισμούς, και μάλιστα ΓΑ, οι ερευνητές καταφέρνουν να
βελτιστοποιήσουν προβλήματα ακόμα και όταν αυτά δεν είναι πλήρως κατανοητά. Συγκεκριμένα, οι ΓΑ
έχουν τη δυνατότητα να δοκιμάζουν ταυτόχρονα ένα ολόκληρο σύνολο πιθανών λύσεων ενός τεχνικού
προβλήματος. Σημειωτέον ότι κάποιες φορές η μελέτη της εξέλιξης προγραμμάτων λογισμικού οδηγεί σε
συμπεράσματα που διαφωτίζουν τον τρόπο εξέλιξης της ζωής και της ευφυΐας στο φυσικό κόσμο.
Οι ζωντανοί οργανισμοί εξελίσσονται χρησιμοποιώντας δύο βασικούς μηχανισμούς (βλ. τελεστές)
που περιλαμβάνουν πρώτον, τη φυσική επιλογή (natural selection) και δεύτερον, τη διασταύρωση
(crossover). Ο πρώτος μηχανισμός (βλ. φυσική επιλογή) καθορίζει ποια άτομα του πληθυσμού θα
επιβιώσουν αντί άλλων για να προσεγγίσουν περισσότερους συζύγους (mates) με σκοπό να αναπαραχθούν.
Ο δεύτερος μηχανισμός (βλ. διασταύρωση) εξασφαλίζει την ανάμειξη των γονιδίων (genes), δηλ. των
μεταβλητών του προς βελτιστοποίηση προβλήματος, στους απογόνους προς διατήρηση μιας ποικιλομορφίας
με σκοπό την εύρεση βέλτιστης λύσης.
Η βασική αρχή για τη φυσική επιλογή είναι απλή: αν ένας ζωντανός οργανισμός αποτυγχάνει σε μία
σειρά από δοκιμασίες από τις οποίες εξαρτάται η επιβίωσή του, όπως είναι οι δοκιμασίες εύρεσης τροφής,
νερού, καταφύγιου, κ.λπ., τότε πεθαίνει. Συνεπώς, δε μεταφέρει τα γονίδιά του στην επόμενη γενεά.
Αντιθέτως, «επιτυχημένα άτομα» επιζούν καΙ παράγουν απογόνους. Επιπλέον, η διασταύρωση επιτυχημένων
ατόμων (γονέων) μπορεί να αναπαράγει απογόνους περισσότερο επιτυχημένους από τους γονείς τους. Με
αυτόν τον τρόπο τα άτομα εξελίσσονται από γενεά σε γενεά προσπαθώντας να προσαρμόζονται βέλτιστα στο
περιβάλλον τους.
Ένας ΓΑ χρησιμοποιεί έναν πληθυσμό ατόμων (βλ. υποψήφιων λύσεων). Η αναπαράσταση ενός
ατόμου του πληθυσμού ονομάζεται χρωμόσωμα (chromosome) και αναπαριστά το σύνολο των μεταβλητών
του προβλήματος. Σε κάθε χρωμόσωμα αποδίδεται (ως αποτέλεσμα υπολογισμού) ένας βαθμός
καταλληλότητας (degree of fitness), ο οποίος ποσοτικοποιεί την ποιότητα της λύσης, η οποία
αναπαριστάνεται από το συγκεκριμένο χρωμόσωμα. Ο βαθμός καταλληλότητας ενός χρωμοσώματος τελικά
προσδιορίζει την πιθανότητα να επιλεγεί αυτό το χρωμόσωμα προς διασταύρωση. Συγκεκριμένα, από τη μια
μεριά, στα χρωμοσώματα με μεγαλύτερο βαθμό καταλληλότητας δίνονται περισσότερες ευκαιρίες
αναπαραγωγής μέσω διασταύρωσης με άλλα χρωμοσώματα του πληθυσμού, οπότε παράγονται ως απόγονοι
νέα χρωμοσώματα τα οποία μοιράζονται χαρακτηριστικά (βλ. γονίδια) του κάθε γονέα. Από την άλλη, άτομα
του πληθυσμού με μικρότερο βαθμό καταλληλότητας είναι λιγότερο πιθανό να επιλεγούν για αναπαραγωγή
και έτσι τα χαρακτηριστικά τους (δηλ. τα γονίδιά τους) τείνουν να εξαφανιστούν από τον πληθυσμό.
Συνεπώς, με την επιλογή προς διασταύρωση των καλύτερων χρωμοσωμάτων, δηλ. των
χρωμοσωμάτων με μεγαλύτερο βαθμό καταλληλότητας ανά γενεά ατόμων, αναμένεται να παραχθεί μια
καλύτερη γενεά. Η τελευταία (γενεά) τείνει να περιλαμβάνει σε μεγαλύτερη αναλογία χαρακτηριστικά (βλ.
γονίδια) των καλύτερων χρωμοσωμάτων της προηγούμενης γενεάς. Με αυτόν τον τρόπο τα καλύτερα
χαρακτηριστικά τείνουν να διατηρούνται στον πληθυσμό και έτσι τελικά να υπολογίζονται καλύτερες λύσεις
στο χώρο αναζήτησης.

3.4.2 Η Βασική Δομή ενός Γενετικού Αλγορίθμου


Παρά το γεγονός ότι ήδη έχουν προταθεί πολλοί ΓΑ με διαφορετικά γνωρίσματα ο καθένας, η βασική
λειτουργική δομή ενός ΓΑ (Coley, 1999· Mitchell, 1998) παραμένει σταθερή όπως περιγράφεται στο Σχήμα
3.2. Πριν από την εκτέλεση ενός ΓΑ θα πρέπει να προηγηθεί μια κατάλληλη κωδικοποίηση (encoding)
χρωμοσώματος για το συγκεκριμένο πρόβλημα. Επίσης, απαιτείται ο ορισμός μιας κατάλληλης συνάρτησης
καταλληλότητας (fitness function), η οποία αποδίδει ένα βαθμό καταλληλότητας σε κάθε κωδικοποιημένη
λύση. Σημειώστε ότι η συνάρτηση καταλληλότητας είναι μια αντικειμενική συνάρτηση.

3-4
Σχήμα 3.2 Η βασική λειτουργική δομή ενός τυπικού ΓΑ.

Κατά τη διάρκεια της εκτέλεσης του ΓΑ θα πρέπει να επιλέγονται χρωμοσώματα (γονείς) προς
διασταύρωση και παραγωγή γόνων. Επιπλέον, η εφαρμογή του τελεστή της μετάλλαξης (mutation)
προσδίδει ποικιλομορφία με την τυχαία εμφάνιση κάποιου χρωμοσώματος το οποίο θα ήταν αδύνατο να
εμφανιστεί μέσω της διασταύρωσης. Σε περίπτωση που ο αριθμός των γόνων είναι μικρότερος ή μεγαλύτερος
από το μέγεθος του αρχικού πληθυσμού, μπορεί να γίνει επανατοποθέτηση γονέων από τον αρχικό στον
παραγόμενο πληθυσμό, ώστε το συνολικό μέγεθος του πληθυσμού να διατηρηθεί σταθερό.
Στις επόμενες παραγράφους γίνεται περιγραφή των επιμέρους λειτουργιών ενός ΓΑ με βάση τη σειρά
εφαρμογής τους, όπως φαίνεται στο Σχήμα 3.2.

3.4.2.1 Αρχικός Πληθυσμός


Πριν τη δημιουργία του αρχικού πληθυσμού αποφασίζεται η κωδικοποίηση των ατόμων του πληθυσμού. Η
κωδικοποίηση των λύσεων εξαρτάται από τη φύση του προς επίλυση προβλήματος και τη μορφή των
μεταβλητών /παραμέτρων οι οποίες αποτελούν τους αγνώστους που αναζητούνται. Υπάρχουν διάφοροι
τρόποι κωδικοποίησης. Στη συνέχεια παρουσιάζουμε κάποιους από αυτούς.

3-5
Δυαδική κωδικοποίηση (binary encoding). Πρόκειται για το δημοφιλέστερο τρόπο κωδικοποίησης, με
βάση τον οποίο το χρωμόσωμα αποτελείται από μια ακολουθία δυφίων (bits) 0 ή 1. Ο συνολικός αριθμός
των δυφίων με τα οποία αναπαρίσταται κάθε λύση καθορίζεται από το πλήθος των αγνώστων μεταβλητών και
από την ακρίβεια αναπαράστασης κάθε μεταβλητής. Για παράδειγμα, αν το μήκος αναπαράστασης της i
μεταβλητής είναι li, i= 1,…,M, τότε το συνολικό μήκος (L) του κάθε χρωμοσώματος, το οποίο αποτελείται
από Μ μεταβλητές, είναι:
M
L =  li (3.4)
i=1

Ο Πίνακας 3.1 δείχνει μία δυαδική κωδικοποίηση δύο χρωμοσωμάτων αποτελούμενων από τρεις
μεταβλητές Α, Β και Γ των 8 δυφίων εκάστη με συνολικό μήκος 24 δυφία.

Μεταβλητή Α Μεταβλητή Β Μεταβλητή Γ


Χρωμόσωμα Α 00000000 00000001 00000100
Χρωμόσωμα Β 00010000 00000100 00000001

Πίνακας 3.1 Δυαδική κωδικοποίηση δυο χρωμοσωμάτων αποτελούμενων από τρεις μεταβλητές.

Σε περίπτωση που οι άγνωστες μεταβλητές λαμβάνουν πραγματικές τιμές, τότε απαιτείται μια
γραμμική απεικόνιση των πραγματικών τιμών σε δυαδικές και αντίστροφα. Για παράδειγμα, μία τέτοια
απεικόνιση (Coley, 1999) είναι η εξής:

rmax - rmin
r= z + rmin (3.5)
2l - 1

όπου [rmin , rmax ] είναι το πεδίο ορισμού της μεταβλητής, z και l η δεκαδική αναπαράσταση και το μήκος
(βλ. αριθμός δυφίων) της δυαδικής μεταβλητής, αντίστοιχα.

Κωδικοποίηση μετάθεσης (permutation encoding). Το χρωμόσωμα αποτελείται από αριθμούς που


παριστάνουν τη θέση σε μία ακολουθία. Η κωδικοποίηση αυτή μπορεί να χρησιμοποιηθεί σε συνδυαστικά
προβλήματα όπως, για παράδειγμα, στο πρόβλημα του πλανόδιου πωλητή.

Κωδικοποίηση δένδρου (tree encoding). Το χρωμόσωμα είναι ένα δένδρο κατάλληλα κωδικοποιημένων
αντικειμένων, όπου τα τελευταία (αντικείμενα) περιλαμβάνουν συναρτήσεις ή/και εντολές σε γλώσσα
προγραμματισμού. Η κωδικοποίηση δέντρων είναι ιδιαίτερα χρήσιμη για εξελισσόμενα προγράμματα
(evolving programs), κ.ά.

Κωδικοποίηση τιμών (value encoding). Χρησιμοποιείται μία ακολουθία τιμών άμεσα συσχετιζόμενων με
το προς βελτιστοποίηση πρόβλημα, όπως πραγματικοί αριθμοί, χαρακτήρες, κ.ά. Η κωδικοποίηση τιμών
χρησιμοποιείται σε προβλήματα όπου η λύση περιλαμβάνει μεγάλο αριθμό μεταβλητών διότι, λόγω της
αξιοποίησης του εύρους των λύσεων, μπορεί να καλύπτει μεγαλύτερες περιοχές του πεδίου αναζήτησης.

Αφού αποφασιστεί ο τρόπος κωδικοποίησης, επιλέγεται τυχαία ο αρχικός πληθυσμός των υποψήφιων
λύσεων, π.χ. με μια γεννήτρια τυχαίων αριθμών. Ιδιαίτερη μέριμνα λαμβάνεται, ώστε ο αρχικός πληθυσμός να
είναι όσο το δυνατόν ποικιλόμορφος, δηλ. τα χρωμοσώματα να είναι όσο το δυνατόν ομοιόμορφα
κατανεμημένα στο χώρο αναζήτησης των λύσεων, ώστε να μην περιορίζεται η αναζήτηση αποκλειστικά σε
μία μόνον περιοχή του χώρου αναζήτησης.

3.4.2.2 Υπολογισμός Καταλληλότητας


Η καταλληλότητα των χρωμοσωμάτων υπολογίζεται μέσω της εφαρμογής μίας συνάρτησης καταλληλότητας,
που ποσοτικοποιεί την αποτελεσματικότητα της υποψήφιας λύσης, η οποία αναπαριστάνεται από το
συγκεκριμένο χρωμόσωμα. Η ακριβής μορφή της συνάρτησης καταλληλότητας εξαρτάται από το

3-6
συγκεκριμένο πρόβλημα. Ανάλογα με την τιμή της συνάρτησης καταλληλότητας τα χρωμοσώματα του
πληθυσμού ταξινομούνται από το «πλέον κατάλληλο» προς το «λιγότερο κατάλληλο».
Σε κάποια προβλήματα οι τιμές της συνάρτησης καταλληλότητας των χρωμοσωμάτων κυμαίνονται
σε πολύ μεγάλο εύρος. Η υπολογιστική εμπειρία έχει δείξει ότι όταν η τιμή της συνάρτησης καταλληλότητας
ενός χρωμοσώματος είναι σε μεγάλη απόσταση από τις αντίστοιχες τιμές άλλων χρωμοσωμάτων, τότε το
προαναφερθέν χρωμόσωμα συχνά λειτουργεί ως υπεράτομο μέσα στον πληθυσμό και οδηγεί σε πρόωρη
σύγκλιση. Το πρόβλημα αυτό αντιμετωπίζεται με την τεχνική ανάθεσης ποιότητας με βάση την τάξη, όπου,
μετά την ταξινόμησή τους, ο αύξων αριθμός της θέσης κάθε χρωμοσώματος στην ταξινόμηση αποτελεί και το
μέτρο της ποιότητάς του. Έτσι αποφεύγεται η δημιουργία χρωμοσωμάτων που λειτουργούν ως υπεράτομα.

3.4.2.3 Επιλογή
Υπολογιστικός πειραματισμός έδειξε ότι η επιλογή των γονέων δεν πρέπει να βασίζεται αποκλειστικά στα
καλύτερα χρωμοσώματα κάθε γενεάς, διότι τότε μπορεί να αποκλείσει τη βέλτιστη λύση. Μια καλή πρακτική
είναι να επιζούν λιγότερο καλά χρωμοσώματα, ώστε να διασφαλίζεται η μετάδοση της γενετικής τους
πληροφορίας. Πάντως κατά κανόνα μια μέθοδος επιλογής επιδιώκει περισσότερους απογόνους για τα
καλύτερα χρωμοσώματα. Έχουν προταθεί και αναπτυχθεί πολλές μέθοδοι επιλογής που χωρίζονται σε
στοχαστικές (stochastic) και αιτιοκρατικές (deterministic). Οι πιο δημοφιλείς παρουσιάζονται στη
συνέχεια (Coley, 1999).

Επιλογή του καλύτερου συζύγου (top mate selection). Η απλούστερη από τις μεθόδους, εξομοιώνει το
φυσικό νόμο επιλογής του καταλληλότερου ατόμου. Σύμφωνα με αυτήν την μέθοδο, ο πληθυσμός
ταξινομείται σύμφωνα με τις τιμές καταλληλότητας των χρωμοσωμάτων του, από τα πιο κατάλληλα στα
λιγότερο κατάλληλα. Στη συνέχεια, ένα ποσοστό (συνήθως το 50%) του πληθυσμού με τα λιγότερο
κατάλληλα χρωμοσώματα αγνοείται, ενώ τα υπόλοιπα (βλ. πιο κατάλληλα) χρωμοσώματα χρησιμοποιούνται
για να παραχθεί η επόμενη γενεά. Η μέθοδος αυτή κατατάσσεται στις αιτιοκρατικές μεθόδους. Το
πλεονέκτημα αυτής της μεθόδου είναι η απλότητά της, αφού το μόνο που απαιτείται είναι η επιλογή των
καλύτερων χρωμοσωμάτων με βάση ένα προκαθορισμένο ποσοστό και στη συνέχεια τυχαίο ζευγάρωμα. Το
μειονέκτημα αυτής της μεθόδου έγκειται στο ότι η γενετική πληροφορία κάποιων αδύναμων χρωμοσωμάτων
χάνεται και μπορεί να επανεμφανιστεί μόνον τυχαία μέσω μετάλλαξης. Η μέθοδος αυτή συχνά οδηγεί στο μη-
επιθυμητό φαινόμενο της πρόωρης σύγκλισης, δηλαδή την απώλεια χαρακτηριστικών σε πρώιμο στάδιο της
εξέλιξης, με αποτέλεσμα τον εγκλωβισμό σε κάποιο τοπικό ακρότατο.

Επιλογή ρουλέτας (roulette wheel selection). Η μέθοδος αυτή κατατάσσεται στις στοχαστικές μεθόδους. Οι
γονείς επιλέγονται σύμφωνα με την καταλληλότητά τους. Συγκεκριμένα, όσο καλύτερα είναι τα
χρωμοσώματα, τόσο περισσότερες πιθανότητες έχουν να επιλεγούν, όπως εξηγείται στη συνέχεια. Έστω ένας
τροχός ρουλέτας, δηλ. ένας κύκλος όπου κάθε χρωμόσωμα του πληθυσμού είναι τοποθετημένο σε έναν τομέα
του κύκλου, έτσι ώστε το εμβαδόν του κάθε τομέα να είναι ανάλογο με την τιμή της συνάρτησης
καταλληλότητας για το αντίστοιχο χρωμόσωμα. Για παράδειγμα, στο Σχήμα 3.3 δείχνεται ένας πληθυσμός με
πέντε χρωμοσώματα, όπου το χρωμόσωμα Α (σκούρο πράσινο που αντιστοιχεί στο 30%) είναι το πιο
κατάλληλο από όλα τα υπόλοιπα στον τροχό. Η επιλογή χρωμοσώματος πραγματοποιείται με την τυχαία
επιλογή ενός σημείου εντός του κύκλου. Επειδή αυτή η μέθοδος επιλογής είναι στοχαστική, ενδέχεται να
επιλεγούν για αναπαραγωγή γονείς με κακή τιμή της συνάρτησης καταλληλότητας.

Επιλογή με διαγωνισμό (tournament selection). Aνήκει στις στοχαστικές μεθόδους. Με βάση τη μέθοδο
αυτή ένας πληθυσμός Ν χρωμοσωμάτων επιλέγεται τυχαία από τον αρχικό πληθυσμό και από αυτόν
επιλέγεται το χρωμόσωμα με τη μεγαλύτερη τιμή καταλληλότητας. Η διαδικασία συνεχίζεται μέχρι την
επιλογή ενός προκαθορισμένου αριθμού γονέων που θα συμμετάσχουν στην αναπαραγωγή.

Τοπική επιλογή (local selection). Η τοπική επιλογή ανήκει στις αιτιοκρατικές μεθόδους. Στηρίζεται στην
ύπαρξη μιας συνάρτησης απόστασης μεταξύ των χρωμοσωμάτων. Τελικά, για κάθε χρωμόσωμα ορίζεται μια
γειτονιά εντός της οποίας αποκλειστικά επιλέγονται άτομα για διασταύρωση σύμφωνα με ένα
προκαθορισμένο κριτήριο.

Πιθανολογική καθολική δειγματοληψία (stochastic universal sampling). Η πιθανολογική καθολική


δειγματοληψία ανήκει στις στοχαστικές μεθόδους. Τα χρωμοσώματα του πληθυσμού τοποθετούνται ως

3-7
διαδοχικά ευθύγραμμα τμήματα πάνω σε μία ευθεία γραμμή έτσι ώστε το μήκος κάθε τμήματος να είναι
ανάλογο της καταλληλότητας του αντίστοιχου χρωμοσώματος. Σημειώστε ότι αυτή η μέθοδος δε
χρησιμοποιεί αυτές καθαυτές τις τιμές της αντικειμενικής συνάρτησης του κάθε χρωμοσώματος, αλλά τις
αντίστοιχες κανονικοποιημένες τιμές καταλληλότητας. Συγκεκριμένα, η κάθε τιμή προστίθεται στην
προηγούμενη μέχρι το ολικό άθροισμα να είναι ίσο με ένα. Για κάθε τμήμα καταχωρίζουμε τον αύξοντα
αριθμό του ως δείκτη. Στη συνέχεια επιλέγονται Ν χρωμοσώματα όπως περιγράφεται στη συνέχεια. Πρώτον,
επιλέγεται τυχαία ένα σημείο στο διάστημα [0,1/Ν] και δεύτερον, επιλέγονται Ν διαδοχικά σημεία το καθένα
σε απόσταση 1/Ν από το προηγούμενο και καταχωρίζονται οι (Ν) δείκτες των τμημάτων εντός των οποίων
κείνται τα Ν επιλεχθέντα διαδοχικά σημεία. Για παράδειγμα, αν θέλουμε να επιλέξουμε 4
χρωμοσώματα/γονείς, η απόσταση μεταξύ των δεικτών θα είναι 1/4=0.25. Τα χρωμοσώματα τα οποία
επιλέγονται συμμετέχουν στη διαδικασία της αναπαραγωγής μέσω της εφαρμογής τελεστών, όπως η
διασταύρωση, η μετάλλαξη καθώς και ο ελιτισμός, οι οποίοι παρουσιάζονται στην συνέχεια.

Σχήμα 3.3 Επιλογή με τροχό ρουλέτας.

3.4.2.4 Διασταύρωση
Μετά την επιλογή των γονέων προς αναπαραγωγή νέων χρωμοσωμάτων εφαρμόζεται ο τελεστής της
διασταύρωσης. Σκοπός της διασταύρωσης είναι η ανάμειξη γενετικών χαρακτηριστικών (βλ. γονιδίων) των
γονέων, ώστε να δημιουργηθεί μία νέα γενεά χρωμοσωμάτων με το συνδυασμό χαρακτηριστικών των
γονέων. Σημειώστε ότι η διασταύρωση δεν εφαρμόζεται σε όλα ζεύγη των επιλεγμένων για αναπαραγωγή
ατόμων, αλλά γίνεται μια τυχαία επιλογή με πιθανότητα διασταύρωσης Pc. Αν η διασταύρωση δεν
εφαρμοστεί, τότε οι γόνοι παράγονται απλώς με επανάληψη των γονέων, δηλ. οι γονείς αντιγράφονται στην
επόμενη γενεά. Υπάρχουν διάφορες μέθοδοι διασταύρωσης. Κριτήριο για την επιλογή της μεθόδου που θα
χρησιμοποιηθεί αποτελεί τόσο το είδος του προβλήματος, όσο και το είδος της εφαρμοζόμενης
κωδικοποίησης. Μερικές δημοφιλείς μέθοδοι διασταύρωσης περιγράφονται στη συνέχεια.

Διασταύρωση πολλαπλών σημείων (multi-point crossover). Αρχικά επιλέγεται ένας αριθμός σημείων
διασταύρωσης Ν ( 1  N  αριθμός χρωμοσωμάτων ) και στη συνέχεια ο κάθε γονέας τεμαχίζεται σε Ν
σημεία, όπως φαίνεται στον Πίνακα 3.2. Τελικώς, ανταλλάσσονται αμοιβαία τμήματα των χρωμοσωμάτων
των γονέων, τα οποία προέκυψαν από τη διαίρεση των χρωμοσωμάτων τους στα σημεία διασταύρωσης. Η
ιδέα πίσω από αυτήν αλλά και πίσω από άλλες μορφές διασταύρωσης είναι ότι τα τμήματα ενός
χρωμοσώματος που συμβάλλουν περισσότερο στην απόδοσή του ενδέχεται να μην είναι γειτονικά. Για τον
προαναφερθέντα λόγο, ανταλλάσσονται τμήματα των χρωμοσωμάτων με την προσδοκία βελτίωσης της
απόδοσης ενός χρωμοσώματος. Υπολογιστικά πειράματα συχνά επαληθεύουν την προσδοκία αυτήν.

Διασταύρωση αριθμητική (arithmetic crossover). Η μέθοδος αυτή βασίζεται περισσότερο σε μαθηματικές


πράξεις μεταξύ των χρωμοσωμάτων, παρά σε λειτουργίες της φυσικής αναπαραγωγής, και εφαρμόζεται σε
δυαδική κωδικοποίηση. Για παράδειγμα, ένας γόνος μπορεί να προκύψει με εφαρμογή λογικών πράξεων (π.χ.
AND κ.λπ.) μεταξύ των γονέων, όπως επιδεικνύεται στον Πίνακα 3.2.

3-8
Διασταύρωση oμοιόμορφη (uniform crossover). Υπενθυμίζεται ότι η διασταύρωση πολλαπλών σημείων
καθορίζει τα σημεία διασταύρωσης ως τις θέσεις όπου το χρωμόσωμα μπορεί να διαιρείται. Η ομοιόμορφη
διασταύρωση γενικεύει αυτή την ιδέα και θεωρεί κάθε θέση μέσα στο χρωμόσωμα ως σημείο διασταύρωσης.
Επιπλέον, επιλέγεται μια μάσκα διασταύρωσης (mask crossover) ίδιου μήκους με το μήκος των γονέων,
ενώ τα ψηφία της μάσκας καθορίζουν το γονέα ο οποίος θα παρέχει στον απόγονο ένα ψηφίο. Στον Πίνακα
3.2 φαίνεται η εφαρμογή της ομοιόμορφης διασταύρωσης χρησιμοποιώντας μια συγκεκριμένη μάσκα.
Συγκεκριμένα, για δυφίο “0” της μάσκας το περιεχόμενο των γονέων Α και Β αντιγράφεται στους γόνους Α
και Β αντίστοιχα, ενώ για για δυφίο “1” το περιεχόμενο των γονέων Α και Β αντιγράφεται στους γόνους Β
και Α αντίστοιχα. Σημειώστε ότι τα δυφία “0” και “1” στη μάσκα επιλέγονται τυχαία με πιθανότητα 0.5 το
καθένα (ομοιόμορφη κατανομή).

Ένας οποισδήποτε τελεστής διασταύρωσης συμβάλλει σε μια εστιασμένη εξερεύνηση περιοχών στο
χώρο αναζήτησης των λύσεων.

Διασταύρωση Αριθμητική Ομοιόμορφη


Δύο Σημείων Διασταύρωση Διασταύρωση
Γονέας 1 110|010|10 11001011 10110001
Γονέας 2 001|001|11 11011111 00011110
Μάσκα - - 00110011
Γόνος 2 110|001|10 1 1 0 0 1 0 1 1 (AND) 00111101
Γόνος 1 001|010|11 0 0 0 1 0 1 0 0 (XOR) 10010010

Πίνακας 3.2 Παραδείγματα εφαρμογής των μεθόδων διασταύρωσης.

3.4.2.5 Μετάλλαξη
Όπως έχει προαναφερθεί, ο δεύτερος τελεστής που εφαρμόζεται στα χρωμοσώματα του πληθυσμού είναι η
μετάλλαξη. Πρόκειται για μία διαδικασία που εμφανίζεται στους ζωντανούς οργανισμούς, με βάση την οποία,
υπό ειδικές συνθήκες του περιβάλλοντος, παρατηρείται μία τυχαία αλλαγή σε κάποια χρωμοσώματα. Τελικά,
μια μετάλλαξη μπορεί να μεταβάλει κάποιες ιδιότητες του ζωντανού οργανισμού.
Στην περίπτωση των ΓΑ η εφαρμογή του τελεστή της μετάλλαξης γίνεται με μία τυχαιότητα όσον
αφορά τόσο το χρωμόσωμα, όσο και το γονίδιο στο οποίο θα εφαρμοστεί. Συγκεκριμένα, με βάση μία
πιθανότητα μετάλλαξης Pm, επιλέγονται τυχαία τα χρωμοσώματα τα οποία θα μεταλλαχτούν. Για παράδεγμα
παράγεται ένας τυχαίος αριθμός στο διάστημα [0,1] για κάθε χρωμόσωμα, ο οποίος αν είναι μικρότερος από
την πιθανότητα μετάλλαξης Pm, τότε και μόνο τότε εφαρμόζεται μετάλλαξη σε αυτό το χρωμόσωμα. Στη
συνέχεια, πάλι τυχαία, κάποιο γονίδιο του χρωμοσώματος μπορεί να μεταλλαχθεί, δηλ. να αλλάξει τιμή, π.χ.
από 0 σε 1, αν χρησιμοποιείται η δυαδική αναπαράσταση του χρωμοσώματος. Ο Πίνακας 3.3 παρουσιάζει
την εφαρμογή του τελεστή μετάλλαξης για τρεις από τις μεθόδους κωδικοποίησης χρωμοσωμάτων που
προαναφέρθηκαν.
Ένας τελεστής μετάλλαξης διασφαλίζει την ποικιλομορφία του πληθυσμού, αφού είναι ο μόνος
μηχανισμός που επιτρέπει τον τυχαίο σχηματισμό χρωμοσωμάτων και επομένως συμβάλλει στη διεύρυνση
της εξερεύνησης του χώρου των λύσεων.

Δυαδική Κωδικοποίηση Κωδικοποίηση


Κωδικοποίηση Μετάθεσης Τιμών
Αρχικό 01001001 153790 12.1 21.2 35.4 56
Χρωμόσωμα
Μεταλλαγμένο 01001101 153890 12.1 22.3 35.4 56
Χρωμόσωμα

Πίνακας 3.3 Εφαρμογή του τελεστή μετάλλαξης (το μεταλλαγμένο γονίδιο δίνεται με έντονη γραφή) για τρεις διαφορετικές
κωδικοποιήσεις.

3-9
Εκτός από τους προαναφερθέντες τελεστές της διασταύρωσης και της μετάλλαξης δημοφιλής είναι
ένας επιπλέον τελεστής, ο ελιτισμός (elitism), με βάση τον οποίο ένας προκαθορισμένος αριθμός
χρωμοσωμάτων που κρίνονται ως τα «πλέον κατάλληλα», επαναλαμβάνονται αυτούσια στο νέο πληθυσμό.
Με τον τρόπο αυτό εξασφαλίζεται ότι κάποια «πλέον κατάλληλα», χρωμοσώματα θα συμπεριληφθούν στον
νέο πληθυσμό και δε θα εξαφανιστούν ως αποτέλεσμα της εφαρμογής των υπόλοιπων τελεστών.

3.4.2.6 Επανατοποθέτηση
Μετά την εφαρμογή των προαναφερθέντων τελεστών παράγονται νέα χρωμοσώματα με σκοπό την
επανατοποθέτησή (reinsertion) τους στον παλαιό πληθυσμό, ώστε να δημιουργηθεί ένας νέος πληθυσμός
υποψήφιων λύσεων. Νέα χρωμοσώματα αντικαθιστούν παλαιά χρωμοσώματα στον πληθυσμό διατηρώντας,
τυπικά, σταθερό το μέγεθος του πληθυσμού. Με την επανατοποθέτηση των νέων χρωμοσωμάτων και το
σχηματισμό του νέου πληθυσμού ολοκληρώνεται μία επανάληψη του ΓΑ που ονομάζεται γενεά και ο
αλγόριθμος επαναλαμβάνεται εκ νέου, μέχρι να ικανοποιηθεί ένα από τα ακόλουθα δύο κριτήρια
τερματισμού (termination criteria):

1) προκαθορισμένος αριθμός γενεών και


2) προκαθορισμένη ακρίβεια βελτιστοποίησης της αντικειμενικής συνάρτησης.

3.5 Βελτιστοποίηση Σμήνους Σωματιδίων


Ο αλγόριθμος βελτιστοποίησης σμήνους σωματιδίων (ΒΣΣ) (particle swarm optimization (PSO))
προτάθηκε από τους Eberhart & Kennedy (1995). Ο αλγόριθμος αυτός εξομοιώνει την ομαδική μετακίνηση
σμήνους (swarm) ζωντανών οργανισμών, όπως ψάρια, πουλιά, κ.λπ., αποφεύγοντας συγκρούσεις μεταξύ
ατόμων στο σμήνος κατά την κίνηση.
Ο αλγόριθμος ΒΣΣ, όπως ακριβώς και ένας ΓΑ, υλοποιεί μία επαναληπτική διαδικασία, κατά την
οποία ένας πληθυσμός λύσεων κινείται στο χώρο αναζήτησης των λύσεων, εντούτοις ο ΒΣΣ παρουσιάζει
σημαντικές διαφορές από το ΓΑ. Συγκεκριμένα, στον αλγόριθμο ΒΣΣ δεν υπάρχουν τελεστές διασταύρωσης
ή/και μετάλλαξης, ενώ σε κάθε λύση, η οποία ονομάζεται σωματίδιο (του σμήνους) (particle (of the
swarm)), αντιστοιχίζεται μία ταχύτητα, η οποία αρχικοποιείται τυχαία. Τέλος, ο αλγόριθμος ΒΣΣ
απομνημονεύει όχι μόνον την ολικά καλύτερη λύση του πληθυσμού, αλλά και την ατομικά καλύτερη επίδοση
κάθε σωματιδίου (του σμήνους) ξεχωριστά. Πλεονέκτημα του αλγορίθμου ΒΣΣ είναι η απλότητά του, η οποία
επιτρέπει όχι μόνον τη γρήγορη υλοποίησή του, αλλά και την εκτέλεσή του χωρίς σημαντικές απαιτήσεις σε
μνήμη και σε υπολογιστική ισχύ. Εκτεταμένα υπολογιστικά πειράματα έχουν δείξει ότι, τυπικά, τα σωματίδια
του αλγορίθμου ΒΣΣ αλληλεπιδρούν πιο αποτελεσματικά από ό,τι τα χρωμοσώματα ενός ΓΑ και τελικά
καταλήγουν να προσεγγίζουν καλύτερα τη βέλτιστη λύση του προβλήματος.

3.5.1 Αλγοριθμική Περιγραφή


 
T
Ο αλγόριθμος ΒΣΣ θεωρεί ότι κάθε σωματίδιο i του πληθυσμού κατέχει μία θέση xi  xi1 , xi2 , xi3 ,.., xin στο

 
T
n-διάστατο χώρο των λύσεων και μία αντίστοιχη ταχύτητα ui  ui1 ,ui2 ,ui3 ,..,uin , οι οποίες
αρχικοποιούνται τυχαία. Δοθείσης της αντικειμενικής συνάρτησης f  x  ο αλγόριθμος ΒΣΣ αναζητάει
λύσεις κινούμενος στο χώρο αναζήτησης των λύσεων μέσω της προσαρμογής των τροχιών που διαγράφουν
τα σωματίδια. Συγκεκριμένα, η κίνηση των σωματιδίων έχει δύο συνιστώσες: μία στοχαστική και μία
αιτιοκρατική. Επιπλέον, κάθε σωματίδιο, κατά την κίνησή του, έλκεται τόσο από το (τρέχον) ολικά καλύτερο,
όσο και από το ατομικά καλύτερό του, ενώ συγχρόνως υπάρχει και μια τυχαία συνιστώσα της κίνησης.
Όταν ένα σωματίδιο i , i{1,…,M} βρεθεί σε θέση x*i καλύτερη από οποιαδήποτε άλλη είχε στο
παρελθόν, τότε αυτή η θέση κρατείται ως η καλύτερη θέση του σωματιδίου. Ο στόχος του αλγορίθμου είναι η
εύρεση του ολικά καλύτερου g* πάνω σε όλα τα ατομικά καλύτερα x*i μέχρι να ικανοποιηθεί ένα από τα
προαναφερθέντα δύο κριτήρια τερματισμού. Ο ψευδοκώδικας του βασικού αλγoρίθμου ΒΣΣ περιγράφεται στο
Σχήμα 3.4.

3-10
Σε κάθε επανάληψη (t) του αλγορίθμου ο υπολογισμός της επόμενης θέσης και της αντίστοιχης
ταχύτητας κάθε σωματιδίου υπολογίζεται ως εξής:
  
uit+1  ωuit  αr1 g* - xit  βr2 x*i - xit  (3.6)

xit+1  xit  uit+1 (3.7)

όπου οι παράμετροι ω,α, β καθορίζουν την συμπεριφορά του αλγορίθμου και επομένως η επιλογή τους
διαμορφώνει την τελική απόδοση του αλγορίθμου. Η κατάλληλη επιλογή των παραμέτρων αποτελεί
αντικείμενο έρευνας, ενώ μία «κατευθυντήρια» οδηγία είναι η επιλογή παραμέτρων ίδιας τιμής α, β  2
(Yang, 2008). Σημειώστε ότι παρά το γεγονός ότι η ταχύτητα μπορεί να πάρει οποιαδήποτε τιμή, συνήθως η
ταχύτητα φράσσεται σε ένα διάστημα [0,umax], όπου umax είναι ένα προκαθορισμένο άνω όριο. Επίσης, οι
παράμετροι r1, r2   0,1 λαμβάνουν τυχαίες τιμές ώστε να διατηρηθεί η ποικιλομορφία του πληθυσμού.
Στην βιβλιογραφία έχουν προταθεί διάφορες παραλλαγές του βασικού αλγορίθμου ΒΣΣ σε συγκεκριμένες
εφαρμογές με σκοπό τόσο να επιταχυνθεί η σύγκλιση όσο και να βελτιωθεί η απόδοσή του (Parsopoulos
&Vrahatis, 2002· del Valle κ.ά., 2008).

Έναρξη
Καθορισμός της αντικειμενικής συνάρτησης f  x 

 
Αρχικοποίηση των θέσεων xi και ταχυτήτων ui   των Μ σωματιδίων
t=0
Αρχικό καλύτερο f min = min  f  x1  ,..., f  xM 
Επανέλαβε μέχρι να ικανοποιηθεί ένα από τα κριτήρια τερματισμού
t = t +1 (αύξηση του μετρητή επανάληψης)
Για κάθε σωματίδιο και κάθε διάσταση εκτέλεσε τα παρακάτω
Παρήγαγε τυχαίες τιμές r1, r2   0,1
Υπολογισμός της νέας ταχύτητας σύμφωνα με την Εξ.(3.6)
Υπολογισμός της νέας θέσης σύμφωνα με την Εξ.(3.7)
Υπολογισμός της αντικειμενικής συνάρτησης f(xi), i=1,…,M
t+1
Υπολ/σμός του τρέχοντος καλύτερου f min = min  f  x1  ,..., f  xM 
τέλος επαναλήψεων
Εύρεση του ατομικά καλύτερου x*i και του ολικά καλύτερου g*
τερματισμός (ικανοποίηση ενός από τα κριτήρια τερματισμού)
Τελικά αποτελέσματα x*i και g*
Τέλος

Σχήμα 3.4 Ψευδοκώδικας του βασικού αλγορίθμου ΒΣΣ.

3.6 Εναλλακτικοί Αλγόριθμοι Εξελικτικού Υπολογισμού


Στις προηγούμενες ενότητες παρουσιάστηκαν οι βασικές αρχές λειτουργίας δύο δημοφιλών αλγόριθμων
εξελικτικού υπολογισμού που περιλαμβάνουν τους ΓΑ και τον αλγόριθμο ΒΣΣ. Ωστόσο, αξίζει να
επισημανθεί ότι οι δύο αυτοί αλγόριθμοι αποτελούν ένα μικρό δείγμα εναλλακτικών αλγορίθμων εξελικτικού
υπολογισμού από τους πολλούς που έχουν προταθεί στη βιβλιογραφία (Yang, 2008). Σημειώστε ότι όλοι οι
αλγόριθμοι εξελικτικού υπολογισμού είναι ευρετικοί (heuristic) με την έννοια ότι εφαρμόζουν μία
πειραματική διαδικασία αναζήτησης δοκιμή-και-σφάλμα (trial-and-error).
Ανάμεσα στο πλήθος των ευρετικών αλγορίθμων βελτιστοποίησης υπάρχουν τουλάχιστον δύο οι
οποίοι παρουσιάζουν κοινά στοιχεία με αυτά των Γενετικών Αλγορίθμων. Πρόκειται για τον αλγόριθμο της
στρατηγικής εξέλιξης (evolution strategy) (Rechenberg, 1971) που είναι χρονολογικά προγενέστερος των
ΓΑ και τον αλγόριθμο της διαφορικής εξέλιξης (differential evolution) (Storn & Price, 1997) που συχνά

3-11
έχει βελτιωμένη απόδοση συγκριτικά με τους ΓΑ. Και οι δύο αυτοί αλγόριθμοι έχουν χρησιμοποιηθεί
ευρύτατα για τη βελτιστοποίηση πολύπλοκων αντικειμενικών συναρτήσεων.
Δύο άλλοι ενδιαφέροντες αλγόριθμοι βελτιστοποίησης περιλαμβάνουν τη βελτιστοποίηση αποικίας
μυρμηγκιών (ant colony) (Colorni κ.ά., 1991) και την τεχνητή αποικία μελισσών (artificial bee colony)
(Karaboga, 2005). Αυτοί ανήκουν σε μία ευρύτερη κατηγορία αλγορίθμων γνωστών με το όνομα νοημοσύνη
σμήνους (swarm intelligence) και εξομοιώνουν τη συμπεριφορά σμηνών μυρμηγκιών και μελισσών για την
εύρεση τροφής αντίστοιχα. Αρκετά νεότερος από τους προαναφερθέντες δύο αλγορίθμους είναι ο αλγόριθμος
βαρυτικής αναζήτησης (gravitational search) (Rashedi κ.ά., 2009), ο οποίος εξομοιώνει την έλξη μαζών σε
βαρυτικό πεδίο και συνήθως έχει υψηλή απόδοση. Επιπλέον αλγόριθμοι βελτιστοποίησης οι οποίοι
προτάθηκαν στη βιβλιογραφία περιλαμβάνουν τον αλγόριθμο της πυγολαμπίδας (firefly) (Yang, 2008), τη
μέθοδο αναζήτησης του κούκου (cuckoo search method) (Yang & Deb, 2009), τον αλγόριθμο της
νυχτερίδας (bat) (Yang, 2010) και τη βελτιστοποίηση βιογεωγραφίας (biogeography-based optimization)
(Simon, 2008). Οι προαναφερθέντες αλγόριθμοι αποτελούν ένα (μικρό) υποσύνολο αλγόριθμων
βελτιστοποίησης εξελικτικού υπολογισμού ή/και εμπνευσμένων από τη φύση που συνεχίζουν να προτείνονται
στην βιβλιογραφία.

Ερωτήσεις Κατανόησης και Ασκήσεις

3.1) Δοθέντων δύο χρωμοσωμάτων (γονέων) ενός γενετικού αλγορίθμου σε δυαδική αναπαράσταση
00010110 και 00100101 να βρεθούν τα χρωμοσώματα (απόγονοι) που παράγονται με την εφαρμογή
της διασταύρωσης ενός σημείου της επιλογής σας.
3.2) Να υπολογιστεί το πλήθος των δυφίων που θα υποστούν μετάλλαξη στα χρωμοσώματα ενός
γενετικού αλγορίθμου δυαδικής αναπαράστασης μήκους 10, όταν η πιθανότητα μετάλλαξης είναι
Pm= 0.1.
3.3) Έστω ένα χρωμόσωμα αποτελούμενο από 3 μεταβλητές, κάθε μία από τις οποίες αναπαρίσταται με
4 δυφία. Θεωρώντας ότι και οι 3 μεταβλητές έχουν το ίδιο πεδίο τιμών xi  0,10  ,i = 1,2,3 να
βρεθούν οι πραγματικές τιμές των μεταβλητών, όταν το χρωμόσωμα έχει τη μορφή 010100110010.
3.4) Έστω ένα σωματίδιο, το οποίο ανήκει στον πληθυσμό ενός αλγορίθμου ΒΣΣ, έχει θέση
x  12.3,2.3,3.1 και ταχύτητα u   3,7.1,2.8  . Για τιμές των παραμέτρων ω,α, β  1, 2, 2
T T

να υπολογιστεί η θέση και η ταχύτητα του σωματιδίου τη χρονική στιγμή (t+1), εάν είναι γνωστό
ότι η ολικά καλύτερη λύση συμπίπτει με την ατομικά καλύτερη θέση του σωματιδίου και είναι ίση
με x *  10,3,4  .
T

3.5) Ποια η μορφή της συνάρτησης αντικειμενικότητας στην περίπτωση εφαρμογής ενός γενετικού
αλγορίθμου στην εκπαίδευση ενός νευρωνικού δικτύου perceptron με ένα κρυφό στρώμα, δέκα
εισόδους, τρεις εξόδους και Μ σύνολα εκπαίδευσης;
3.6) Να χρησιμοποιηθεί ο γενετικός αλγόριθμος του Global Optimization Toolbox του MATLAB για
την ελαχιστοποίηση της παρακάτω συνάρτησης Schwefel τριών μεταβλητών (p=3). Ποια είναι η
 
απόκλιση από τη θεωρητικά ελάχιστη τιμή x *  0,0,0,0,0  , f x* = 0 ;
2
p  i 
f  x  =    x j  , xi   65.536, 65.536

i=1  j1


3.7) Να χρησιμοποιηθεί ο γενετικός αλγόριθμος του Global Optimization Toolbox του MATLAB για
την ελαχιστοποίηση της παρακάτω πολυτροπικής συνάρτησης Rastrigin πέντε μεταβλητών (p=5).
 
Ποια είναι η απόκλιση από τη θεωρητικά ελάχιστη τιμή x *  0,0,0,0,0  , f x* = 0 ;

 
p
f  x  = 10p +  xi2 - 10cos  2πxi  , xi   2.048, 2.048
i=1

3-12
3.8) Να αναπτυχθεί κώδικας σε περιβάλλον MATLAB, ο οποίος να υλοποιεί τον τελεστή της
διασταύρωσης πολλαπλών σημείων για χρωμοσώματα δυαδικής αναπαράστασης.
3.9) Να αναπτυχθεί κώδικας σε περιβάλλον MATLAB, ο οποίος να υλοποιεί το βασικό αλγόριθμο ΒΣΣ.
3.10) Να αναπτυχθεί κώδικας σε περιβάλλον MATLAB, ο οποίος να υλοποιεί την εκπαίδευση ενός
perceptron νευρωνικού δικτύου με τη χρήση γενετικού αλγορίθμου. Σημειώνεται ότι το
εκπαιδευμένο νευρωνικό δίκτυο θα πρέπει να είναι ικανό να μοντελοποιεί την τριγωνομετρική
συνάρτηση του ημιτόνου (sin(x)).

Βιβλιογραφία
Bertsekas, D.P., Nedić, A. & Ozdaglar, A.E. (2003). Convex Analysis and Optimization. Belmont, MA:
Athena Scientific.
Boyd, S. & Vandenberghe, L. (2004). Convex Optimization. UK: Cambridge University Press.
Coleman, T.F. & Li, Y. (1994). On the convergence of interior-reflective Newton methods for nonlinear
minimization subject to bounds. Mathematical Programming, 67(1-3), 189-224.
Coley, D.A. (1999). An Introduction on Genetic Algorithms for Scientists and Engineers. Singapore: World
Scientific Publishing.
Colorni, A., Dorigo, M. & Maniezzo, V. (1991). Distributed Optimization by Ant Colonies. Actes de la
première conférence européenne sur la vie artificielle, Paris, France, Elsevier Publishing, 134-142.
Darwin, C. (2014) On the Origin of Species by Means of Natural Selection. Tustin, CA: Xist Publishing.
Deb, K. (2001). Multi-Objective Optimization using Evolutionary Algorithms. UK: John Wiley & Sons, 2001.
Eberhart, R.C. & Kennedy, J. (1995). A new optimizer using particle swarm theory. In Proceedings of the 6th
International Symposium on Micro Machine and Human Science, 39-43, Nagoya - Japan.
Holland, J.H. (1992). Adaptation in Natural and Artificial Systems. USA: MIT Press.
Karaboga, D. (2005). An Idea Based On Honey Bee Swarm for Numerical Optimization. Technical Report-
TR06, Erciyes University, Engineering Faculty, Computer Engineering Department.
Mitchell, M. (1998). An Introduction to Genetic Algorithms. USA: MIT Press.
Møller, M.F. (1993). A scaled conjugate gradient algorithm for fast supervised learning. Neural Networks,
6(4), 525-533.
Parsopoulos, K.E. & Vrahatis, M.N. (2002). Recent approaches to global optimization problems through
Particle Swarm Optimization. Natural Computing, 1(2-3), 235-306.
Rashedi, E., Nezamabadi-pour, H. & Saryazdi, S. (2009). GSA: a gravitational search algorithm. Information
Sciences, 179(13), 2232-2248.
Rechenberg, I. (1971). Evolutionsstrategie – Optimierung technischer Systeme nach Prinzipien der
biologischen Evolution. Phd Thesis.
Simon, D. (2008). Biogeography-based optimization. IEEE Transactions on Evolutionary Computation, 12,
702-713.
Storn, R., & Price, K. (1997). Differential evolution - a simple and efficient heuristic for global optimization
over continuous spaces. Journal of Global Optimization, 11, 341-359.
Toffolo, A. & Benini, E. (2003). Genetic diversity as an objective in multi-objective evolutionary algorithms.
Evolutionary Computation, 11(2), 151-167.
del Valle, Y., Venayagamoorthy, G.K., Mohagheghi, S., Hernandez, J.-C. & Harley, R.G. (2008). Particle
Swarm Optimization: basic concepts, variants and applications in power systems. IEEE Transactions on
Evolutionary Computation, 12(2), 171-195.
Yang, X.S. (2008). Nature-Inspired Metaheuristic Algorithms. Luniver Press.
Yang, X.S. (2010). A new metaheuristic Bat-inspired algorithm. In: J. R. Gonzalez et al., eds., Nature
Inspired Cooperative Strategies for Optimization (Studies in Computational Intelligence 284: 65-74).
Berlin, Germany: Springer.
Yang, X.S. & Deb, S. (2009). Cuckoo search via Lévy flights. In World Congress on Nature & Biologically
Inspired Computing (NaBIC, 2009), 210-214.

3-13
Μέρος-ΙΙ: Διευρυμένη Υπολογιστική Νοημοσύνη
Εισαγωγή στο Μέρος-ΙΙ
Στη βάση τεχνολογιών κλασικής ΥΝ προτάθηκαν δημιουργικοί συνδυασμοί, όπως είναι τα νευρο-
ασαφή συστήματα. Κάποιες από τις τεχνικές της κλασικής ΥΝ διευρύνθηκαν εύκολα, για παράδειγμα
τεχνικές της κλασικής ΥΝ στη βάση κατανομών εφικτότητας επεκτάθηκαν σε τεχνικές ΥΝ στη βάση
κατανομών πιθανότητας. Περαιτέρω υπολογιστικές επεκτάσεις συμπεριέλαβαν μη-αριθμητικά
δεδομένα (βλ. γράφους), όπως είναι οι οντολογίες. Ακόμη υπολογιστικές τεχνικές από τα
εφαρμοσμένα μαθηματικά (Duda κ.ά., 2001), όπως τεχνικές ομαδοποίησης, μπορούν να ενταχθούν
στο πλαίσιο της διευρυμένης ΥΝ. Επιπλέον, η διευρυμένη ΥΝ μπορεί να περιλαμβάνει και
εναλλακτικές υπολογιστικές μεθοδολογίες, όπως είναι ο φυσικός υπολογισμός (natural computing),
ο οποίος σχεδιάζει υπολογιστικές τεχνικές τυποποιώντας διαδικασίες που παρατηρούνται σε
ζωντανούς οργανισμούς (Pal & Meher, 2013).
Κάποιες από τις προαναφερθείσες υπολογιστικές μεθοδολογίες και τεχνικές ενδεικτικά θα
παρουσιαστούν στα επόμενα κεφάλαια αυτού του βιβλίου.

Βιβλιογραφία
Duda, R.O., Hart, P.E. & Stork, D.G. (2001). Pattern Classification (2nd ed.). New York, N.Y.: John
Wiley & Sons.
Pal, S.K. & Meher, S.K. (2013). Natural computing: A problem solving paradigm with granular
information processing. Applied Soft Computing, 13(9), 3944-3955.

II-2
Κεφάλαιο 4: Επεκτάσεις της Κλασικής Υπολογιστικής Νοημοσύνης
Η κλασική ΥΝ διευρύνθηκε κατ’ αρχάς σε μια προσπάθεια να ξεπεραστούν κάποια από τα επιμέρους
μειονεκτήματα τεχνολογιών της κλασικής ΥΝ, όπως εξηγείται στη συνέχεια.

4.1 Νευρο-ασαφή Συστήματα


Από τη μια μεριά, τα κλασικά ΤΝΔ, παρά την ικανότητά τους να μαθαίνουν γρήγορα (κάνοντας παράλληλη
επεξεργασία των αριθμητικών τους δεδομένων εισόδου) μια συνάρτηση f: RNRM από δείγματά της,
εντούτοις δεν μπορούν να αιτιολογήσουν ικανοποιητικά τις απαντήσεις τους. Δηλαδή, όπως λέγεται, τα
κλασικά ΤΝΔ λειτουργούν ως «μαύρα κουτιά», μέσα στα οποία δεν μπορούμε να δούμε, ώστε να
αιτιολογήσουμε τις απαντήσεις τους. Από τη άλλη μεριά, τα κλασικά ασαφή συστήματα μπορούν μεν να
εξηγήσουν ικανοποιητικά τις απαντήσεις τους, αλλά δεν μπορούν να μαθαίνουν.
Μια από τις πρώτες επεκτάσεις αλγόριθμων της κλασικής ΥΝ ήταν ο συνδυασμός τεχνητών
νευρωνικών δικτύων και ασαφών συστημάτων, ώστε να ξεπεραστούν μειονεκτήματα της κάθε τεχνολογίας
συνδυάζοντας τα πλεονεκτήματα των δύο. Έτσι, προέκυψαν τα νευρο-ασαφή συστήματα (ΝΑΣ) (neuro-
fuzzy systems (NFSs)) σε διάφορες μορφές (Mitra & Hayashi, 2000). Η πλέον δημοφιλής μορφή ΝΑΣ είναι
τα προσαρμοστικά νευρο-ασαφή συστήματα συμπερασμού (ΠΝΑΣΣ) (adaptive neuro-fuzzy inference
systems (ANFISs)) (Jang κ.ά., 1997· Kaburlasos & Kehagias, 2014), κάθε ένα από τα οποία αποτελεί μια
νευρωνική υλοποίηση ενός ασαφούς συστήματος συμπερασμού, όπως φαίνεται στο Σχήμα 4.1.
Συγκεκριμένα, ένας νευρώνας του στρώματος εξόδου στο Σχήμα 4.1 σε συνδυασμό με όλους τους νευρώνες
του στρώματος εισόδου αντιστοιχεί σε ένα ΑΣΣ τύπου Mamdani (βλ. παράδειγμα ενότητας 2.5.3).
Δοθέντος ενός συνόλου ζευγών (x1,f(x1)),…,(xn,f(xn)) μιας άγνωστης συνάρτησης f: RNRM το
τυπικό πρόβλημα είναι να υπολογιστεί μια ικανοποιητική προσέγγιση fˆ : RNRM της συνάρτησης f, ώστε
για x0RN, με x0≠xi, i{1,…,n}, το εκτιμώμενο fˆ ( x ) να είναι όσο το δυνατόν πιο «κοντά», υπό κάποια
0

έννοια, στο πραγματικό f(x0), δηλαδή η υπολογισθείσα συνάρτηση fˆ να έχει καλή ικανότητα γενίκευσης.
Συναρτήσεις συμμετοχής υπάρχουν αποθηκευμένες: (1) στα βάρη που συνδέουν τους νευρώνες του
στρώματος εισόδου με εκείνους του στρώματος εξόδου και (2) στους νευρώνες του στρώματος εξόδου. Οι
μηχανισμοί ασαφοποίησης /συμπερασμού /από-ασαφοποίησης είναι σταθεροί και γνωστοί από τα ΑΣΣ.
Εκείνο το οποίο προσαρμόζεται κατά τη διαδικασία της μάθησης είναι τόσο το σχήμα, όσο και η θέση των
συναρτήσεων συμμετοχής που εμπλέκονται στους υπολογισμούς, ώστε να ελαχιστοποιείται μια καλώς
ορισμένη συνάρτηση σφάλματος.

1 Μ

   Στρώμα εξόδου

  Στρώμα εισόδου

1 Ν

Σχήμα 4.1 Νευρο-ασαφές σύστημα το οποίο υλοποιεί ένα ασαφές σύστημα συμπερασμού τύπου Mamdani. Κάθε νευρώνας
του στρώματος εξόδου αντιστοιχεί σε έναν ασαφή κανόνα.

4-1
Επεκτάσεις του ΠΝΑΣΣ, ώστε να υλοποιεί ένα ΑΣΣ τύπου Sugeno, υλοποιούνται με την
αντικατάσταση των συναρτήσεων συμμετοχής στους νευρώνες του στρώματος εξόδου με αλγεβρικές (π.χ.
γραμμικές) εξισώσεις. Σ’ αυτήν την περίπτωση η προσαρμογή κατά τη διαδικασία της μάθησης επίσης
περιλαμβάνει τη βέλτιστη εκτίμηση των παραμέτρων των αλγεβρικών εξισώσεων στους νευρώνες του
στρώματος εξόδου.

4.2 Δίκτυα Ακτινωτής Βάσης


Μία αρχιτεκτονική ΤΝΔ μεταγενέστερη των ΤΝΔ με οπισθόδρομη μάθηση είναι η αρχιτεκτονική των
δικτύων ακτινωτής βάσης (ΔΑΒ) (radial basis function (RBF) network). Τα δίκτυα αυτά είναι
προσωτροφοδοτούμενα και περιλαμβάνουν ένα στρώμα νευρώνων εισόδου, ένα κρυφό στρώμα και ένα
στρώμα εξόδου. Κύριο χαρακτηριστικό των ΔΑΒ είναι η εφαρμογή ακτινωτών συναρτήσεων ενεργοποίησης
στους νευρώνες του κρυφού στρώματος, ενώ οι έξοδοι των κρυφών νευρώνων αθροίζονται σταθμισμένα στο
στρώμα εξόδου. Η αρχιτεκτονική ενός τυπικού ΔΑΒ απεικονίζεται στο Σχήμα 4.2.

Σχήμα 4.2 Ένα τυπικό δίκτυο ακτινωτής βάσης.

Σύμφωνα με το παραπάνω ΔΑΒ ένα διάνυσμα εισόδων x  x1, x 2 , x 3,..., x N  εφαρμόζεται στο
στρώμα εισόδου, ένα σύνολο συναρτήσεων ενεργοποίησης ακτινωτής βάσης F  f1, f 2 , f3,..., f K 
χρησιμοποιείται στους νευρώνες του κρυφού στρώματος και τελικά κάθε νευρώνας εξόδου (γραμμικός
νευρώνας) υπολογίζει το σταθμισμένο άθροισμα των εξόδων των κρυφών νευρώνων, υπολογίζοντας μία
έξοδο ως εξής:

w f  x  c   b
K
yi  ji j j i (4.1)
j1

Στην Εξ.(4.1) w ji είναι το βάρος σύνδεσης του j κρυφού νευρώνα με τον i νευρώνα εξόδου, f j είναι
η συνάρτηση ενεργοποίησης, c j το διάνυσμα των κέντρων του j κρυφού νευρώνα και bi είναι η σταθερά
πόλωσης του i νευρώνα εξόδου. Σημειώστε ότι ως συναρτήσεις ενεργοποίησης συνήθως χρησιμοποιούνται
συναρτήσεις με Gaussian βάση της μορφής

4-2
 xc 2

f  x  c   exp   (4.2)
 2 2 
 

όπου η παράμετρος  ελέγχει το εύρος (spread) της συνάρτησης, ώστε η τιμή της να μειώνεται καθώς το x
απομακρύνεται από το c , δηλ. καθώς αυξάνεται το x  c . Για τον υπολογισμό της νόρμας (||.||) στην
Εξ.(4.2) συνήθως χρησιμοποιείται η Ευκλείδεια απόσταση, όμως και άλλες αποστάσεις (π.χ. Minkowski,
Mahalanobis) είναι δυνατόν να εφαρμοστούν.
Συνήθως για την επιλογή του αριθμού των νευρώνων του κρυφού στρώματος, εφαρμόζεται ένας
απλός κανόνας σύμφωνα με τον οποίο ο αριθμός των νευρώνων είναι ίσος με τον αριθμό των δεδομένων
εκπαίδευσης (Looney, 1997). Αυτός ο κανόνας έχει το μειονέκτημα να δημιουργεί μεγάλα δίκτυα σε
προβλήματα με πολλά δεδομένα εκπαίδευσης.
Όπως έχει αποδειχθεί, ένα ΔΑΒ αποτελεί καθολικό προσεγγιστή (universal approximator) (Poggio
& Girosi, 1990· Park & Sandberg, 1991), δηλ. έχοντας τον κατάλληλο αριθμό κρυφών νευρώνων, ένα ΤΝΔ
είναι ικανό να προσεγγίσει οποιαδήποτε συνάρτηση.
Η λειτουργία των ΔΑΒ βασίζεται στην αρχή του μετασχηματισμού του προβλήματος από το χώρο
των εισόδων στο χώρο των χαρακτηριστικών πολύ μεγαλύτερης διάστασης όπως προτάθηκε από τον Cover
(1965): Ένα μη-γραμμικώς διαχωρίσιμο πρόβλημα κατηγοριοποίησης μπορεί να μετασχηματιστεί σε
γραμμικώς διαχωρίσιμο σε ένα χώρο αρκετά μεγάλης διάστασης. Σημειώστε ότι ο ίδιος μετασχηματισμός
(δηλ. στο χώρο των χαρακτηριστικών πολύ μεγαλύτερης διάστασης) αποτελεί την αρχή λειτουργίας και των
μη-γραμμικών Μηχανών Διανυσμάτων Στήριξης.

4.2.1 Εκπαίδευση
Επισημαίνουμε ότι ένα ΔΑΒ αποτελείται από δύο τμήματα που λειτουργούν εντελώς διαφορετικά μεταξύ
τους. Επομένως, η εκπαίδευση των κρυφών νευρώνων και των νευρώνων εξόδου θα μπορούσε να γίνει με
διαφορετικό τρόπο και σε διαφορετικό χρόνο.
Σε ένα ΔΑΒ οι παράμετροι που θα πρέπει να βελτιστοποιηθούν ως προς μία αντικειμενική
συνάρτηση είναι τα διανύσματα κέντρων C  c1, c2 ,..., cK  των κρυφών στρωμάτων όπως και τα βάρη

 
M
W  w1j, w 2 j,..., w Kj των συνδέσεων με το στρώμα εξόδου. Συγκεκριμένα, από τη μια μεριά, τα κέντρα
j1

C  c1, c2 ,..., cK  των κρυφών νευρώνων μπορούν να επιλεγούν με τους εξής τρόπους: (1) τυχαία από το
σύνολο των δεδομένων εκπαίδευσης, (2) με την εφαρμογή μίας μεθόδου ομαδοποίησης στα δεδομένα
εκπαίδευσης, π.χ. με τον αλγόριθμο κ-μέσων (k-means algorithm), ώστε τα κέντρα να τοποθετηθούν σε
περιοχές μεγάλης συγκέντρωσης δεδομένων και (3) με την εφαρμογή μίας μεθόδου εκπαίδευσης με εποπτεία,
π.χ. με τη μέθοδο κατάβασης βαθμίδας. Από την άλλη μεριά, για την εύρεση των βαρών
 
M
W  w1j, w 2 j,..., w Kj έχουν προταθεί διάφοροι αλγόριθμοι εκπαίδευσης (Looney, 1997· Haykin, 1999).
j1
Η μέθοδος του ψευδο-αντίστροφου (pseudo-inverse) (Broomhead & Lowe, 1988), αποτελεί μία
συνηθισμένη επιλογή για την εύρεση των βαρών. Σύμφωνα με την προαναφερθείσα μέθοδο τα βάρη
υπολογίζονται ως εξής:

w  F t (4.3)

όπου t είναι το διάνυσμα των επιθυμητών εξόδων του συνόλου εκπαίδευσης και F  είναι ο ψευδο-
 
αντίστροφος του πίνακα F  f ji που περιγράφει τις χρησιμοποιούμενες συναρτήσεις ενεργοποίησης. Για
τον υπολογισμό του ψευδοαντίστροφου μπορούν να χρησιμοποιηθούν διάφορες μέθοδοι παραγοντοποίησης,
π.χ. η μέθοδος της ανάλυσης ίδιων τιμών (singular value decomposition). Τέλος, για την εύρεση των
βαρών του στρώματος εξόδου μπορεί εναλλακτικά να εφαρμοστεί ένας συνηθισμένος αλγόριθμος μάθησης
με εποπτεία, με χρήση του κανόνα δέλτα όπως και στα δίκτυα οπισθόδρομης εκμάθησης.

4-3
4.3 Μοντέλα κ Πλησιέστερων Γειτόνων
Ένα απλό στη χρήση, αλλά με υψηλή απόδοση, μη-γραμμικό μοντέλο υπολογιστικής νοημοσύνης που
εφαρμόζεται σε προβλήματα κατηγοριοποίησης και παλινδρόμησης, είναι το λεγόμενο μοντέλο των κ
Πλησιέστερων Γειτόνων (κΠΓ) (k nearest neighbors (kNN) model).
Το βασικό χαρακτηριστκό της λειτουργίας του κΠΓ αποτελεί ο υπολογισμός των αποστάσεων μεταξύ
του προς επεξεργασία δεδομένου με το σύνολο των δεδομένων εκπαίδευσης. Στη συνέχεια της ανάλυσής μας
θα περιοριστούμε στην εφαρμογή του κΠΓ μοντέλου για αναγνώριση προτύπων.
x , t 
N
Έστω, ένα σύνολο Ν δεδομένων εκπαίδευσης j j j1 , όπου x j  n
είναι το διάνυσμα εισόδου
και t j  1, 1 η ετικέτα της κατηγορίας του j δείγματος. Έστω ότι το σύνολο των δεδομένων περιγράφει
ένα πρόβλημα δυο κατηγοριών, οι ετικέτες των οποίων πρέπει να είναι εκ των προτέρων γνωστές. Επομένως
το κΠΓ μοντέλο κατηγοριοποίησης αποτελεί μία μέθοδο μηχανικής μάθησης με επίβλεψη.
Όταν ένα νέο δεδομένο x 0 εμφανιστεί στην είσοδο του μοντέλου κΠΓ για να κατηγοριοποιηθεί, τότε
θα πρέπει να υπολογιστούν οι αποστάσεις με τη χρήση μίας προ-επιλεγμένης συνάρτησης απόστασης dist(.,.)
του δεδομένου x 0 από κάθε ένα από τα δεδομένα εκπαίδευσης, ως ακολούθως:

di  dist  x0 , xi  , i  1, 2,..., N (4.4)

Το δεδομένο x 0 θα κατηγοριοποιηθεί σε εκείνη την κατηγορία που ανήκουν τα περισσότερα από τα κ


δεδομένα με τη μικρότερη απόσταση από το x 0 .
Ένα παράδειγμα (Wikipedia, 2015) δυο κατηγοριών (βλ. κόκκινα τρίγωνα και μπλε τετράγωνα) στο
οποίο ένα νέο δεδομένο (βλ. πράσινο κύκλο στο κέντρο) ζητείται να κατηγοριοποιηθεί με το μοντέλο κΠΓ για
κ=3 και κ=5 απεικονίζεται στο Σχήμα 4.3. Συγκεκριμένα, στο παράδειγμα αυτό, το νέο δεδομένο θα
κατηγοριοποιηθεί στην κατηγορία των τριγώνων στην περίπτωση που κ=3, διότι από τα τρία πιο κοντινά
δεδομένα τα δύο ανήκουν στην κατηγορία των τριγώνων. Αντίθετα, για κ=5 το νέο δεδομένο θα
κατηγοριοποιηθεί στην κατηγορία των τετραγώνων.

Σχήμα 4.3 Γραφική απεικόνιση της λειτουργίας του κΠΓ μοντέλου για ένα πρόβλημα δυο κατηγοριών και για τις
περιπτώσεις κ=3 (συμπαγής γραμμή) και κ=5 (διακεκκομένη γραμμή).

Από το παραπάνω παράδειγμα γίνεται φανερή η εξάρτηση της απόδοσης του κΠΓ μοντέλου από την
επιλογή της παραμέτρου κ. Μία μεγάλη τιμή στην παράμετρο κ έχει ως αποτέλεσμα το μοντέλο κΠΓ να είναι
πιο εύρωστο στο θόρυβο (δεδομένα τα οποία δεν ακολουθούν τη γενική συμπεριφορά της κατηγορίας στην
οποία ανήκουν). Επίσης, η απόδοση του κΠΓ επηρρεάζεται σημαντικά από την ύπαρξη δεδομένων με

4-4
διαφορετική δυναμική περιοχή ή ακόμη και δεδομένων που δεν περιγράφουν με την ίδια ακρίβεια την ίδια
κατηγορία. Για το σκοπό αυτό έχουν προταθεί διάφορες μέθοδοι προ-επεξεργασίας των δεδομένων, ώστε
δεδομένα τις ίδιας κατηγορίας να κείνται σχετικά κοντά μεταξύ τους.
Υπάρχουν πολλές συναρτήσεις για τη μέτρηση της απόστασης των δεδομένων (Paredes & Vidal,
2006), με τις ακόλουθες συναρτήσεις να είναι οι πιο δημοφιλείς:

distEuclidean  x0 , x j    x  xij 
n 2
i
0 (4.5)
i 1

distCityBlock  x0 , x j    x0i  xij


n
(4.6)
i 1

distChebyshev  x0 , x j   max x0i  xij


i
  (4.7)

Αξίζει να σημειωθεί ότι η πιθανότητα του σφάλματος κατηγοριοποίησης (Theodoridis &


Koutroumbas, 2003) του κΠΓ μοντέλου είναι:

1
PB  P  PB  (4.8)
e

όπου PB είναι το βέλτιστο Bayesian σφάλμα. Το παραπάνω σφάλμα του κΠΓ μοντέλου είναι μικρότερο από
το αντίστοιχο σφάλμα των προσωτροφοδοτούμενων ΤΝΔ, ενώ αυτό το σφάλμα μηδενίζεται καθώς    .

4.4 Μηχανές Διανυσμάτων Στήριξης


Σε προηγούμενα κεφάλαια μελετήσαμε διάφορες δομές νευρωνικών δικτύων, π.χ. προσωτροφοδοτούμενα
νευρωνικά δίκτυα, δίκτυα ακτινωτής βάσης κ.ά., που εφαρμόζονται τόσο σε προβλήματα παλινδρόμησης, όσο
και σε προβλήματα αναγνώρισης προτύπων. Και στα δύο αυτά προβλήματα το κύριο ζητούμενο είναι η
δημιουργία ενός μοντέλου με υψηλή ικανότητα γενίκευσης. Αυτή η ιδιότητα των μοντέλων είναι πολύ
σημαντική, διότι επιτρέπει τον υπολογισμό εξόδων για άγνωστες εισόδους που δεν είχαν παρουσιαστεί κατά
τη διαδικασία της εκπαίδευσης.
Σε μία προσπάθεια ανάπτυξης ενός νευρωνικού μοντέλου με ικανότητα γενίκευσης και στα δυο
προαναφερθέντα προβλήματα προτάθηκαν οι μηχανές διανυσμάτων στήριξης (ΜΔΣ) (support vector
machines (SVMs)) από τoν ερευνητική ομάδα του Vapnik (Boser κ.ά., 1992· Cortes & Vapnik, 1995·
Vapnik, 1995).

4.4.1 Γενικά
Η βασική λειτουργία των ΜΔΣ εντοπίζεται στην κατασκευή ενός υπερ-επίπεδου που παίζει το ρόλο
επιφάνειας λήψης απόφασης, ώστε το περιθώριο διαχωρισμού των κατηγοριών να μεγιστοποιείται (Haykin,
1999), όπως εξηγείται παρακάτω. Αξίζει να σημειωθεί ότι οι ΜΔΣ αρχικά προτάθηκαν σε προβλήματα δύο
κατηγοριών, ενώ με την εφαρμογή κατάλληλων τεχνικών αργότερα επεκτάθηκαν και σε προβλήματα πολλών
κατηγοριών.
Ένα χαρακτηριστικό των ΜΔΣ που προσδιορίζει τη λειτουργία τους είναι τα λεγόμενα διανύσματα
στήριξης (support vectors), τα οποία αποτελούν ένα μικρό υποσύνολο των χρησιμοποιούμενων δεδομένων
εκπαίδευσης όπως εξηγείται στη συνέχεια.
Για να γίνει καλύτερα κατανοητή η λειτουργία των ΜΔΣ ας θεωρήσουμε το πρόβλημα
κατηγοριοποίησης δύο κατηγοριών, όπως περιγράφεται στο επίπεδο στο Σχήμα 4.4(α). Είναι φανερό ότι οι
δύο κατηγορίες που σημειώνονται με τις ετικέτες «+» και «ο» είναι γραμμικώς διαχωρίσιμες. Αυτό σημαίνει
ότι μία ευθεία γραμμή είναι ικανή να διαχωρίσει τη μία κατηγορία από την άλλη. Ωστόσο, όπως φαίνεται και
από το Σχήμα 4.4(α), υπάρχουν πολλές ευθείες (ε1, ε2, ε3, ...) οι οποίες μπορούν να πετύχουν το ίδιο
αποτέλεσμα. Οι ΜΔΣ αναζητούν τη μοναδική ευθεία (ε*) που διαχωρίζει τις κατηγορίες με τέτοιο τρόπο,
ώστε το περιθώριο μεταξύ των κατηγοριών να μεγιστοποιείται, όπως φαίνεται στο Σχήμα 4.4(β).

4-5
(α) (β)

Σχήμα 4.4 Πρόβλημα δύο γραμμικώς διαχωρίσιμων κατηγοριών (α) πολλαπλές ενδεχόμενες επιφάνειες απόφασης ε1, ε2, ε3
κ.λπ. και (β) η βέλτιστη επιφάνεια απόφασης ε*.

Στη συνέχεια θα αναφερθούμε μόνο στην εφαρμογή των ΜΔΣ σε πρόβλημα κατηγοριοποίησης. Για
την επίλυση αυτού του προβλήματος διακρίνουμε τις γραμμικές ΜΔΣ και τις μη-γραμμικές ΜΔΣ (Suykens
κ.ά., 2002) οι οποίες περιγράφονται στη συνέχεια.

4.4.2 Γραμμικές ΜΔΣ


Η απλούστερη μορφή μίας ΜΔΣ είναι αυτή ενός γραμμικού κατηγοριοποιητή. Έστω, ένα σύνολο Ν
xk , t k k 1 , όπου είναι το διάνυσμα εισόδου και t k  1, 1 η αντίστοιχη
N
δεδομένων εκπαίδευσης xk  n

ετικέτα της κατηγορίας του k δείγματος. Ανάλογα με τη φύση των προς κατηγοριοποίηση δεδομένων
διακρίνουμε τις εξής δύο περιπτώσεις: γραμμικώς διαχωρίσιμα ή μη-γραμμικώς διαχωρίσιμα δεδομένα.

Α. Γραμμικώς Διαχωρίσιμα Δεδομένα


Αποτελεί την πιο απλή περίπτωση κατηγοριοποίησης προτύπων, διότι η επιφάνεια λήψης απόφασης έχει την
παρακάτω απλή μορφή:

wT x  b  0 (4.9)

όπου x είναι το διάνυσμα εισόδου, w και b είναι το διάνυσμα των βαρών και η σταθερά πόλωσης,
αντίστοιχα, που θα πρέπει να υπολογιστούν. Επειδή τα δεδομένα είναι γραμμικώς διαχωρίσιμα, ο
κατηγοριοποιητής περιγράφεται από τις παρακάτω εξισώσεις:

w T x k  b  1,  t k  1
(4.10)
w T x k  b  1,  t k  1

Οι δύο παραπάνω εξισώσεις μπορούν να περιγραφούν μαζί από την εξίσωση:

 
t k wT xk  b  1, k  1, 2, 3,..., N (4.11)

Όπως έχει ήδη αναφερθεί, ο βασικός στόχος των ΜΔΣ είναι η εύρεση της επιφάνειας λήψης
απόφασης μέσω της μεγιστοποίησης του περιθωρίου (το οποίο ισούται με 2 / w 2 ) που χωρίζει τις
κατηγορίες. Τα διανύσματα για τα οποία ισχύει η ισότητα στην Εξ.(4.11) αποτελούν τα λεγόμενα διανύσματα

4-6
στήριξης και είναι εκείνα τα διανύσματα που βρίσκονται πιο κοντά στην επιφάνεια λήψης απόφασης και
επομένως εκείνα που κατηγοριοποιούνται πιο δύσκολα από το σύνολο των διανυσμάτων εκπαίδευσης.
Επομένως, το πρόβλημα της κατηγοριοποίησης ανάγεται σε πρόβλημα βελτιστοποίησης, κατά το οποίο

  1
επιδιώκεται η εύρεση της βέλτιστης επιφάνειας w * , b* η οποία μειώνει το κόστος J  w   w T w ,
2
ικανοποιώντας κάποιους περιορισμούς και το οποίο ορίζεται ως εξής:

 1 
min J  w   w T w  , έτσι ώστε
w ,b  2  (4.12)
 
t k w x k  b  1, k  1, 2, 3,..., N
T

Στο παραπάνω πρόβλημα βελτιστοποίησης, το οποίο ονομάζεται πρωταρχικό (primal), η συνάρτηση


κόστους είναι κυρτή και οι περιορισμοί είναι γραμμικοί ως προς το w (Suykens κ.ά., 2002). Η επίλυση
επιτυγχάνεται με τη μέθοδο των πολλαπλασιαστών Lagrange, βάσει της οποίας σχηματίζεται η παρακάτω
συνάρτηση Lagrange:

 
N


1
L  w, b,   w T w   k  t k w T xk  b  1 (4.13)
2  
k 1

όπου οι συντελεστές  k  0, k  1,..., N, ονομάζονται πολλαπλασιαστές Lagrange.


Η λύση του αρχικού προβλήματος βελτιστοποίησης με περιορισμούς ανάγεται σε πρόβλημα
βελτιστοποίησης του σαγματικού σημείου (saddle point) της L  w, b,  . Συγκεκριμένα, το σημείο αυτό θα
πρέπει να μεγιστοποιηθεί ως προς το α και να ελαχιστοποιηθεί ως προς το w και το b (Haykin, 1999·
Suykens κ.ά., 2002), δηλ.:

max min L  w, b,  (4.14)


 w,b

Λαμβάνοντας τις παραγώγους της Εξ.(4.13) και θέτοντάς τες ίσες με μηδέν, προκύπτουν οι δύο
παρακάτω συνθήκες:

L  w, b, 
0
w
(4.15)
L  w, b, 
0
b

Από τις δύο συνθήκες της Εξ.(4.15) προκύπτουν οι ακόλουθες χρήσιμες εξισώσεις:

N
w  t x
k 1
k k k

N
(4.16)
 t
k 1
k k 0

Αντικαθιστώντας την παραπάνω τιμή του w στην Εξ.(4.13) προκύπτει το δυϊκό πρόβλημα (dual
problem) βελτιστοποίησης, το οποίο ορίζεται ως εξής:

N N N

k    
1
min Q    mt t m xT x m , έτσι ώστε
 2
k 1 1 m 1
N
(4.17)
 t
k 1
k k  0,   k  0, k  1,..., N.

4-7
Το παραπάνω είναι ένα πρόβλημα τετραγωνικού προγραμματισμού (quadratic programming), το
οποίο καταλήγει σε αρκετές μη-μηδενικές λύσεις  k που είναι τα ζητούμενα διανύσματα στήριξης.
Με την εύρεση των βέλτιστων πολλαπλασιαστών Lagrange  k* , το σύνολο βαρών w * υπολογίζεται
από την Εξ.(4.16), ενώ η αντίστοιχη πόλωση b * υπολογίζεται από μία εκ των εξισώσεων (4.10).

Β. Μη-γραμμικώς Διαχωρίσιμα Δεδομένα


Η γραμμική διαχωρισιμότητα των δεδομένων εγγυάται τη χωρίς λάθη κατηγοριοποίηση των δεδομένων.
Ωστόσο, η περίπτωση των γραμμικώς διαχωρίσιμων δεδομένων είναι σπάνια, αφού τα περισσότερα
προβλήματα είναι μη-γραμμικώς διαχωρίσιμα λόγω αβεβαιότητας, ανακρίβειας αναπαράστασης και θορύβου.
Στην περίπτωση που τα δεδομένα δεν είναι διαχωρίσιμα, υπεισέρχεται κάποιο λάθος στην
κατηγοριοποίηση των δεδομένων και σκοπός μας είναι η ελαχιστοποίηση αυτού του λάθους. Για αυτό τον
σκοπό εισάγεται ένα νέο σύνολο θετικών αριθμών που ονομάζονται χαλαρές παράμετροι (slack
parameters) (Cortes & Vapnik, 1995), οι οποίες μετράνε την απόκλιση των δεδομένων από την ορθή
κατηγοριοποίηση. Σε αυτή την περίπτωση η επιφάνεια λήψης απόφασης έχει την μορφή:

 
t k wT xk  b  1  k , k  1, 2, 3,..., N (4.18)

όπου k  0 είναι οι χαλαρές παράμετροι, ενώ το αντίστοιχο πρωταρχικό πρόβλημα βελτιστοποίησης της
Εξ.(4.12) μετασχηματίζεται ως εξής:

 
N


1
min J  w,    w T w  c  k  , έτσι ώστε
w,b  
 2 k 1 (4.19)
 
t k w T x k  b  1   k ,  k  0, k  1, 2, 3,..., N

όπου c είναι μία θετική σταθερά που συνήθως υπολογίζεται πειραματικά.

Η αντίστοιχη συνάρτηση Lagrange θα έχει την μορφή:

 
N N N

   k  t k w T x k  b  1   k    v k k
1 T
L  w, b, ,   w w  c k  (4.20)
2  
k 1 k 1 k 1

όπου vk  0, k  1,..., N, είναι ένα δεύτερο σύνολο πολλαπλασιαστών Lagrange, πέραν των  k . Σε αυτή την
περίπτωση το πρόβλημα βελτιστοποίησης περιγράφεται ως ακολούθως:

max min L  w, b, , , v  (4.21)


 ,v w,b,

Τέλος, το δυικό πρόβλημα ορίζεται ως εξής:

N N N

k    
1
min Q    mt t m xT x m , έτσι ώστε
 2
k 1 1 m 1
N
(4.22)
 t
k 1
k k  0,  0   k  c, k  1,..., N

και είναι ίδιο με αυτό της Εξ.(4.17) με τον επιπλέον περιορισμό  k  c . Το σύνολο των βέλτιστων βαρών
w * υπολογίζεται από την Εξ.(4.16), ενώ η αντίστοιχη πόλωση b * υπολογίζεται για εκείνα τα  k  c για τα
οποία ισχύει k  0 (Haykin, 1999).

4-8
4.4.3 Μη-γραμμικές ΜΔΣ
Μεγάλη ώθηση στην εφαρμογή των ΜΔΣ σε πραγματικά προβλήματα αποτέλεσε η ανάπτυξη των μη-
γραμμικών ΜΔΣ από τον Vapnik (1995). Η βασική αρχή λειτουργίας των μη-γραμμικών ΜΔΣ βασίζεται στο
θεώρημα του Cover (1965) περί της διαχωρισιμότητας των κατηγοριών Το θεώρημα του Cover αναφέρει ότι:

«Ένα μη-γραμμικώς διαχωρίσιμο πρόβλημα αναγνώρισης προτύπων μπορεί να μετασχηματιστεί σε γραμμικώς


διαχωρίσιμο σε ένα χώρο περισσότερων διαστάσεων».

Ο μετασχηματισμός από έναν χώρο λίγων διαστάσεων (χώρος εισόδων) σε έναν χώρο πολλών διαστάσεων
(χώρος χαρακτηριστικών) μπορεί να επιτευχθεί με την εφαρμογή μίας μη-γραμμικής απεικόνισης   x  . Σε
αυτή την περίπτωση η επιφάνεια λήψης απόφασης ορίζεται ως εξής (Cristianini & Shawe-Taylor, 2000):
m

 w   x  b  0
i 1
i i (4.23)

όπου m είναι η διάσταση του συνόλου των μη-γραμμικών μετασχηματισμών   x  , δηλ. η διάσταση του
χώρου των χαρακτηριστικών η οποία τυπικά είναι πολύ μεγαλύτερη από τη διάσταση n του χώρου των
εισόδων. Υποθέτοντας ότι 0  x   1, x , w 0  b και φ  x   0  x  ,1  x  ,...,m  x  , η Εξ.(4.23) μπορεί
T

να γραφτεί με την παρακάτω μορφή:

 w   x  w φ  x  0
i 0
i i
T
(4.24)

Θεωρώντας ότι με τη χρήση των συναρτήσεων απεικόνισης φ  x  το πρόβλημά μας έχει αναχθεί σε
γραμμικό με διαχωρίσιμα δεδομένα στο χώρο των χαρακτηριστικών και εργαζόμενοι με παρόμοιο τρόπο με
την περίπτωση Α, θα έχουμε τη λύση της συνάρτησης Lagrange για το σύνολο των βαρών με τη μορφή:

N
w  t φ  x 
k 1
k k k (4.25)

Η Εξ.(4.24) με τη βοήθεια της Εξ.(4.25) μετασχηματίζεται ως εξής:

 t φ  x  φ  x  0
k 1
k k
T
k (4.26)

Στην Εξ.(4.26) η ποσότητα φT  xk  φ  x  περιγράφει το εσωτερικό γινόμενο δύο διανυσμάτων στο


χώρο των χαρακτηριστικών. Η ποσότητα αυτή ονομάζεται πυρήνας (kernel) (Herbrich, 2002· Schölkopf &
Smola, 2002) και συμβολίζεται,

K  x k , x   φT  x k  φ  x  (4.27)

Με βάση το θεώρημα του Mercer (1909) ο πυρήνας μπορεί να αναπαρασταθεί ως:

m
K  xk , x     x    x  ,
i 0
i k i k  1, 2,..., N (4.28)

που ονομάζεται τρικ του πυρήνα (kernel trick). Επομένως, με τη βοήθεια της Εξ.(4.28) η επιφάνεια λήψης
απόφασης θα έχει την μορφή:

4-9
N

 t K  x , x  0
k 1
k k k (4.29)

Το αντίστοιχο δυικό πρόβλημα βελτιστοποίησης τετραγωνικού προγραμματισμού ορίζεται ως εξής:

N N N

   
1
min Q    k  mt t m K  x , x m  , έτσι ώστε
 2
k 1 1 m 1
(4.30)
N

 t
k 1
k k  0,   k  0, k  1,..., N.

Με την εύρεση των πολλαπλασιαστών Lagrange από το παραπάνω πρόβλημα βελτιστοποίησης το


σύνολο των βέλτιστων βαρών w * υπολογίζεται από την εξίσωση,

N
w*   t   x 
k 1
*
k k k (4.31)

όπου το πρώτο βάρος του διανύσματος w * αντιστοιχεί στη βέλτιστη πόλωση b * .


Αξίζει να σημειωθεί ότι σημαντικό ρόλο στην απόδοση των ΜΔΣ παίζει η επιλογή του κατάλληλου
πυρήνα. Οι μόνοι περιορισμοί που θα πρέπει να ικανοποιούνται από έναν πυρήνα είναι o περιορισμός που
σχετίζεται με το θεώρημα του Mercer (1909) σύμφωνα με το οποίο ο πυρήνας θα πρέπει να είναι
συμμετρικός. Συνήθεις πυρήνες που χρησιμοποιούνται στη βιβλιογραφία είναι οι εξής:


K  x, x k     xTk x 
d

 1 
K  x, x k   exp   2 x  x k
2
 (4.32)
 2 2


K  x, x k   tanh 1xTk x   2 
Ο πρώτος πυρήνας της Εξ.(4.32) είναι πολυωνυμικής μορφής με βαθμό d και μετατόπιση τ, ο δεύτερος είναι
μορφής δικτύου ακτινωτής βάσης με τυπική απόκλιση σ και ο τρίτος είναι μορφής perceptron πολλαπλών
στρωμάτων. Σημειώστε ότι ενώ οι δύο πρώτοι πυρήνες ικανοποιούν τον περιορισμό του Mercer για όλο το
σύνολο των ελεύθερων παραμέτρων (d, τ, σ), δεν ισχύει το ίδιο για τον τρίτο πυρήνα και το σύνολο των
παραμέτρων 1, 2  .

4.4.4 Διάσταση VC
Μηχανές (βλ. αλγόριθμοι) μάθησης σε κάποιες περιπτώσεις χαρακτηρίζονται από έναν ακέραιο αριθμό, ο
οποίος καλείται διάσταση Vapnik-Chervonenkis (διαVC) (VC dimension (VCdim)). Η διαVC μιας
μηχανής συνήθως οριοθετεί, με όρους στατιστικής (Vapnik, 1995), την ικανότητα μηχανής για μάθηση όπως
εξηγείται παρακάτω. Ορίζουμε τη διαVC μιας μηχανής στη βάση της έννοιας του θρυμματισμού στη συνέχεια.
Χρησιμοποιούμε την ορολογία που εν μέρει παρουσιάζεται στην ενότητα 5.1.3. Συγκεκριμένα, έστω
X το σύνολο των δεδομένων ενδιαφέροντος. Μία έννοια c πάνω στο Χ ορίζεται ως ένα υποσύνολο του Χ, δηλ.
cX. Έστω C το σύνολο όλων των εννοιών τις οποίες δυνητικά μπορεί να μάθει μια συγκεκριμένη μηχανή
μάθησης. Εστιάζουμε το ενδιαφέρον μας σε διακριτά υποσύνολα S του Χ. Έστω DX το σύνολο των διακριτών
υποσυνόλων του Χ. Δοθέντος του συνόλου C εννοιών ορίζουμε τη συνάρτηση ΠC: DX 2 DX με τον τύπο
ΠC(S)= {cS| cC}. Κάθε στοιχείο του συνόλου ΠC(S) καλείται διχοτόμηση (dichotomy) του S. Εάν ισχύει
η ισότητα |ΠC(S)| = 2|S|, τότε λέμε ότι το υποσύνολο S θρυμματίζεται (shattered) από το σύνολο C. Με άλλα
λόγια, λέμε ότι το υποσύνολο S θρυμματίζεται από το C, εάν το C μπορεί να υλοποιήσει όλες τις δυνατές
διχοτομήσεις του S.

4-10
Η διαVC ορίζεται ως η μεγαλύτερη πληθικότητα (cardinality) ενός συνόλου SX το οποίο μπορεί
να θρυμματιστεί από το C. Προκειμένου να δείξουμε ότι η διαVC ενός συνόλου C είναι τουλάχιστον d, αρκεί
να παρουσιάσουμε ένα θρυμματισμένο σύνολο πληθικότητας d. Περαιτέρω, προκειμένου να δείξουμε ότι η
διαVC ενός συνόλου C είναι το πολύ d, αρκεί να δείξουμε ότι κανένα σύνολο πληθικότητας d+1 δεν μπορεί
να θρυμματιστεί (Kearns & Vazirani, 1994). Τα ακόλουθα παραδείγματα είναι ενδεικτικά.

Παράδειγμα Α
Ως σύνολο X δεδομένων θεωρήστε την ευθεία των πραγματικών αριθμών, ενώ ως σύνολο C εννοιών
θεωρήστε το σύνολο των (κλειστών) διαστημάτων της μορφής [a,b]. Το σύνολο C μπορεί να θρυμματίσει ένα
οποιοδήποτε σύνολο 2 σημείων, αλλά δεν μπορεί ποτέ να θρυμματίσει ένα σύνολο 3 σημείων, διότι δεν
μπορεί να πραγματοποιήσει τη διχοτόμηση που φαίνεται στο Σχήμα 4.5. Συνεπώς, η διάσταση VC σ’ αυτό το
πρόβλημα είναι διαVC = 2.

+ - +
  

Σχήμα 4.5 Ένα σύνολο τριών σημείων δεν μπορεί να θρυμματιστεί από το σύνολο C των διαστημάτων διότι η διχοτόμηση
του σχήματος δεν μπορεί να πραγματοποιηθεί.

Παράδειγμα Β
Ως σύνολο X δεδομένων θεωρήστε το σύνολο των σημείων στον Ευκλείδειο χώρο Rd, ενώ ως σύνολο C
εννοιών θεωρήστε τους γραμμικούς ημιχώρους, οι οποίοι ορίζονται από υπερ-επίπεδα στο χώρο Rd.
Συγκεκριμένα, για d= 2 (βλ. επίπεδο) ο αντίστοιχος γραμμικός ημιχώρος είναι ένα ημι-επίπεδο, όπως φαίνεται
στο Σχήμα 4.6(α). Παρατηρήστε ότι, από τη μια μεριά, υπάρχει τουλάχιστον ένα σύνολο τριών σημείων στο
επίπεδο το οποίο μπορεί να θρυμματιστεί χρησιμοποιώντας ημι-επίπεδα, όπως φαίνεται στο Σχήμα 4.6(α).
Από την άλλη μεριά, δεν υπάρχει ούτε ένα σύνολο τεσσάρων σημείων στο επίπεδο το οποίο να μπορεί να
θρυμματιστεί χρησιμοποιώντας ημι-επίπεδα, όπως φαίνεται στο Σχήμα 4.6 (β) και (γ). Συνεπώς, η διάσταση
VC σ’ αυτό το πρόβλημα είναι διαVC = 3.
Το Παράδειγμα Β μπορεί να επεκταθεί σε γενικό χώρο Rd, όπου προκύπτει διαVC= d+1. Συνεπώς,
ένα γραμμικό ΤΝΔ τύπου Perceptron με d εισόδους και 1 έξοδο αποτελεί μια μηχανή μάθησης με VC
διάσταση ίση με d+1.

+ + +
+ - 
  
+ - 
-
   +
+ 
- 

(α) (β) (γ)

Σχήμα 4.6 (α) Τουλάχιστον ένα σύνολο τριών σημείων στο επίπεδο μπορεί να θρυμματιστεί με τη χρήση του συνόλου C
των ημι-επιπέδων. (β) και (γ) Καμιά από τις διχοτομήσεις των τεσσάρων σημείων που φαίνονται δεν μπορεί να
πραγματοποιηθεί χρησιμοποιώντας το σύνολο των ημι-επίπεδων.

4-11
Παράδειγμα Γ
Ως σύνολο X δεδομένων θεωρήστε το σύνολο των σημείων στο επίπεδο, ενώ ως σύνολο C εννοιών θεωρήστε
το σύνολο των ορθογώνιων παραλληλογράμμων. Παρατηρήστε ότι από τη μια μεριά υπάρχει τουλάχιστον
ένα σύνολο τεσσάρων σημείων στο επίπεδο το οποίο μπορεί να θρυμματιστεί χρησιμοποιώντας ορθογώνια
παραλληλόγραμμα, όπως φαίνεται στο Σχήμα 4.7(α). Από την άλλη μεριά δεν υπάρχει ούτε ένα σύνολο πέντε
σημείων στο επίπεδο το οποίο να μπορεί να θρυμματιστεί χρησιμοποιώντας ορθογώνια παραλληλόγραμμα.
Συγκεκριμένα, θεωρήστε το ελάχιστο ορθογώνιο παραλληλόγραμμο π το οποίο περιλαμβάνει όλα τα πέντε
σημεία στο επίπεδο, όπως φαίνεται στο Σχήμα 4.7 (β). Στη γενική περίπτωση, θα υπάρχει τουλάχιστον ένα
σημείο εντός του π στο οποίο τοποθετούμε την ετικέτα πλην (-), ενώ σε όλα τα άλλα τέσσερα σημεία
τοποθετούμε την ετικέτα συν (+). Η διχοτόμηση που προκύπτει δεν μπορεί να πραγματοποιηθεί. Συνεπώς η
VC διάσταση σ’ αυτήν την περίπτωση είναι διαVC = 4.

+
+

  - +
-
- π

 + +
+
 

(α) (β)

Σχήμα 4.7 (α) Τουλάχιστον ένα σύνολο τεσσάρων σημείων στο επίπεδο μπορεί να θρυμματιστεί χρησιμοποιώντας το
σύνολο των ορθογώνιων παραλληλογράμμων. (β) Η διχοτόμηση των πέντε σημείων που φαίνονται δεν μπορεί να
πραγματοποιηθεί χρησιμοποιώντας το σύνολο των ορθογώνιων παραλληλογράμμων.

Η VC διάσταση χρησιμοποιείται στη στατιστική θεωρία μάθησης, διότι υπολογίζει ένα πιθανοτικό
άνω όριο στο σφάλμα εξέτασης ενός μοντέλου κατηγοριοποίησης σύμφωνα με την ακόλουθη εξίσωση:

 h(log(2N / h) + 1) - log( / 4) 
P   ά  έ   ά  ί    1   όπου h είναι
 N
 
η VC διάσταση του μοντέλου κατηγοριοποίησης, 0  η  1 και N είναι το μέγεθος του υποσυνόλου
εκπαίδευσης (θεωρούμε ότι h << N).

4.5 Σύγχρονες Τάσεις


Όταν ένα μοντέλο της κλασικής ΥΝ υλοποιείται σε λογισμικό για εφαρμογή σε ένα συγκεκριμένο πρόβλημα,
τότε συχνά γίνονται επεκτάσεις, με αποτέλεσμα να εμφανίζονται νέοι αλγόριθμοι στο πλαίσιο της ΥΝ
(Domingos,1996· Jain κ.ά., 1999· Kolodner, 1993· Mitchell, 1997· Mitra κ.ά., 2002· Pearl, 2000).
Συγκεκριμένα, αναφορικά με τα ΤΝΔ, η διάδοσή τους οφείλεται κυρίως στην ικανότητά τους να
μαθαίνουν πολύπλοκες, μη-γραμμικές συναρτήσεις. Ωστόσο, ένα σημαντικό πρόβλημα παραμένει η
υπολογιστική πολυπλοκότητα των ΤΝΔ, δηλ. ο αριθμός των πράξεων που απαιτούνται για μάθηση, διότι
χρησιμοποιούνται αλγόριθμοι κατάβασης βαθμίδας οι οποίοι υπολογιστικά είναι πολύ αργοί και, επιπλέον,
συχνά παγιδεύονται σε τοπικά ελάχιστα. Είναι γνωστό ότι ένα ΤΝΔ τριών στρωμάτων με Ν κρυμμένους
νευρώνες και σχεδόν οποιαδήποτε συνάρτηση συμμετοχής μπορεί να μάθει ακριβώς Ν δεδομένα
εκπαίδευσης. Ωστόσο, σε πολλές εφαρμογές εμφανίζονται πολύ περισσότερα δεδομένα, ακόμα και τεράστια
δεδομένα. Το ερώτημα αν μπορεί μια μικρή αρχιτεκτονική ΤΝΔ να μάθει πολλά, ακόμη και τεράστια
δεδομένα εκπαίδευσης απαντήθηκε καταφατικά από τις μηχανές ακραίας μάθησης (ΜΑΜ) (extreme
learning machines (ELMs)) (Cambria, 2013· Huang κ.ά., 2006). Η ΜΑΜ είναι ένα προσωτροφοδοτούμενο
ΤΝΔ τριών στρωμάτων με Ν νευρώνες στο κρυμμένο στρώμα, τυχαία επιλεγμένα βάρη εισόδου και τυχαίες

4-12
τιμές σταθερών πόλωσης στους νευρώνες του κρυμμένου στρώματος, ενώ τα βάρη στην έξοδο του ΤΝΔ
υπολογίζονται με έναν μόνο πολλαπλασιασμό πινάκων. Μια ΜΑΜ μπορεί να μάθει με ακρίβεια Ν δείγματα
(Huang, 2003), ενώ η ταχύτητα μάθησης μπορεί να είναι ακόμα και χιλιάδες φορές μεγαλύτερη από την
ταχύτητα των συμβατικών ΤΝΔ τριών στρωμάτων με οπισθόδρομη μάθηση.
Πέρα από τα κλασικά μοντέλα ΥΝ, τα οποία λαμβάνουν ως εισόδους διανύσματα πραγματικών
αριθμών, έχουν προταθεί ΤΝΔ με εισόδους διανύσματα μιγαδικών αριθμών (Hirose, 2003), με σκοπό να
βελτιώσουν την αναπαράσταση των εισόδων τους. Παρά τα οριακά πλεονεκτήματα της αναπαράστασης με
μιγαδικούς αριθμούς τα συνηθισμένα μειονεκτήματα των ΤΝΔ, όπως είναι η ερμηνεία των απαντήσεών τους,
παραμένουν.
Αναφορικά με τα ασαφή συστήματα, έχουν προταθεί πολλές επεκτάσεις της έννοιας ασαφές σύνολο,
όπως για παράδειγμα τραχιά σύνολα (rough sets) (Pawlak, 1991), διαισθητικά ασαφή σύνολα (Atanassov,
2012) κ.ά. με μαθηματικό κυρίως ενδιαφέρον.

Ερωτήσεις Κατανόησης και Ασκήσεις


4.1) Θεωρήστε το πρόβλημα της προσέγγισης της συνάρτησης του ημιτόνου με την χρήση ενός ΔΑΒ
κατάλληλης δομής. Να μελετήσετε την επίδραση των αποστάσεων Ευκλείδεια, Minkoski,
Mahalanobis, στην ακρίβεια προσέγγισης του ΔΑΒ. Για τις ανάγκες της παραπάνω υλοποίησης να
γίνει χρήση του περιβάλλοντος προγραμματισμού MATLAB.
4.2) Θεωρήστε τα σημεία δύο κατηγοριών που σημειώνονται με ετικέτες «*» και «ο» στο παρακάτω
Σχήμα. Πρώτα να υποδείξετε όλα τα διανύσματα στήριξης και μετά να υπολογίσετε την βέλτιστη
επιφάνεια απόφασης (ευθεία).

6 ο

5 ο

4 * ο ο

3 *

1 *

2 4 6 8 10

4.3) Ως σύνολο X δεδομένων θεωρήστε το σύνολο των σημείων μιας ευθείας, ενώ ως σύνολο C εννοιών
θεωρήστε όλες τις ημι-ευθείες. Υπολογίστε την διάσταση VC σ’ αυτό το πρόβλημα.
4.4) Βρείτε τον ορισμό του διαισθητικού συνόλου από τη βιβλιογραφία. Σχολιάστε πλεονεκτήματα και
μειονεκτήματα του διαισθητικού συνόλου σε σύγκριση με τα συνηθισμένα ασαφή σύνολα.
4.5) Να αναπτυχθεί στο MATLAB ο κατάλληλος κώδικας ο οποίος να υλοποιεί το κΠΓ μοντέλο.
Εφαρμόστε τον προκύπτοντα κώδικα για την κατηγοριοποίηση των δεδομένων του Iris dataset.
4.6) Η συζήτηση για τις ΜΔΣ περιορίστηκε σε προβλήματα κατηγοριοποίησης δυο κατηγοριών.
Προτείνετε τον τρόπο με τον οποίο οι ΜΔΣ μπορούν να εφαρμοστούν σε προβλήματα
κατηγοριοποίησης πολλών κατηγοριών (>2).
4.7) Να αναπτυχθεί στο MATLAB ο κατάλληλος κώδικας ο οποίος να υλοποιεί τη λειτουργία και την
εκπαίδευση μίας ΜΔΣ για την κατηγοριοποίηση διαχωρίσιμων δεδομένων δυο κατηγοριών.

4-13
Βιβλιογραφία Κεφαλαίου
Atanassov, Κ.Τ. (2012). On Intuitionistic Fuzzy Sets Theory. Berlin, Germany: Springer.
Boser, B.E., Guyon, I.M. & Vapnik, V.N. (1992). A training algorithm for optimal margin classifiers. In 5th
Annual Workshop on Computational Learning Theory (COLT'92), 144-152.
Broomhead, D.S. & Lowe, D. (1988). Multivariable functional interpolation and adaptive networks. Complex
Systems, 2, 321–355.
Cambria, E. (2013). Extreme learning machines. IEEE Intell. Syst., 28(6), 30-59.
Cortes, C. & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20, 273-297.
Cover, T.M. (1965). Geometrical and statistical properties of systems of linear inequalities with applications
in pattern recognition. IEEE Transactions on Electronic Computers, EC-14, 326-334.
Cristianini, N. & Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and Other Kernel-
based Learning Methods. Cambridge, UK: Cambridge University Press.
Domingos, P. (1996). Unifying instance-based and rule-based induction. Machine Learning, 24(2), 141-168.
Haykin, S. (1999). Neural Networks - A Comprehensive Foundation. 2nd Ed., New Jersey, USA: Prentice-
Hall.
Herbrich, R. (2002). Learning Kernel Classifiers: Theory and Algorithms. Cambridge, MA: The MIT Press.
Hirose A. (Ed.). (2003). Complex-Valued Neural Networks: Theories and Applications (Series on Innovative
Intelligence, 5). Singapore: World Scientific.
Huang, G.-B. (2003). Learning capability and storage capacity of two-hidden-layer feedforward networks.
IEEE Transactions on Neural Networks, 14(2), 274-281.
Huang, G.-B., Chen L. & Siew, C.-K. (2006). Universal approximation using incremental constructive
feedforward networks with random hidden nodes. IEEE Transactions on Neural Networks, 17(4), 879-
892.
Jain, A.K., Murty, M.N. & Flynn, P.J. (1999). Data clustering: a review. ACM Computing Surveys, 31(3),
264-323.
Jang, J.S.R., Sun, C.T. & Mizutani, E. (1997). Neuro-fuzzy and Soft Computing  A Computational Approach
to Learning and Machine Intelligence. Upper Saddle River, NJ: Prentice Hall.
Kaburlasos, V.G. & Kehagias, Α. (2014). Fuzzy inference system (FIS) extensions based on lattice theory.
IEEE Transactions on Fuzzy Systems, 22(3), 531-546.
Kearns, M.J. & Vazirani, U.V. (1994). An Introduction to Computational Learning Theory. Cambridge, MA:
The MIT Press.
Kolodner, J. (1993). Case-Based Reasoning. San Mateo, CA: Morgan Kaufmann.
Looney, C.G. (1997). Pattern Recognition Using Neural Networks. New York, USA: Oxford University
Press.
Mercer, J. (1909). Functions of positive and negative type and their connection with the theory of integral
equations. Philos. Trans. Roy. Soc. London A, 209, 415-446.
Mitchell, T.M. (1997). Machine Learning. New York, NY: McGraw-Hill.
Mitra, S. & Hayashi, Y. (2000). Neuro-fuzzy rule generation: survey in soft computing framework. IEEE
Transactions on Neural Networks, 11(3), 748-768.
Mitra, S., Pal, S.K. & Mitra, P. (2002). Data mining in soft computing framework: A survey. IEEE
Transactions on Neural Networks, 13(1), 3-14.
Paredes, R. & Vidal, E. (2006). Learning weighted metrics to minimize nearest-neighbor classification error.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(7), 1100-1110.
Park, J. & Sandberg, I.W. (1991). Universal approximation using radial-basis-function networks. Neural
Computation, 3, 246-257.
Pawlak, Z. (1991). Rough Sets: Theoretical Aspects of Reasoning About Data. Boston, MA: Kluwer.
Pearl, J. (2000). Causality. Cambridge, UK: Cambridge University Press.
Poggio, T. & Girosi, F. (1990). Networks for approximation and learning. Proc. IEEE, 78(9), 1484-1497.
Schölkopf, B. & Smola, A.J. (2002). Learning with Kernels  Support Vector Machines, Regularization,
Optimization, and Beyond. Cambridge, MA: The MIT Press.
Suykens, J.A.K., Gestel, T.V., De Brabanter, J., De Moor, B. & Vandewalle, J. (2002). Least Squares Support
Vector Machines. Singapore: World Scientific Publishing.

4-14
Theodoridis, S. & Koutroumbas, K. (2003). Pattern Recognition (2nd ed.). Amsterdam, The Netherlands:
Academic Press - Elsevier.
Vapnik, V. (1995). The Nature of Statistical Learning Theory. New York, USA: Springer.
Wikipedia, (2015). k-nearest neighbors algorithm. https://en.wikipedia.org/wiki/K-
nearest_neighbors_algorithm.

4-15
Κεφάλαιο 5: Μεθοδολογίες Στατιστικές, Πιθανοτήτων, Δυνατοτήτων
Πολλές μεθοδολογίες της κλασικής ΥΝ, συμπεριλαμβανομένων των ΤΝΔ, παρουσιάζονται ως στατιστικές
μεθοδολογίες. Σε ένα τέτοιο πλαίσιο, μεθοδολογίες στατιστικής μάθησης έχουν ιδιαίτερο ενδιαφέρον (Jain
κ.ά., 2000· Vapnik, 1999). Στη βάση θεωρητικών εργασιών, οι οποίες συσχετίζουν τη στατιστική με
πιθανότητες ή/και συναφείς έννοιες της ΥΝ (Kuncheva, 1996), αυτό το κεφάλαιο παρουσιάζει ενδεικτικά στο
προαναφερθέν πλαίσιο έναν αριθμό μεθοδολογιών της διευρυμένης ΥΝ.

5.1 Πολλαπλά Μοντέλα


Η ώθηση (boosting) είναι μια μεθοδολογία μηχανικής μάθησης (machine learning) για κατηγοριοποίηση,
η οποία τυπικά χρησιμοποιεί έναν πληθυσμό από ασθενείς κατηγοριοποιητές (weak classifiers/learners) με
στόχο έναν ισχυρό κατηγοριοποιητή (strong classifier/learner) (Freund & Schapire, 1999· Zhou, 2012),
όπως περιγράφεται παρακάτω. Σημειώστε ότι ένας κατηγοριοποιητής καλείται ασθενής τότε και μόνον τότε,
όταν δίνει περίπου τόσες σωστές απαντήσεις, όσες θα έδινε μια τυχαία επιλογή των απαντήσεων, ενώ ένας
κατηγοριοποιητής καλείται ισχυρός τότε και μόνον τότε, όταν μπορεί να προσεγγίσει το σύνολο των ορθών
απαντήσεων με ακρίβεια. Σε έναν συγκεκριμένο αλγόριθμο ώθησης δεν έχει σημασία αν οι κατηγοριοποιητές
του πληθυσμού είναι ΥΝ ή άλλου είδους. Γι’ αυτόν το λόγο ένας συγκεκριμένος αλγόριθμος ώθησης καλείται
μετα-αλγόριθμος (meta-algorithm).
Επειδή η ώθηση χρησιμοποιεί έναν πληθυσμό κατηγοριοποιητών, είναι γνωστή με εναλλακτικά
ονόματα όπως σύνολο κατηγοριοποιητών (ensemble of classifiers) ή επιτροπή εμπειρογνωμόνων
(committee of experts) (Kittler κ.ά., 1998· Kuncheva, 2004· Opitz & Maclin, 1999). Σημειώστε ότι η
μεθοδολογία της ώθησης προτάθηκε ως μια καταφατική απάντηση στο ακόλουθο ερώτημα (Schapire, 1990):
Είναι δυνατόν ένα σύνολο από ασθενείς κατηγοριοποιητές να δημιουργήσουν έναν ισχυρό κατηγοριοποιητή;
Επιπλέον, ο ισχυρός κατηγοριοποιητής που προκύπτει έτσι συνήθως μειώνει όχι μόνο τη μεροληψία (bias),
αλλά και τη διασπορά (variance) της ικανότητας γενίκευσης ενός μεμονωμένου κατηγοριοποιητή.

5.1.1 Αλγόριθμος Adaboost


Ο πλέον γνωστός αλγόριθμος ώθησης είναι ο αλγόριθμος Adaboost (Adaptive boosting) (Freund & Schapire,
1997), το όνομα του οποίου συχνά χρησιμοποιείται ως συνώνυμο της μεθοδολογίας της ώθησης.
Η απλούστερη εκδοχή ώθησης θεωρεί προβλήματα κατηγοριοποίησης με δύο μόνον κατηγορίες στο
σύνολο Y={0,1}. Έστω X το σύνολο αναφοράς των δεδομένων που πρόκειται να κατηγοριοποιηθούν. Μετά
την εκπαίδευσή του ο κατηγοριοποιητής μαθαίνει μια συνάρτηση h: X[0,1], η οποία (συνάρτηση h)
καλείται υπόθεση. Η τιμή h(x) ερμηνεύεται ως η πιθανότητα το x να ανήκει στην κατηγορία 1, συνεπώς 1-h(x)
είναι η πιθανότητα το x να ανήκει στην κατηγορία 0.

Αλγόριθμος AdaBoost

Δεδομένα εισόδου: Μια ακολουθία (x1, y1),…,(xN, yN) από N κατηγοριοποιημένα δεδομένα, όπου X = { x1,…,
xN}, μια κατανομή D βαρών πάνω στα N δεδομένα, ένας ασθενής κατηγοριοποιητής WeakLearn, και ένας
ακέραιος αριθμός T, ο οποίος καθορίζει το πλήθος των επαναλήψεων.

Αρχικοποίηση των βαρών wi1  D(i ) για i=1,…,N.


Κάνε για t = 1, 2,…,T
wt
1. Όρισε το διάνυσμα κατανομής pt  .
 i 1 wit
N

2. Κάλεσε τον κατηγοριοποιητή WeakLearn με την κατανομή p t . Κατάγραψε την υπόθεση ht: X[0,1].
3. Υπολόγισε το σφάλμα εt της υπόθεσης ht ως εξής:  t   i 1 pit ht ( xi )  yi .
N

4. Όρισε t   t / (1   t ) .
1 ht ( xi ) yi
5. Όρισε τα νέα βάρη ως wit 1  wit t

5-1
Η τελική υπόθεση είναι η ακόλουθη

 1 T
  log1 / βt
T
1, (log1 / βt )ht ( x) 
h f ( x)   t =1
2 t 1

0, διαφορετικά

Οι περισσότεροι αλγόριθμοι ώθησης λειτουργούν επαναληπτικά, θεωρώντας μια συγκεκριμένη


κατανομή πιθανότητας ορισμένη πάνω σε πεπερασμένο υποσύνολο εκπαίδευσης. Η επιλογή ενός δεδομένου
από το υποσύνολο εκπαίδευσης γίνεται σύμφωνα με την προαναφερθείσα κατανομή πιθανότητας. Επιπλέον,
σε κάθε ασθενή κατηγοριοποιητή τυπικά αποδίδεται ένας συντελεστής βάρους ανάλογος με την ικανότητα
του ασθενούς κατηγοριοποιητή για γενίκευση.
Μετά την ενδεχόμενη εισαγωγή ενός ασθενούς κατηγοριοποιητή επανα-υπολογίζεται η κατανομή
πιθανότητας πάνω στο υποσύνολο εκπαίδευσης, έτσι ώστε για κάθε δεδομένο το οποίο κατηγοριοποιείται
λανθασμένα να αυξάνεται η βαρύτητά του, ενώ για κάθε δεδομένο το οποίο κατηγοριοποιείται ορθά
μειώνεται η βαρύτητα. Το αποτέλεσμα της προαναφερθείσας τακτικής είναι ότι οι ασθενείς κατηγοριοποιητές
επικεντρώνονται στο να μάθουν τα δεδομένα, τα οποία κατηγοριοποιούν λανθασμένα. Στη βιβλιογραφία
έχουν προταθεί πολλοί αλγόριθμοι ώθησης, οι οποίοι έχουν τα προαναφερθέντα γενικά χαρακτηριστικά.
Ωστόσο, κατά μια άποψη, ένας αλγόριθμος ώθησης οφείλει αποδεδειγμένα να μπορεί να γενικεύει υπό την
έννοια του Πιθανώς Ορθό κατά Προσέγγιση. Μάλιστα, έχει διατυπωθεί η άποψη ότι αλγόριθμοι οι οποίοι
έχουν μεν τα προαναφερθέντα γενικά χαρακτηριστικά μιας μεθοδολογίας ώθησης, αλλά δεν μπορούν να
γενικεύουν υπό την έννοια του Πιθανώς Ορθό κατά Προσέγγιση, πρέπει να αποκαλούνται αλγόριθμοι
αναμόχλευσης (leveraging algorithms).

5.1.2 Εναλλακτικοί Αλγόριθμοι Ώθησης


Πολλοί αλγόριθμοι ώθησης διαφέρουν μεταξύ τους ως προς τον τρόπο με τον οποίον υπολογίζουν την
κατανομή πιθανότητας πάνω στο υποσύνολο εκπαίδευσης. Σημειώστε, επίσης, ότι πολλοί αλγόριθμοι ώθησης
στην πραγματικότητα είναι αλγόριθμοι κατάβασης, οι οποίοι βελτιστοποιούν μια κυρτή συνάρτηση κόστους.
Παρά την ικανοποιητική θεωρητική περιγραφή των αλγορίθμων ώθησης, η σημαντικότερη κριτική
που τους ασκείται είναι η περιορισμένη αποτελεσματικότητά τους σε πρακτικές εφαρμογές, ειδικά όταν
υπάρχει θόρυβος στα δεδομένα εκπαίδευσης, π.χ. όταν κάποια κατηγοριοποιημένα δεδομένα
(x1,f(x1)),…,(xn,f(xn)) δίνονται με λανθασμένη την κατηγορία f(xi), i{1,…,n}.
Τη μεθοδολογία ώθησης μιμήθηκαν και άλλοι μετα-αλγόριθμοι, μερικοί από τους οποίους
περιγράφονται στη συνέχεια.
Ο μετα-αλγόριθμος ενεργής μάθησης (active learning) ορίζει ένα βέλτιστο υποσύνολο εκπαίδευσης
ε
X στοχεύοντας στη μεγιστοποίηση της ικανότητας γενίκευσης, τυπικά σε προβλήματα κατηγοριοποίησης. Η
προαναφερθείσα βελτιστοποίηση μεθοδεύεται επαναληπτικά αξιολογώντας ένα υποσύνολο, συμβολικά Uε,
δεδομένων υποψηφίων προς ένταξη στο Xε. Χρησιμοποιώντας ευρετικά κριτήρια αξιολόγησης, τα οποία
ορίζει ο χρήστης, επιλέγεται ένας αριθμός q δεδομένων του Uε και εντάσσονται στο Xε, όπου ο χρήστης ορίζει
την κατηγορία του καθενός από τα q δεδομένα. Διάφορες παραλλαγές της μεθοδολογίας της ενεργής μάθησης
έχουν προταθεί συχνά σε εφαρμογές αναγνώρισης σε ψηφιακές εικόνες, όπου τα προς κατηγοριοποίηση
δεδομένα είναι εικονοστοιχεία (pixels) (Tuia κ.ά., 2011).
Η τεχνική της δειγματοθέτησης (bootstrap) μπορεί να συνδυαστεί με πολλαπλά μοντέλα, οπότε
προκύπτει ένας νέος μετα-αλγόριθμος με το όνομα πολλαπλή δειγματοθέτηση (bootstrap aggregating ή,
εναλλακτικά, bagging) (Breiman, 1996). Συγκεκριμένα, η εφαρμογή της πολλαπλής δειγματοθέτησης στην
πράξη, πέρα από τη μείωση της διασποράς, επιβεβαίωσε και τη βελτίωση της ικανότητας γενίκευσης σε
εφαρμογές κατηγοριοποίησης /παλινδρόμησης, καθώς και την αποφυγή του προβλήματος της αποστήθισης
(overfitting). Η πολλαπλή δειγματοθέτηση, η οποία περιγράφεται στη συνέχεια, συχνά χρησιμοποιεί δένδρα
αποφάσεων (Breiman κ.ά., 1998), όμως μπορεί να χρησιμοποιήσει οποιονδήποτε αλγόριθμο ΥΝ.
Δοθέντος ενός υποσυνόλου εκπαίδευσης D μεγέθους n, ο μετα-αλγόριθμος της πολλαπλής
δειγματοθέτησης παράγει m νέα υποσύνολα εκπαίδευσης Di, i{1,…,m} ιδίου μεγέθους n έκαστο, καθένα
από τα οποία καλείται δείγμα δειγματοθέτησης. Εξαιτίας της επανατοποθέτησης κάποια δεδομένα
ενδεχομένως να επαναλαμβάνονται σε κάποιο υποσύνολο Di, i{1,…,m}. Έχει αποδειχθεί ότι εάν n=n, τότε

5-2
1
για μεγάλες τιμές του n, ένα υποσύνολο Di, i{1,…,m} αναμένεται να έχει ένα ποσοστό 1  (περίπου)
e
63.2% των δεδομένων του διαφορετικά μεταξύ τους, ενώ τα υπόλοιπα δεδομένα αναμένεται να είναι
επαναλαμβανόμενα. Στη συνέχεια χρησιμοποιούνται m διαφορετικά μοντέλα, καθένα από τα οποία
εκπαιδεύεται με ένα διαφορετικό υποσύνολο Di, i{1,…,m}. Τελικά, οι έξοδοι των m μοντέλων
συνδυάζονται είτε με τον υπολογισμό του μέσου όρου αυτών (για εφαρμογές παλινδρόμησης), είτε με
ψηφοφορία (για εφαρμογές κατηγοριοποίησης).
Πολλαπλά μοντέλα τα οποία περιλαμβάνουν δένδρα αποφάσεων (decision trees) καλούνται
στοχαστικά δάση (random forests) (Breiman, 2001). Αυτή η μέθοδος συνδυάζει την τεχνική της πολλαπλής
δειγματοθέτησης με μια τυχαία επιλογή χαρακτηριστικών (Ho, 1998). Σημειώστε ότι τα στοχαστικά δάση
τυπικά διορθώνουν το πρόβλημα της αποστήθισης που χαρακτηρίζει τα δένδρα αποφάσεων.

5.1.3 Πιθανώς Ορθό κατά Προσέγγιση


Η έννοια του πιθανώς ορθό κατά προσέγγιση (ΠΟΠ) (probably approximately correct (PAC)) (Valiant,
1984) είναι χρήσιμη για τη μελέτη στατιστικών αλγορίθμων μάθησης. Ο ορισμός της μάθησης κατά ΠΟΠ
δίνεται μέσω ενός παραδείγματος υπό τη μορφή παιγνίου στη συνέχεια (Kearns & Vazirani, 1994).
Έστω ένα ορθογώνιο παραλληλόγραμμο R όπως φαίνεται στο Σχήμα 5.1. Σημεία p του επιπέδου
επιλέγονται σύμφωνα με μια σταθερή κατανομή πιθανότητας D. Θεωρούμε τη συνάρτηση R(.), η οποία
ορίζεται έτσι, ώστε R(p) = 1 αν και μόνο αν το σημείο p είναι εντός του R, διαφορετικά R(p) = 0. Ο σκοπός
μας είναι να επιλέξουμε ικανό αριθμό δειγμάτων ζευγών (p, R(p)) προκειμένου να υπολογίσουμε ένα
ορθογώνιο παραλληλόγραμμο R το οποίο να είναι μια αποδεκτή προσέγγιση του R, όπως εξηγείται στη
συνέχεια.

y -

+
-
-
+ +

x
-

Σχήμα 5.1 Όλα τα σημεία εντός του ορθογώνιου παραλληλόγραμμου R θεωρούνται θετικά (+), ενώ όλα τα σημεία εκτός
του R θεωρούνται αρνητικά (-).

Υπολογίζουμε το R ως το ελάχιστο ορθογώνιο παραλληλόγραμμο το οποίο περιέχει όλα τα θετικά


δείγματα, όπως παρουσιάζεται στο Σχήμα 5.2 (εάν δεν υπάρχουν θετικά δείγματα θεωρούμε R = ). Στη
γενική περίπτωση το R δεν είναι ίσο με το R, δηλ. R ≠ R. Ορίζουμε ως σφάλμα (ε) της προσέγγισης του R με
το R την πιθανότητα ένα σημείο p του επιπέδου που επιλέχθηκε σύμφωνα με την κατανομή D να ανήκει στην
περιοχή RΔR = (R-R)(R-R). Σημειώστε ότι, λόγω του τρόπου υπολογισμού του R, θα ισχύει RR,
συνεπώς RΔR = R-R.
Στη συνέχεια δείχνουμε ότι για οποιοδήποτε ορθογώνιο παραλληλόγραμμο R και για οσοδήποτε
μικρές τιμές 0<ε και 0<δ<1/2 μπορούμε να υπολογίσουμε έναν ελάχιστο αριθμό m δειγμάτων ζευγών (p,
R(p)), ώστε με πιθανότητα τουλάχιστον 1-δ το σφάλμα προσέγγισης του R με το R να είναι μικρότερο από ε.
Θεωρούμε τη λωρίδα Τ εντός του ορθογώνιου παραλληλόγραμμου R η οποία ορίζεται από τις άνω
πλευρές των ορθογώνιων R και R, όπως φαίνεται στο Σχήμα 5.3. Υποθέτουμε ότι υπάρχει ένας ελάχιστος
αριθμός m δειγμάτων ζευγών (p, R(p)), τέτοιος ώστε το σφάλμα το οποίο αντιστοιχεί στη λωρίδα T να είναι
λιγότερο από ε/4. Στη συνέχεια υπολογίζουμε τον ακέραιο αριθμό m.

5-3
y -


+ -
-  + R  +
+
R

x
-

Σχήμα 5.2 Το R ορίζεται ως το ελάχιστο ορθογώνιο παραλληλόγραμμο το οποίο περιέχει όλα τα θετικά δείγματα (+).

Έστω η λωρίδα Τ η οποία αντιστοιχεί ακριβώς σε σφάλμα ε/4. Προφανώς η λωρίδα Τ εμπεριέχει τη
λωρίδα T. Παρατηρήστε ότι για κάθε πλευρά του R υπάρχει ένα ζεύγος λωρίδων Τ και T, άρα συνολικά
υπάρχουν τέσσερα ζεύγη από λωρίδες Τ και T.
Η πιθανότητα η επιλογή ενός σημείου p στο επίπεδο x-y να μην είναι πάνω στη λωρίδα Τ είναι
ακριβώς 1-ε/4. Άρα, η πιθανότητα όλες οι m ανεξάρτητες επιλογές σημείων να μην είναι πάνω στη λωρίδα Τ
είναι ακριβώς (1-ε/4)m. Συνεπώς, η πιθανότητα όλες οι m ανεξάρτητες επιλογές σημείων να μην είναι πάνω
στη λωρίδα Τ είναι το πολύ (1-ε/4)m. Τελικά, η πιθανότητα όλες οι m ανεξάρτητες επιλογές σημείων να μην
είναι πάνω σε κάποια από τις τέσσερις λωρίδες Τ είναι το πολύ 4(1-ε/4)m.
Επιλέγουμε έναν αριθμό m δειγμάτων, ο οποίος να ικανοποιεί τη σχέση 4(1-ε/4)m  δ όπως εξηγείται
m

στη συνέχεια. Συγκεκριμένα, μπορούμε να επιλέξουμε ένα m έτσι ώστε να ισχύει 4e 4
 .
m m
 
m
 
Χρησιμοποιώντας την γνωστή ανισότητα (1-x)  e-x έπεται 4 1    4e 4 . Συνεπώς, για 4e 4    m
 4
 (4/ε)ln(4/δ) έπεται 4(1-ε/4)  δ.
m

Συμπερασματικά, χρησιμοποιώντας τον προαναφερθέντα αλγόριθμο υπολογισμού ενός ορθογώνιου


R, αν λάβουμε έναν αριθμό (4/ε)ln(4/δ) τυχαίων δειγμάτων με κατανομή D, μπορούμε να ισχυριστούμε με
βεβαιότητα τουλάχιστον 1-δ ότι το ορθογώνιο R θα κατηγοριοποιήσει λανθασμένα ένα σημείο (που
επιλέγεται με την ίδια κατανομή D) με πιθανότητα το πολύ ε.

y -

Τ 
T

+ + -
- +
R  +
R

x
-

Σχήμα 5.3 Δοθέντος του (μικρού) σφάλματος ε, η λωρίδα Τ αντιστοιχεί ακριβώς σε σφάλμα ε/4. Υπάρχει ένας ελάχιστος
αριθμός m δειγμάτων ζευγών (p, R(p)) τέτοιος, ώστε το σφάλμα το οποίο αντιστοιχεί στη λωρίδα T να είναι λιγότερο από
ε/4.

5-4
Το προαναφερθέν παράδειγμα στη συνέχεια γενικεύεται, ώστε να οριστεί η έννοια του ΠΟΠ
χρησιμοποιώντας την ορολογία που εν μέρει παρουσιάζεται στην ενότητα 4.4.4. Συγκεκριμένα, έστω X το
σύνολο των δεδομένων που ενδιαφέρουν (σημειώστε ότι στο προηγούμενο παράδειγμα X ήταν το σύνολο
όλων των σημείων επάνω στο επίπεδο x-y). Μία έννοια c πάνω στο Χ ορίζεται ως ένα υποσύνολο του Χ, δηλ.
cX. Σημειώστε ότι στο προηγούμενο παράδειγμα μία έννοια c ήταν ένα ορθογώνιο παραλληλόγραμμο
επάνω στο επίπεδο x-y. Έστω C το σύνολο όλων των εννοιών τις οποίες δυνητικά μπορεί να μάθει μια
συγκεκριμένη μηχανή μάθησης. Συγκεκριμένα, στο προηγούμενο παράδειγμα C είναι το σύνολο όλων των
ορθογώνιων παραλληλόγραμμων επάνω στο επίπεδο x-y. Έστω ΕΧ(c, D) μια διαδικασία που ονομάζεται
μαντείο (oracle), η οποία κάθε φορά που καλείται επιστρέφει ένα ζεύγος (x, c(x)), όπου το στοιχείο xX
επιλέγεται σύμφωνα με την κατανομή D, με c(x)=1 αν και μόνο αν xc, διαφορετικά c(x)=0.
Λέμε ότι κάποιος αλγόριθμος L μπορεί να μάθει τη συλλογή C κατά ΠΟΠ, εάν ο αλγόριθμος L έχει
την ακόλουθη ιδιότητα: Για κάθε έννοια cC, για κάθε κατανομή D πάνω στο Χ, για κάθε ε(0,0.5) και
δ(0,0.5), εάν ο αλγόριθμος L μπορεί λαμβάνει δεδομένα ΕΧ(c, D), τότε με πιθανότητα τουλάχιστον 1-δ
μπορεί να υπολογίζει μια έννοια hC της οποίας το σφάλμα θα είναι μικρότερο από ε.
Σημειώστε ότι τεχνικές ΠΟΠ εφαρμόστηκαν με ορθογώνια παραλληλεπίπεδα σε περισσότερες των
δύο διαστάσεων. Επίσης, εκτός από τον Ευκλείδειο χώρο, τεχνικές ΠΟΠ έχουν εφαρμοστεί για την μάθηση
Boolean συναρτήσεων (Kearns κ.ά., 1994).

5.2 Τεχνικές Ομαδοποίησης


Κατά την ομαδοποίηση ένα σύνολο δεδομένων για τα οποία δεν είναι γνωστή η κατηγορία στην οποία
ανήκουν, επιδιώκεται να χωριστούν σε ομάδες δεδομένων που μοιράζονται μεταξύ τους κοινές ιδιότητες. Με
όρους ΥΝ αυτό καλείται μάθηση χωρίς εποπτεία (unsupervised learning).

Η ομαδοποίηση δεδομένων είναι σημαντική για τρεις τουλάχιστον λόγους:


1) Υπάρχουν συχνά περιπτώσεις όπου η συλλογή δεδομένων είναι σχετικά «φθηνή», όμως ο
προσδιορισμός της αντίστοιχης κατηγορίας είναι «ακριβός», π.χ. σε εφαρμογές αναγνώρισης φωνής.
Σε τέτοιες περιπτώσεις είναι επιθυμητός ο σχεδιασμός κατηγοριοποιητών που σχεδιάζονται χονδρικά
με λίγα κατηγοριοποιημένα δεδομένα και στη συνέχεια ρυθμίζονται με ακρίβεια χρησιμοποιώντας
μη-κατηγοριοποιημένα δεδομένα.
2) Για την εύρεση ομάδων δεδομένων με χρήση μη-κατηγοριοποιημένων δεδομένων και στη συνέχεια,
επικόλληση ετικετών πάνω σε κάθε ομάδα που υπολογίστηκε, π.χ. σε εφαρμογές εξόρυξης γνώσης
(data mining).
3) Για την εύρεση χαρακτηριστικών (features ή, εναλλακτικά, attributes) που στη συνέχεια θα
χρησιμοποιηθούν για κατηγοριοποίηση.

Στη συνέχεια παρουσιάζονται αλγόριθμοι ομαδοποίησης.

5.2.1 Μίξεις πυκνοτήτων


Η παλαιότερη σχετική εργασία είναι αυτή του Pearson (1894), ο οποίος χρησιμοποίησε ροπές δειγμάτων για
να υπολογίσει τις παραμέτρους μίξης κατανομών Gauss. Εδώ θα θεωρήσουμε περιπτώσεις όπου είναι γνωστή
η «πιθανοτική μορφή» του προβλήματος και ζητείται η τιμή κάποιων παραμέτρων. Συγκεκριμένα έστω ότι:

1) Τα δείγματα προέρχονται από γνωστό αριθμό c κατηγοριών.


2) Οι προγενέστερες πιθανότητες P(wj) για κάθε κατηγορία, j=1,…c, είναι γνωστές.
3) Οι μορφές των δεσμευμένων πυκνοτήτων πιθανότητας p(x|wj,θj) για κάθε κατηγορία, j=1,…c, είναι
γνωστές.
4) Οι τιμές των c διανυσμάτων παραμέτρων θ1,…,θc είναι άγνωστες.
5) Η κατηγορία κάθε δείγματος είναι άγνωστη.

Υποθέτουμε ότι τα δείγματα επιλέγονται τυχαία ως εξής: Πρώτον, επιλέγεται μια κατηγορία wj με
πιθανότητα P(wj) και δεύτερον, επιλέγεται ένα δείγμα x με πιθανότητα p(x/wj,θj).
Συνεπώς, η πυκνότητα πιθανότητας για τα δείγματα δίδεται ως:

5-5
c
p(x|θ)=  p(x|wj,θj)P(wj), (5.1)
j 1

όπου θ= (θ1,…,θc)t. Η παραπάνω συνάρτηση πυκνότητας πιθανότητας καλείται μίξη πυκνότητας (mixture
density), οι δεσμευμένες πυκνότητες p(x/wj,θj) καλούνται συστατικές πυκνότητες (πιθανότητας)
(component (probability) densities), και οι προγενέστερες πιθανότητες P(wj) καλούνται παράμετροι
ανάμιξης (mixing parameters). Κατ’ αρχάς θεωρούμε ότι το διάνυσμα θ είναι άγνωστο προς εύρεση. Στόχος
μας είναι μια εκτίμηση του διανύσματος παραμέτρων θ από δείγματα x. Όταν υπολογίσουμε το θ, τότε
μπορούμε να χρησιμοποιήσουμε έναν κατηγοριοποιητή, ο οποίος ενσωματώνει εμπειρία (a posteriori).
Προτού αναζητήσουμε συστηματικά έναν κατηγοριοποιητή θα μελετήσουμε τη δυνατότητα υπολογισμού του
διανύσματος παραμέτρων θ.
Ας υποθέσουμε ότι έχουμε στη διάθεσή μας απεριόριστα δείγματα x και έστω ότι υπολογίζουμε την
τιμή πιθανότητας p(x|θ) για κάθε θ. Εάν υπάρχει μια και μόνο τιμή του θ η οποία θα μπορούσε να παράγει τις
παρατηρούμενες τιμές για το p(x|θ), τότε μια λύση είναι δυνατή. Ωστόσο εάν διάφορες τιμές του θ μπορούν
να παράγουν τις παρατηρούμενες τιμές για το p(x|θ), τότε είναι αδύνατη η εύρεση μιας μοναδικής λύσης για
το θ. Συνεπεία των παραπάνω προτείνονται οι παρακάτω ορισμοί.
Μια πυκνότητα πιθανότητας p(x|θ) καλείται ανιχνεύσιμη (identifiable), εάν θ  θ συνεπάγεται ότι
υπάρχει ένα x τέτοιο, ώστε p(x|θ)  p(x|θ). Μια πυκνότητα πιθανότητας p(x|θ) καλείται μη ανιχνεύσιμη, εάν
δεν είναι δυνατός ο υπολογισμός ενός μοναδικού διανύσματος θ, ακόμη και για άπειρα διαθέσιμα δείγματα.

Παράδειγμα 1
Έστω ότι δείγματα επιλέγονται σύμφωνα με την παρακάτω δυαδική μίξη πυκνότητας:
 1
1 x 1  (θ 1  θ 2 ) if x  1
P(x|θ)= θ1 (1-1)1-x + θ 2x (1-2)1-x =  2
2 2 1
1  (θ 1  θ 2 ) if x  0
 2

Έστω ότι, κατά κάποιον τρόπο, γνωρίζουμε ότι P(x=1|θ) = 0.6, συνεπώς P(x=0|θ) = 0.4. Συνεπώς,
έχουμε υπολογίσει τη συνάρτηση P(x|θ) σε αυτό το παράδειγμα, αλλά δεν μπορούμε να υπολογίσουμε το
διάνυσμα θ=[θ1, θ2]. Το περισσότερο που μπορούμε να πούμε για το θ είναι θ1+θ2=1.2. Οπότε δεν μπορούμε
να γνωρίζουμε τις συστατικές πυκνότητες πιθανότητας σ’ αυτήν την περίπτωση.

5.2.2 Εκτιμήσεις μεγίστης πιθανοφάνειας


Έστω ότι δίδεται ένα σύνολο D={x1,…,xn} με n δείγματα χωρίς-ετικέτα τα οποία επιλέχθηκαν τυχαία και
ανεξάρτητα από τη μίξη πυκνότητας:
c
p(x|θ)=  p(x|wj,θj)P(wj),
j 1

όπου το πλήρες διάνυσμα θ θεωρείται σταθερό και άγνωστο.


Η συνάρτηση πιθανοφάνειας (Duda κ.ά., 2001) των παρατηρούμενων δειγμάτων ορίζεται ως:
n
p(D|θ)=  p(xk|θ)
k 1

Η εκτίμηση μεγίστης πιθανοφάνειας θ̂ είναι εκείνη η τιμή του θ, η οποία μεγιστοποιεί τη συνάρτηση
πιθανοφάνειας p(D|θ). Συγκεκριμένα, αν υποθέσουμε ότι η p(D|θ) είναι παραγωγίσιμη συνάρτηση του θ, τότε
προκύπτουν αναγκαίες συνθήκες για το θ̂ . Έστω l ο λογάριθμος της συνάρτησης πιθανοφάνειας και έστω
 θi l ο ρυθμός μεταβολής του l ως προς το θ. Τότε:
n
l= ln p(D|θ)=  ln p(xk|θ)
k 1
συνεπώς:
n
1 c 
 θi l=  p ( x k | θ)
 θ i  p ( x k | w j , θ j ) P ( w j ) 
k 1  j 1 

5-6
Εάν θεωρήσουμε:

1) ότι τα θi και θj είναι μεταξύ τους ανεξάρτητα (για ij) και


p(x k | wi , θ i ) P( wi )
2) τη δεσμευμένη πιθανότητα P(wi|xk, θ)=
p ( x k | θ)

τότε συνεπάγεται:
n n n
1 1
 θi l=  p(x | θ)
 θi p(xk|θ)=  P(wi | x k , θ) p(x | wi , θ i ) P( wi )
 θi p(xk|θi)=  P(wi|xk, θ)  θi ln p(xk|θi).
k 1 k k 1 k k 1

Επειδή η συνάρτηση  θi l μηδενίζεται στην τιμή του θi η οποία μεγιστοποιεί το l, η εκτίμηση


μεγίστης πιθανοφάνειας θ̂ πρέπει να ικανοποιεί τις συνθήκες:

n
 P(wi|xk, θ)  θi ln p(xk|θi) = 0, i= 1,…,c.
k 1

Ανάμεσα στις λύσεις των παραπάνω εξισώσεων για θ̂ i θα ψάξουμε να βρούμε την εκτίμηση μεγίστης
πιθανοφάνειας.
Μπορούμε εύκολα να γενικεύσουμε τα προηγούμενα αποτελέσματα, ώστε να συμπεριλάβουμε τις
προγενέστερες πιθανότητες P(wj) ανάμεσα στους αγνώστους. Στην τελευταία περίπτωση η αναζήτηση
βέλτιστης (μέγιστης) τιμής της συνάρτησης p(D|θ) περιλαμβάνει τα θ και P(wi), τα τελευταία υπόκεινται
στους παρακάτω περιορισμούς:
c
P(wi)  0, i=1,…c και  P(wi) = 1.
i 1

Έστω ότι το Pˆ ( w j ) συμβολίζει την εκτίμηση της μέγιστης πιθανοφάνειας του P(wi), και έστω θ̂ i
συμβολίζει την εκτίμηση της μέγιστης πιθανοφάνειας του θi. Μπορεί να δειχθεί ότι, εάν η συνάρτηση
πιθανοφάνειας είναι παραγωγίσιμη και εάν Pˆ ( wi ) ≠0 για όλα τα i, τότε Pˆ ( wi ) και θ̂ i ικανοποιούν τις
παρακάτω ισότητες Εξ.(5.2) και Εξ.(5.3):

1 n
Pˆ ( wi ) =  Pˆ ( wi | xˆ k , θˆ ) (5.2)
n k 1
n
 Pˆ (wi | x k , θˆ ) θi ln p(x k | θˆ i ) =0 (5.3)
k 1
όπου,
p(x k | wi , θˆ i ) Pˆ ( wi )
Pˆ ( wi | x k , θˆ )  (5.4)
 j 1 p(x k | w j , θˆ j ) Pˆ (w j )
c

Οι παραπάνω εξισώσεις έχουν την ακόλουθη ερμηνεία. Η Εξ.(5.2) δηλώνει ότι η εκτίμηση μέγιστης
πιθανοφάνειας της πιθανότητας μιας κατηγορίας ισούται με το μέσο όρο όλων των εκτιμήσεων μέγιστης
πιθανοφάνειας που υπολογίστηκαν από κάθε δείγμα, όπου η εκτίμηση την μέγιστης πιθανοφάνειας κάθε
δείγματος ζυγιάζεται εξίσου. Η Εξ.(5.4) τελικά σχετίζεται με το θεώρημα του Bayes. Να σημειωθεί όμως ότι
για την εκτίμηση της πιθανότητας της κατηγορίας wi ο αριθμητής στο δεξί μέλος της εξίσωσης εξαρτάται από
το θ̂ i , όχι όμως από ολόκληρο το θ̂ .

5.2.3 Εφαρμογή σε κανονικές μίξεις


Είναι ενδιαφέρον και χρήσιμο να μελετήσουμε τη μορφή των προηγούμενων αποτελεσμάτων, όταν οι
συστατικές πυκνότητες είναι κανονικές (normal), δηλ. όταν p(x/wj,θj)  Ν(i, i). Ο Πίνακας 5.1 δείχνει
τρεις περιπτώσεις που θα μελετηθούν στη συνέχεια, όπου κάποιες παράμετροι είναι γνωστές (βλ. «») και
κάποιες άλλες παράμετροι είναι άγνωστες (βλ. «?»).

5-7
Η περίπτωση 1 είναι η απλούστερη. Η περίπτωση 2 είναι πιο ρεαλιστική, ενώ η περίπτωση 3 δεν
μπορεί να αντιμετωπιστεί με τεχνικές μεγίστης πιθανοφάνειας.

Περίπτωση I i P(wi) c
1 ?   
2 ? ? ? 
3 ? ? ? ?

Πίνακας 5.1 Τρεις περιπτώσεις προς μελέτη.

Περίπτωση 1: Άγνωστες Μέσες Τιμές

Σ’ αυτήν την περίπτωση θi = i. Επειδή η συνάρτηση πιθανοφάνειας ισούται με:

1
ln p(x|wj,i) = -ln [(2)d/2|i|1/2] - (x-i)t Σ i1 (x-i),
2

η παράγωγος είναι  i ln p(x|wj,i) = Σ i1 (x-i).


Οπότε η εκτίμηση μεγίστης πιθανοφάνειας μ̂ i οφείλει να ικανοποιεί:
n
 P(wi|xk, μ̂ ) Σ i1 (x- μ̂ i ) = 0, όπου μ̂ = ( μ̂1 ,…, μ̂ c )t.
k 1
Μετά από πράξεις και απλοποιήσεις καταλήγουμε στην παρακάτω λύση:

k 1 P(wi | x k , μˆ )x k
n

μ̂ i = (5.5)
k 1 P(wi | x k , μˆ )
n

Η παραπάνω εξίσωση δείχνει ότι η εκτίμηση μεγίστης πιθανοφάνειας για το i είναι απλώς ένας
ζυγιασμένος μέσος όρος των δειγμάτων. Συγκεκριμένα, το βάρος του δείγματος xk αποτελεί μια εκτίμηση του
πόσο πιθανόν είναι ότι το δείγμα xk ανήκει στην κατηγορία “i”. Παραδείγματος χάρη, εάν το P(wi|xk, μ̂ )
συμβεί να είναι 1.0 για μερικά δείγματα και 0.0 για τα υπόλοιπα δείγματα, τότε το μ̂ i θα ισούται με το μέσο
όρο εκείνων των δειγμάτων που εκτιμήθηκαν ότι ανήκουν στην κατηγορία “i”.
Δυστυχώς η παραπάνω εξίσωση δε δίνει το μ̂ i ξεκάθαρα στο ένα μέλος της. Έτσι, αν στην ακόλουθη
έκφραση:

p(x k | wi , μˆ i ) P( wi )
P( wi | x k , μˆ ) 
 p(x k | w j , μˆ j ) Pˆ (w j )
c
j 1

χρησιμοποιήσουμε την έκφραση p(x/wj, μ̂ i )  Ν( μ̂ i , i), προκύπτει ένα σύνολο πολυπλεγμένων μη-
γραμμικών εξισώσεων που δύσκολα επιλύονται. Επιπλέον, δεν υπάρχει μοναδική λύση, οπότε από το σύνολο
των υποψήφιων λύσεων που υπάρχουν θα πρέπει να επιλέξουμε εκείνη τη λύση που μεγιστοποιεί τη
συνάρτηση πιθανοφάνειας.
Εάν είχαμε στη διάθεσή μας κάποιες «καλές» αρχικές εκτιμήσεις μˆ i (0) για τις άγνωστες μέσες τιμές,
τότε θα μπορούσαμε να χρησιμοποιήσουμε την παρακάτω επαναληπτική φόρμουλα (τεχνική) για να
βελτιώσουμε τις εκτιμήσεις μας:

k 1 P(wi | x k , μˆ ( j ))x k
n

μˆ i ( j  1) = (5.6)
k 1 P(wi | x k , μˆ ( j ))
n

5-8
Η Εξ.(5.6) περιγράφει μια τεχνική αναρρίχησης λόφων για τη μεγιστοποίηση της συνάρτησης
πιθανοφάνειας. Συνεπώς, όταν ο παραπάνω αλγόριθμος συγκλίνει, το μόνο που μπορούμε να πούμε με
σιγουριά είναι ότι έχουμε βρει ένα τοπικό μέγιστο.

Παράδειγμα 2
Για να δείξουμε τι μπορεί να συμβεί κατά την αναρρίχηση λόφων σε τεχνικές μάθησης με ομαδοποίηση,
θεωρήστε μια μονοδιάστατη κανονική μίξη με δύο συνιστώσες:

1  1  2  1 
p(x/μ1,μ2)= exp  ( x  1 ) 2   exp  ( x   2 ) 2 
3
 2  2  2
3  2
w1 w2

Χρησιμοποιώντας την παραπάνω μίξη με μ1= -2 και μ2= 2 επιλέχθηκαν τα 25 δείγματα που δείχνονται
στον Πίνακα 5.2. Χρησιμοποιήσαμε τα δείγματα του πίνακα για να υπολογίσουμε την ακόλουθη λογαριθμική
συνάρτηση πιθανοφάνειας:
n
l(μ1, μ2)=  ln p( x k | 1 ,  2 )
k 1
για διάφορες τιμές των μ1 και μ2. Η μέγιστη τιμή της l επιτυγχάνεται στη θέση ̂1 = -2.130 και ̂ 2 = 1.668, η
οποία είναι στην εγγύτητα της πραγματικής θέσης μ1= -2 και μ2= 2. Ωστόσο, η l επιτυγχάνει ακόμη ένα
(τοπικό) μέγιστο στη θέση ̂1 = 2.085 και ̂ 2 = -1.257. Η τελευταία λύση αντιστοιχεί στην εναλλαγή των μ1
και μ2. Σημειώστε ότι, εάν οι προγενέστερες πιθανότητες ήταν ίσες, τότε καμιά αλλαγή στην παραπάνω
λογαριθμική συνάρτηση πιθανοφάνειας δε θα παρατηρούνταν. Έτσι, όπως έχει σημειωθεί παραπάνω, όταν η
πυκνότητα μίξης δεν είναι ανιχνεύσιμη, τότε η λύση μέγιστης πιθανοφάνειας δεν είναι μοναδική.

k xk ω1 ω2 k xk ω1 ω2 k xk ω1 ω2
1 0.608  9 0.262  17 -3.458 
2 -1.590  10 1.072  18 0.257 
3 0.235  11 -  19 2.569 
1.773
4 3.949  12 0.537  20 1.415 
5 -2.249  13 3.240  21 1.410 
6 2.704  14 2.400  22 -2.653 
7 -2.473  15 -  23 1.396 
2.499
8 0.672  16 2.608  24 3.286 
25 -0.712 

Πίνακας 5.2 Χρησιμοποιούμενα 25 δείγματα.

Εάν η Eξ.(5.6) χρησιμοποιηθεί για την επαναληπτική επίλυση της Eξ.(5.5), τα αποτελέσματα
εξαρτώνται από τις αρχικές τιμές των ̂1 (0) και ̂ 2 (0). Να σημειωθεί ότι για αρχικές τιμές ̂1 (0)= ̂ 2 (0) η
σύγκλιση σε κάποιο σαγματικό σημείο συμβαίνει σε ένα βήμα ακριβώς, διότι για τέτοιες αρχικές τιμές ισχύει
P(ωi|xk, ̂1 (0), ̂ 2 (0)) = P(ωi). Σε μια τέτοια περίπτωση η Eξ.(5.6) υπολογίζει τη μέση τιμή όλων των
δειγμάτων για τα ̂1 (0) και ̂ 2 (0) για όλες τις επόμενες επαναλήψεις.

Περίπτωση 2: Όλες οι παράμετροι άγνωστες

Εάν τα μεγέθη i, Σi, και P(wi) είναι όλα άγνωστα, και δεν υπάρχουν περιορισμοί για τον πίνακα
συνδιασποράς, τότε η εκτίμηση μεγίστης πιθανοφάνειας θα μπορούσε να παράγει μη-αποδεκτές λύσεις, όπως
εξηγείται στο ακόλουθο παράδειγμα.

5-9
Παράδειγμα 3
Έστω p(x|μ,σ²) μιά κανονική μίξη με δύο συνιστώσες:
1  1  x   2  1  1 
p(x|μ,σ²)= exp     exp  x 2  .
2 2   2     2 2  2 
Η συνάρτηση πιθανοφάνειας n δειγμάτων που επιλέγονται σύμφωνα με την παραπάνω πυκνότητα
πιθανότητας ισούται με το γινόμενο n πυκνοτήτων p(x|μ,σ²). Θεωρήστε ότι επιλέγουμε μ= x1, έτσι ώστε:
1 1  1 
p(x1|μ,σ²)=  exp  x12  .
2 2  2 2  2 

Προφανώς για τα υπόλοιπα δείγματα ισχύει:


1  1 
p(xk|μ,σ²) ≥ exp  x k2  .
2 2  2 
Συνεπώς,
1  1  1  1 n 2
p(x1,…,xn|μ,σ²) ≥   exp  x12   exp   x k  .
  2   (2 2 ) n  2 k 2 

Έτσι, εάν το σ τείνει στο μηδέν τότε η συνάρτηση πιθανοφάνειας γίνεται απεριόριστα μεγάλη, οπότε
η λύση μέγιστης πιθανοφάνειας είναι μη-αποδεκτή. Στην πράξη εστιάζουμε την προσοχή μας στο μεγαλύτερο
από τα πεπερασμένα τοπικά ελάχιστα της συνάρτησης πιθανοφάνειας. Τελικά χρησιμοποιούμε τις εξισώσεις
(5.2) - (5.4) για να εκτιμήσουμε τα μεγέθη i, Σi, και P(wi).
Όταν περιλαμβάνουμε στοιχεία του πίνακα Σi στο διάνυσμα παραμέτρων θi, πρέπει να θυμόμαστε ότι
μόνον τα μισά των στοιχείων εκτός διαγωνίου είναι ανεξάρτητα. Επιπλέον να σημειωθεί ότι είναι πιο βολικό
να χρησιμοποιούνται τα ανεξάρτητα στοιχεία του πίνακα i1 , παρά τα αντίστοιχα του πίνακα Σi. Ο
υπολογισμός της παραγώγου της συνάρτησης:
 |  i1 |1 / 2  1 t 1
ln p(xk|wi,θi) = ln   (x k  μ i )  i (x k  μ i )
 (2 )
d /2
 2

ως προς i και i1 είναι σχετικά εύκολος. Έστω ότι xp(k) είναι το p στοιχείο του xk, μp(i) είναι το p στοιχείο
του μi, σpq(i) είναι το pq στοιχείο του Σi, και σpq(i) είναι το pq στοιχείο του i1 . Η παραγώγιση δίνει:

 i ln p(xk|wi,i) = Σ i1 (xk-i)


και
  pq 
 ln p(x k | wi , θ i )
= 1  
  pq (i)  ( x p (k )   p (i))( x q (k )   q (i))
2 

 pq
(i) 

όπου δpq είναι το δέλτα του Kronecker. Με αντικατάσταση στην Εξ.(5.3) και πράξεις καταλήγουμε στις
παρακάτω εξισώσεις για τοπικά βέλτιστες εκτιμήσεις μ̂ i , ̂ i , και Pˆ ( wi ) μεγίστης πιθανοφάνειας:

1 n
Pˆ ( wi ) =  Pˆ ( wi | x k , θ̂) (5.7)
n k 1

k 1 Pˆ (wi | x k , θˆ )x k
n

μ̂ i = (5.8)
k 1 Pˆ (wi | x k , θˆ )
n

k 1 Pˆ (wi | x k , θˆ )( x k  μˆ i )(x k  μˆ i )t
n

i1 = (5.9)
k 1 Pˆ (wi | x k , θˆ )
n

όπου:

5-10
p(x k | wi , θˆ i ) Pˆ ( wi )
Pˆ (wi | x k , θˆ ) = =
 j 1 k j j ˆ ) Pˆ ( w )
c
p ( x | w , θ j

 1 
| ˆ i | 1 / 2 exp  (x k  μˆ i ) ˆ i1 (x k  μˆ i ) Pˆ ( wi )
 2  . (5.10)
 1 ˆ
 j 1|  j | exp  2 (x k  μˆ j ) i (x k  μˆ j ) P(w j )
ˆ 1 / 2 ˆ 1
c

Από τις διάφορες τεχνικές που μπορούν να χρησιμοποιηθούν για επίλυση, η πλέον προφανής είναι να
χρησιμοποιηθούν αρχικές εκτιμήσεις των μ̂ i , ̂ i , και Pˆ ( wi ) , ώστε να υπολογιστεί μία τιμή Pˆ (wi | x k , θˆ ) από
την Εξ.(5.10), κατόπιν να χρησιμοποιηθούν οι εξισώσεις (5.7) - (5.9) για να υπολογιστούν βελτιωμένες
εκτιμήσεις των μ̂ i , ̂ i , και Pˆ ( wi ) , κ.λπ. Προφανώς τα τελικά αποτελέσματα εξαρτώνται από τις αρχικές
εκτιμήσεις που επιλέχτηκαν.

Α. Αλγόριθμος κ-μέσων
Στη συνέχεια παρουσιάζεται ένας δημοφιλής αλγόριθμος, ο οποίος χρησιμοποιείται για να απλοποιηθούν οι
παραπάνω υπολογισμοί και για να επιταχυνθεί η σύγκλιση. Ο συγκεκριμένος αλγόριθμος είναι ευρύτερα
γνωστός ως αλγόριθμος κ-μέσων (k-means algorithm), όπου κ είναι ο αριθμός των κέντρων των σμηνών
που τυπικά υπολογίζονται ως οι αντίστοιχοι μέσοι όροι (Duda κ.ά., 2001).
Από την Εξ.(5.10) είναι φανερό ότι η πιθανότητα Pˆ (wi | x k , θˆ ) είναι μεγάλη, όταν η απόσταση
1
Mahalanobis, η οποία δίδεται από την έκφραση  (x k  μˆ i )ˆ i1 (x k  μˆ i ) , είναι μικρή. Ακολουθώντας την
2
προαναφερθείσα λογική, έστω ότι υπολογίζουμε την Ευκλείδεια απόσταση ||xk- μ̂ i ||2, κατόπιν βρίσκουμε το
μέσο μ̂ που είναι κοντύτερα στο xk, τέλος προσεγγίζουμε το Pˆ (w | x , θˆ ) ως:
m i k
1, για i  m
Pˆ ( wi | x k , θˆ )   .
0, διαφορετικ ά

Υπο τις παραπάνω παραδοχές έπεται ο παρακάτω αλγόριθμος για τον υπολογισμό των μ1,μ2,…,μc.
Εδώ και στη συνέχεια χρησιμοποιούμε το γράμμα n για να συμβολίσουμε το γνωστό πλήθος των δειγμάτων
και χρησιμοποιούμε το γράμμα c για να συμβολίσουμε το γνωστό πλήθος των ομάδων.

Αλγόριθμος 1: κ-μέσων για ομαδοποίηση

1. ΕΝΑΡΞΗ: Αρχικοποίησε τα n, c, μ1, μ2,…, μc.


2. επανάλαβε κατηγοριοποίησε τα n δείγματα χρησιμοποιώντας το πλησιέστερο μi.
3. ξαναυπολόγισε τα μi.
4. μέχρι να μην αλλάζουν τα μi.
5. επίστρεψε τα μ1, μ2,…, μc.
6. ΤΕΛΟΣ.

Απουσία οποιασδήποτε σχετικής πληροφορίας ο παραπάνω αλγόριθμος ξεκινάει με έναν αριθμό c


ομάδων που ορίζεται από το χρήστη. Η πολυπλοκότητα του αλγόριθμου κ-μέσων είναι O(ndcT), όπου d είναι
ο αριθμός γνωρισμάτων (δηλ. η διάσταση ενός διανύσματος δείγματος) και T είναι ο αριθμός των
επαναλήψεων. Στην πράξη το T είναι συνήθως σημαντικά μικρότερο από τον αριθμό n των δειγμάτων.
Ο αλγόριθμος κ-μέσων έχει παρουσιαστεί παραπάνω ως μια προσεγγιστική τεχνική για τον
υπολογισμό εκτιμήσεων μέγιστης πιθανοφάνειας. Σημειώστε ότι ο αλγόριθμος κ-μέσων μπορεί επίσης να
ερμηνευτεί ως ένας αλγόριθμος επαναληπτικής βελτιστοποίησης, διότι σε κάθε βήμα του μειώνει το ελάχιστο
τετραγωνικό σφάλμα. Σημειωτέον, επίσης, ότι τα διανύσματα μ1, μ2,…, μc του αλγόριθμου κ-μέσων
μπορούμε είτε να τα θεωρήσουμε ως την τελική απάντηση, είτε να τα θεωρήσουμε ως νέα σημεία εκκίνησης
για αναζήτηση ακριβέστερων λύσεων.

5-11
Β. Αλγόριθμος Ασαφών κ-μέσων
Στον κλασικό αλγόριθμο κ-μέσων, κάθε δεδομένο υποτίθεται ότι ανήκει ακριβώς σε μια ομάδα. Σ’ αυτήν την
ενότητα θεωρούμε ότι κάθε δεδομένο μπορεί να ανήκει σε περισσότερες από μια ομάδες, για την ακρίβεια
θεωρούμε ότι κάθε δεδομένο χαρακτηρίζεται από ένα βαθμό ασαφούς συμμετοχής σε περισσότερες από μια
ομάδες. Οι προαναφερθέντες βαθμοί ασαφούς συμμετοχής θα είναι οι πιθανότητες Pˆ (wi | x k , θˆ ) , όπως
φαίνονται στην Εξ.(5.10), όπου θ̂ είναι το διάνυσμα παραμέτρων των ασαφών συναρτήσεων συμμετοχής.
Ο αλγόριθμος ασαφών κ-μέσων (fuzzy k-means algorithm) (Duda κ.ά., 2001) επιδιώκει την
ελαχιστοποίηση της ακόλουθης συνάρτησης κόστους:
c n
Jfuz= [ Pˆ (wi | x j , θˆ )]b || x j  μ i ||2
i 1 j 1

όπου b είναι μια ελεύθερη παράμετρος που ρυθμίζει την ανάμιξη των διαφόρων ομάδων.
Οι πιθανότητες συμμετοχής στις ομάδες κανονικοποιούνται με τέτοιο τρόπο ώστε το συνολικό
άθροισμα να είναι μηδέν:
c
 Pˆ (wi | x j )  1 , j = 1,…,n, (5.11)
i 1

όπου για λόγους απλότητας δεν παρουσιάζεται η συναρτησιακή εξάρτηση από το θ̂ . Επιπλέον, στη συνέχεια
θα χρησιμοποιήσουμε το απλούστερο σύμβολο P̂j αντί του συμβόλου Pˆ ( w j ) . Τότε, σε (τοπικό) ελάχιστο της
συνάρτησης Jfuz θα ισχύουν:
J fuz J fuz
0 και 0,
i Pˆj
οπότε τελικά προκύπτουν οι παρακάτω λύσεις:

 j 1[ Pˆ (wi | x j )]b x j


n

i  , (5.12)
 j 1[ Pˆ (wi | x j )]b
n

(1 / d ij )1 /(b 1)
Pˆ ( wi | x j )  και dij = ||xj-μi||2. (5.13)
 (1 / d rj )1 /(b 1)
c
r 1
Επειδή οι εξισώσεις (5.12) και (5.13) σπάνια έχουν αναλυτικές λύσεις, τα κέντρα των ομάδων καθώς
και οι προγενέστερες πιθανότητες υπολογίζονται επαναληπτικά σύμφωνα με τον παρακάτω αλγόριθμο.

Αλγόριθμος 2: Ασαφών κ-μέσων για ομαδοποίηση


1. ΕΝΑΡΞΗ: Αρχικοποίησε τα n, c, b, μ1, μ2,…, μc, Pˆ (wi | x j ) , i=1,…c; j=1,…,n.
2. κανονικοποίησε τα Pˆ (wi | x j ) μέσω της Εξ.(5.11).
3. επανάλαβε ξανα-υπολόγισε τα μi μέσω της Εξ.(5.12).
4. ξαναυπολόγισε τα Pˆ (wi | x j ) μέσω της εξίσωσης Εξ.(5.13).
5. μέχρι να μην αλλάζουν (αισθητά) τα μi και Pˆ (wi | x j ) .
6. επίστρεψε τα μ1, μ2,…, μc.
7. ΤΕΛΟΣ.

Προφανώς, ο κλασικός αλγόριθμος κ-μέσων είναι μια ειδική περίπτωση, όπου οι συναρτήσεις
συμμετοχής όλων των σημείων ικανοποιούν την παρακάτω σχέση:

1 εαν || x j - μi |||| x j - μi ||, i   i


P(wi|xj) =  ,
0 διαφορετικά

όπως δίνεται από την Εξ.(5.5).

5-12
Η χρήση πιθανοτήτων, ως ασαφών βαθμών συμμετοχής, μερικές φορές βελτιώνει τη σύγκλιση του
αλγόριθμου σε σχέση τον κλασικό αλγόριθμο κ-μέσων. Ένα μειονέκτημα του αλγόριθμου, όπως φαίνεται και
στην Εξ.(5.11), είναι ότι η πιθανότητα συμμετοχής ενός σημείου xj σε ένα σμήνος i εξαρτάται από τον αριθμό
των σμηνών, οπότε όταν ο προαναφερθείς αριθμός υπολογίζεται λανθασμένα, τότε προκύπτουν σοβαρά
προβλήματα.

5.2.4 Ομαδοποίηση με τον τύπο του Bayes


Οι τεχνικές μέγιστης πιθανοφάνειας δε θεωρούν ότι το διάνυσμα  των παραμέτρων είναι μια τυχαία
μεταβλητή, απλώς το θεωρούν άγνωστο. Σε τέτοιες τεχνικές προγενέστερη γνώση σχετικά με τις ενδεχόμενες
τιμές του  δεν είναι άμεσα χρησιμοποιήσιμη, αν και στην πράξη προγενέστερη γνώση για το  μπορεί να
χρησιμοποιηθεί για την επιλογή «καλών σημείων» εκκίνησης τεχνικών αναρρίχησης.

Α. Κατηγοριοποιητής Bayes
Σ’ αυτήν την ενότητα θα προσεγγίσουμε το πρόβλημα της ομαδοποίησης με χρήση του τύπου του Bayes
(Looney, 1997). Συγκεκριμένα, εδώ θα θεωρήσουμε ότι το διάνυσμα  είναι μια τυχαία μεταβλητή με γνωστή
προγενέστερη πυκνότητα πιθανότητας p() και θα χρησιμοποιήσουμε τα δεδομένα εκπαίδευσης στο σύνολο
D για να υπολογίσουμε τη μεταγενέστερη πυκνότητα πιθανότητας p(|D).

Στη συνέχεια συνοψίζουμε όλες τις παραδοχές:

1) Ο αριθμός c των ομάδων είναι γνωστός.


2) Οι προγενέστερες πιθανότητες P(wj) των ομάδων είναι γνωστές, j=1,…,c.
3) Οι μορφές των δεσμευμένων πυκνοτήτων πιθανότητας p(x|wj, θj), j=1,…,c είναι γνωστές, αλλά το
ακριβές διάνυσμα παραμέτρων θ=(θ1,…,θc)t είναι άγνωστο.
4) Μέρος της προγενέστερης γνώσης για το διάνυσμα παραμέτρων  εστιάζεται στη γνώση της
προγενέστερης πυκνότητας πιθανότητας p().
5) Το υπόλοιπο της γνώσης μας για το διάνυσμα παραμέτρων  εστιάζεται στο σύνολο D με n δείγματα
x1,…,xn που επιλέχθηκαν ανεξάρτητα από τη γνωστή μίξη πυκνότητας:
c
p(x|θ)=  p(x|wj,θj)P(wj).
j 1

Η μεταγενέστερη πυκνότητα πιθανότητας p(|D) χρησιμοποιείται από τον κατηγοριοποιητή Bayes


P(wj|x,D) όπως παρουσιάζεται στη συνέχεια.
Έστω ότι οι πιθανότητες P(wi) των ομάδων είναι γνωστές και, επιπλέον, ένα διάνυσμα x επιλέγεται
σύμφωνα με τον νόμο p(x|wi,θi). Εφαρμόζοντας τον τύπο του Bayes παίρνουμε το παρακάτω αποτέλεσμα:
p(x| wi ,D) P( wi | D)
P( wi | x,D)  .

c
j 1
p ( x| w j , D ) P ( w j | D)

Επειδή οι πιθανότητες P(wi) των ομάδων είναι ανεξάρτητες από την επιλογή του συνόλου D των
δειγμάτων, δηλ. P(wi|D) = P(wi), έπεται ο ακόλουθος απλούστερος τύπος για τον κατηγοριοποιητή Bayes:

p(x| wi ,D) P( wi )
P( wi | x,D)  . (5.14)

c
j 1
p ( x| w j , D ) P ( w j )

Για τον παραπάνω υπολογισμό είναι απαραίτητη η ποσότητα p(x|wi,D), η οποία υπολογίζεται ως:
p(x|wi,D)=  p(x, θ | wi , D)dθ =  p(x | θ, wi , D) p(θ | wi , D)dθ .

5-13
Σ’ αυτό το σημείο δύο απλοποιήσεις είναι δυνατές. Πρώτον, η επιλογή του x είναι ανεξάρτητη από το
δείγμα D, συνεπώς p(x|θ,wi,D) = p(x|wi,θi). Δεύτερον, γνώση για τις κατηγορίες όταν το x επιλέγεται δε δίνει
καμιά πληροφορία για την κατανομή του θ, συνεπώς p(θ|wi,D) = p(θ|D). Οπότε τελικά προκύπτει:

p(x|wi,D)=  p(x | wi , θi ) p(θ | D)dθ . (5.15)

Δηλαδή, η καλύτερη εκτίμηση για το p(x|wi) υπολογίζεται ως ο μέσος όρος του p(x|wi,θi) ως προς το
θi. Το πόσο καλή είναι η προηγούμενη εκτίμηση εξαρτάται από τη συνάρτηση p(|D). Στη συνέχεια
μελετούμε τον υπολογισμό του p(|D).

Β. Μαθαίνοντας το διάνυσμα παραμέτρων θ


Από τον τύπο του Bayes προκύπτει το παρακάτω αποτέλεσμα

p( D | θ ) p(θ )
p(|D)= . (5.16)
 p( D| θ ) p(θ )dθ
Η ανεξαρτησία των δειγμάτων συνεπάγεται την ακόλουθη συνάρτηση πιθανοφάνειας:

n
p(D|)=  p ( x k | θ) .
k 1

Συνεπώς, εάν Dn συμβολίζει το σύνολο των n δειγμάτων, η Εξ.(5.16) μπορεί να γραφεί στην
παρακάτω επαναληπτική μορφή:

p(x n | θ ) p(θ | D n-1 )


p(|Dn)= .
 p(x n | θ ) p(θ | D
n-1
)dθ

Οι παραπάνω είναι οι βασικές εξισώσεις για μάθηση /ομαδοποίηση τύπου Bayes. Η Εξ.(5.16) δείχνει
τη σχέση ανάμεσα στη λύση Bayes και στη λύση με εκτίμηση μέγιστης πιθανοφάνειας. Ας υποθέσουμε ότι η
πιθανότητα p() είναι κατά προσέγγιση ομοιόμορφη στην περιοχή όπου η συνάρτηση πιθανοφάνειας p(D|)
μεγιστοποιείται. Τότε η p(|D) μεγιστοποιείται στο ίδιο σημείο. Εάν το μόνο σημαντικό μέγιστο συμβαίνει
στο σημείο θ = θ̂ και εάν, επιπλέον, η μέγιστη κορυφή είναι πολύ απότομη, τότε η Εξ.(5.15) συνεπάγεται:

p(x|wi,D)  p(x|wi, θ̂ ),

ενώ η Εξ.(5.14) συνεπάγεται

p(x| w i ,θˆ i ) P ( w i )
P( w i | x,D)  .
 p(x| w j ,θˆ i ) P (w j )
c
j 1

Συνεπώς, υπό τις προαναφερθείσες συνθήκες, επιτρέπεται η χρήση της εκτίμησης μέγιστης
πιθανοφάνειας θ̂ σαν λύση με κατηγοριοποιητή τύπου Bayes.
Στο όριο για μεγάλο αριθμό δεδομένων η τεχνική μέγιστης πιθανοφάνειας και η μέθοδος Bayes
δίνουν τα ίδια (ή σχεδόν τα ίδια) αποτελέσματα, ενώ για μικρό αριθμό δεδομένων τα σχετικά αποτελέσματα
μπορεί να είναι διαφορετικά. Το τελευταίο οφείλεται στο ότι η τεχνική μέγιστης πιθανοφάνειας στοχεύει στον
υπολογισμό ενός ολικού μέγιστου θ̂ , ενώ η μέθοδος του Bayes υπολογίζει το ολοκλήρωμα επάνω σε όλο το
πεδίο ορισμού της παραμέτρου θ. Από υπολογιστική άποψη η τεχνική μέγιστης πιθανοφάνειας εφαρμόζεται,
συνήθως, ευκολότερα από τη μέθοδο του Bayes.

5-14
5.3 Τεχνικές της Θεωρίας Τεκμηρίων
Η θεωρία τεκμηρίων (evidence theory) προτάθηκε για το συγκερασμό διαφορετικών εκτιμήσεων
εμπειρογνωμόνων σε μια μόνο εκτίμηση με σκοπό τη λήψη μιας απόφασης, η οποία συνυπολογίζει με
ουσιαστικό τρόπο τις διαφορετικές εκτιμήσεις από τις οποίες προέκυψε. Για παράδειγμα, θεωρήστε ότι ένας
ασθενής λαμβάνει τις ακόλουθες εκτιμήσεις (βλ. γνώμες) δύο διαφορετικών γιατρών: Ο γιατρός-1 τον
πληροφορεί ότι πάσχει μόνον από την ασθένεια Α με πιθανότητα 60% ή μόνον από την ασθένεια Β με
πιθανότητα 30% ή μόνον από την ασθένεια Γ με πιθανότητα 10%. Ο γιατρός-2 τον πληροφορεί ότι πάσχει
μόνον από την ασθένεια Α με πιθανότητα 30% ή μόνον από την ασθένεια Β με πιθανότητα 20% ή μόνον από
την ασθένεια Γ με πιθανότητα 50%. Ο ασθενής οφείλει ο ίδιος να αποφασίσει ποια θεραπευτική αγωγή θα
ακολουθήσει. Η θεωρία τεκμηρίων προτείνει έναν τρόπο συγκερασμού των διαφορετικών εκτιμήσεων
(γνωμών) των ειδικών γιατρών ώστε να προκύψει μια μόνο εκτίμηση, βάσει της οποίας ο ασθενής θα λάβει
την τελική απόφαση.
Όταν πρόκειται για ένα τόσο σοβαρό θέμα όσο είναι η υγεία, το πιθανότερο είναι ότι οι περισσότεροι
άνθρωποι θα αναζητήσουν την γνώμη γιατρών που εμπιστεύονται, παρά θα καταφύγουν στη θεωρία
τεκμηρίων. Ωστόσο η θεωρία τεκμηρίων μπορεί να είναι πολύ χρήσιμη σε άλλες περιπτώσεις, όπως η
ακόλουθη. Έστω ότι κάποιο (ημι-)αυτόνομο ρομπότ, εφοδιασμένο με διάφορους ηλεκτρονικούς αισθητήρες,
πρέπει συχνά να αποφασίζει μόνο του τις πράξεις του στη βάση των δεδομένων από τους αισθητήρες του.
Έστω ότι, αναλόγως με το τι βρίσκεται εμπρός του, το ρομπότ θα κινηθεί είτε δεξιά είτε αριστερά. Υποθέστε,
όμως, ότι στη βάση των δεδομένων από διαφορετικούς ηλεκτρονικούς αισθητήρες το ρομπότ υπολογίζει μία
σημαντικά διαφορετική εκτίμηση ανά ηλεκτρονικό αισθητήρα σχετικά με το τι ακριβώς βρίσκεται εμπρός
του. Η θεωρία τεκμηρίων μπορεί, στη βάση όλων των διαθέσιμων (διαφορετικών) εκτιμήσεων, να υπολογίσει
μία μόνον εκτίμηση. Στη συνέχεια περιγράφεται η θεωρία τεκμηρίων και δίδονται παραδείγματα χρήσης της.

5.3.1 Θεωρία Τεκμηρίων


Η θεωρία τεκμηρίων είναι επίσης γνωστή με εναλλακτικά ονόματα, όπως θεωρία συναρτήσεων πεποίθησης
(theory of belief functions) καθώς και ως θεωρία των Dempster-Shafer από τα ονόματα των μαθηματικών
που την πρότειναν (Dempster, 1967· Shafer, 1976). Ακολουθεί η μαθηματική περιγραφή της.
Έστω X ένα σύνολο αναφοράς και 2X το αντίστοιχο δυναμοσύνολο (power set). Ορίζουμε συνάρτηση
m: 2 [0,1] με το όνομα συνάρτηση μάζας (mass function) ή, εναλλακτικά, ανάθεση βασικής πεποίθησης
X

(basic belief assignment) ή ανάθεση μάζας πιθανότητας (probability mass assignment), με τις ακόλουθες
δύο ιδιότητες:
Β1. m() = 0, και
Β2. 
A X
m( A)  1 .

Η ιδιότητα Β1 απαιτεί το κενό σύνολο () να έχει μάζα ίση με μηδέν, ενώ η ιδιότητα Β2 απαιτεί το
συνολικό άθροισμα όλων των μαζών να ισούται με ένα. Σημειώστε ότι η μάζα m(A) του υποσυνόλου AX
εκφράζει την πεποίθηση ότι η πραγματική κατάσταση ανήκει στο σύνολο A και όχι σε κάποιο συγκεκριμένο
υποσύνολο του A.

Δύο χρήσιμες συναρτήσεις ορίζονται στη συνέχεια:


1) Η συνάρτηση bel: 2X[0,1] πεποίθησης (belief) ορίζεται ως bel(A)= 
B| B  A
m( B) , και

2) Η συνάρτηση pl: 2X[0,1] λογικοφάνειας (plausibility) ορίζεται ως pl(A)= 


B| B  A
m( B) .

Οι δύο προαναφερθείσες συναρτήσεις συνδέονται με τη σχέση: pl(A) + bel(A) = 1, όπου A= X\A
είναι το συμπλήρωμα (complement) του Α. Η συνάρτηση πεποίθησης bel(.) μπορεί να υπολογιστεί από τις
μάζες σύμφωνα με τον παραπάνω ορισμό της. Αντιστρόφως, για πεπερασμένο A η συνάρτηση μάζας m(.)
μπορεί να υπολογιστεί ως ακολούθως:

m(A) =  (1)
B| B  A
| A  B|
bel( B) ,

όπου |A-B| ισούται με τη διαφορά της πληθικότητας των δύο συνόλων A και B.

5-15
Το ακόλουθο απλό παράδειγμα δείχνει τον υπολογισμό των συναρτήσεων πεποίθησης και
λογικοφάνειας δοθείσης της συνάρτησης μάζας.

Παράδειγμα 4
Ένας αυτόπτης μάρτυρας καταθέτει με απόλυτη βεβαιότητα, ότι το χρώμα ενός αυτοκινήτου ήταν είτε
πράσινο, είτε μπλε, αλλά δεν είναι σίγουρος. Την ανάθεση βασικής πεποίθησής του (βλ. συνάρτηση μάζας)
την όρισε όπως φαίνεται στον ακόλουθο Πίνακα, όπου οι τιμές των συναρτήσεων πεποίθησης και
λογικοφάνειας υπολογίστηκαν από τους αντίστοιχους μαθηματικούς τύπους.

Τιμή συνάρτησης
μάζας πεποίθησης λογικοφάνειας
κανένα χρώμα 0 0 0
πράσινο 0.2 0.2 0.5
μπλέ 0.5 0.5 0.8
πράσινο ή μπλέ 0.3 1.0 1.0

Πίνακας 5.3 Τιμές συναρτήσεων μάζας, πεποίθησης και λογικοφάνειας.

Από τα προηγούμενα συμπεραίνουμε ότι για πεπερασμένο σύνολο αναφοράς X, αρκεί να γνωρίζουμε
μόνο μία από τις τρεις συναρτήσεις μάζα, πεποίθηση και λογικοφάνεια, προκειμένου να υπολογίσουμε τις
άλλες δύο συναρτήσεις. Έχει αποδειχθεί μαθηματικά ότι ισχύει η ανισότητα: bel(A)  pl(A). Επιπλέον, έχει
συμφωνηθεί ότι η (κλασική) πιθανότητα P(A) επαληθεύει την ανισότητα: bel(A)  P(A)  pl(A).
Σε κάποιες περιπτώσεις, δύο διαφορετικές πηγές (π.χ. εμπειρογνώμονες ή/και ηλεκτρονικά
αισθητήρια όργανα) προτείνουν διαφορετικές συναρτήσεις μάζας. Σε μια τέτοια περίπτωση, και προκειμένου
να μπορέσουμε να λάβουμε μια απόφαση, οι δύο διαφορετικές συναρτήσεις μάζας συγχωνεύονται σε μία
συνάρτηση με το συνδυαστικό κανόνα του Dempster, όπως περιγράφεται στη συνέχεια.
Έστω m1: 2X[0,1] και m2: 2X[0,1] δύο συναρτήσεις μαζών. Ο συνδυαστικός κανόνας του
Dempster (Dempster’s rule of combination) υπολογίζει την από κοινού συνάρτηση μάζας (joint mass
function) m1,2= m1m2: 2X[0,1] έτσι, ώστε:
1) m1,2() = 0, και
1
2) m1,2(A) = (m1m2)(A) =  m1 ( B)m2 (C ) , όπου K  B
1  K B C  A C 
m1 ( B)m2 (C ) .

Το νόημα του παραπάνω συντελεστή κανονικοποίησης 1-Κ είναι να προκύψει μια συνάρτηση η
οποία ικανοποιεί τις δύο ιδιότητες Β1 και Β2 του ορισμού μιας συνάρτησης μάζας. Το ακόλουθο παράδειγμα
δείχνει πως ο συνδυαστικός κανόνας του Dempster οδηγεί σε «διαισθητικά» αποτελέσματα.
Υποθέστε ότι η Ελένη και ο Πάρης αποφασίζουν να παρακολουθήσουν μια ταινία επιλέγοντας από
συνολικά τρεις ταινίες Χ, Υ και Ζ που υπάρχουν. Η Ελένη εκφράζει την επιθυμία να παρακολουθήσει την
ταινία Χ με βεβαιότητα 99% και την ταινία Υ με βεβαιότητα 1%, ενώ ο Πάρης εκφράζει την επιθυμία να
παρακολουθήσει την ταινία Ζ με βεβαιότητα 99% και την ταινία Υ με βεβαιότητα 1%. Όταν συνδυάσουμε τις
επιθυμίες των δύο με το συνδυαστικό κανόνα του Dempster προκύπτουν μόνον τέσσερις μη-μηδενικοί όροι
που είναι οι ακόλουθοι (1) m1({X})m2({Y})= (m1m2)({})= (0.99)(0.01), (2) m1({X})m2({Z})=
(m1m2)({})= (0.99)(0.99), (3) m1({Y})m2({Y})= (m1m2)({Y})= (0.01)(0.01), και (4) m1({Y})m2({Z})=
(0.01)(0.01)
(m1m2)({})= (0.01)(0.99). Έπεται Κ= (1.01)(0.99), άρα (m1m2)({Y})= = 1. Με άλλα λόγια,
1  (1.01)(0.99)
η ταινία Υ τελικά επιλέγεται με βεβαιότητα 100%. Αυτό το αποτέλεσμα θεωρείται «διαισθητικό», διότι αυτή
είναι η ταινία την οποία συμφωνούν και οι δύο να παρακολουθήσουν.
Ωστόσο, ο συνδυαστικός κανόνας του Dempster δέχτηκε σοβαρή κριτική, διότι μπορεί να οδηγήσει
σε «μη-διαισθητικά» αποτελέσματα, όπως δείχνει και το ακόλουθο παράδειγμα. Έστω ότι ένας ασθενής
συμβουλεύεται δύο εξίσου αξιόπιστους γιατρούς. Ο πρώτος γιατρός εκτιμά ότι ο ασθενής είτε έχει κακοήθη
όγκο στον εγκέφαλο (με βεβαιότητα 99%), είτε πάσχει από μηνιγγίτιδα (με βεβαιότητα 1%), ενώ ο δεύτερος

5-16
γιατρός εκτιμά ότι ο ασθενής είτε έχει πάθει εγκεφαλική διάσειση (με βεβαιότητα 99%), είτε πάσχει από
μηνιγγίτιδα (με βεβαιότητα 1%). Εφαρμόζοντας το συνδυαστικό κανόνα του Dempster προκύπτει με
βεβαιότητα 100% ότι ο ασθενής πάσχει από μηνιγγίτιδα. Το προαναφερθέν αποτέλεσμα θεωρείται «μη-
διαισθητικό», διότι αν και οι δύο γιατροί συμφωνούν ότι το ενδεχόμενο μηνιγγίτιδας είναι αμελητέο,
εντούτοις ο συνδυαστικός κανόνας του Dempster μας οδηγεί στο συμπέρασμα ότι ο ασθενής πάσχει από
μηνιγγίτιδα με 100% βεβαιότητα.
Ένας τρόπος αποφυγής «μη-διαισθητικών» αποτελεσμάτων είναι να ερμηνεύεται ο συνδυαστικός
κανόνας του Dempster ως μια μέθοδος συγκερασμού περιορισμών στις πεποιθήσεις (Jøsang & Simon, 2012).
Έχει υποστηριχτεί η άποψη ότι η θεωρία τεκμηρίων των Dempster & Shafer είναι μια γενίκευση της
θεωρίας πιθανοτήτων (και τελικά του τύπου του Bayes), όπως εξηγείται στη συνέχεια. Θα γνωρίσουμε στην
ενότητα 7.3.2 ότι ένας χώρος πιθανότητας (probability space) επαληθεύει τις ιδιότητες Β1 και Β2 μιας
συνάρτησης μάζας. Επιπλέον, ένας χώρος πιθανότητας απαιτεί την ισότητα m(A) + m(A) = 1, ενώ μια
συνάρτηση μάζας δεν έχει τέτοια απαίτηση. Ο πρακτικός αντίκτυπος φαίνεται στο ακόλουθο παράδειγμα.
Έστω ότι το ενδεχόμενο χρώμα ενός αυτοκίνητου ανήκει αποκλειστικά στο σύνολο {κόκκινο,
πράσινο, μπλε} και κάποιος αυτόπτης μάρτυρας καταθέτει ότι το χρώμα του αυτοκίνητου είναι είτε πράσινο,
είτε μπλε. Από τη μια μεριά, το πιθανοτικό μοντέλο απαιτεί την ισότητα «πιθανότητα(πράσινο ή μπλε) =
πιθανότητα(πράσινο) + πιθανότητα(μπλε)», ενώ από την άλλη μεριά, για το μοντέλο πεποιθήσεων μπορεί να
ισχύει είτε η ισότητα «πιθανότητα(πράσινο ή μπλε) = πιθανότητα(πράσινο) + πιθανότητα(μπλε)», είτε η
ανισότητα «πιθανότητα(πράσινο ή μπλε) ≠ πιθανότητα(πράσινο) + πιθανότητα(μπλε)». Σε κάθε περίπτωση η
θεωρία τεκμηρίων θα πρέπει να χρησιμοποιείται προσεκτικά.
Μια συνάρτηση μάζας m: 2X[0,1] τυπικά ορίζεται πάνω στο δυναμοσύνολο πλέγμα (2X,) ενός
γενικού συνόλου αναφοράς X. Σημειώστε ότι έχουν προταθεί επεκτάσεις της θεωρίας τεκμηρίων,
μαθηματικού κυρίως ενδιαφέροντος, όπου μια συνάρτηση μάζας m: L[0,1] ορίζεται σε γενικό πλέγμα (L,⊑)
έτσι, ώστε ο συνδυαστικός κανόνας του Dempster να ισχύει (Grabisch, 2009).

Ερωτήσεις Κατανόησης και Ασκήσεις


5.1) Θεωρήστε ότι επιλέγονται τυχαία σημεία στο επίπεδο μέσα στο μοναδιαίο τετράγωνο σύμφωνα με
την ομοιόμορφη κατανομή πιθανότητας. Έστω το ορθογώνιο παραλληλόγραμμο R=
[0.2,0.7][0.5,0.8] στο παρακάτω σχήμα.
(α) Υπολογίστε τον ελάχιστο αριθμό (m) σημείων που θα πρέπει να επιλεγούν, ώστε με πιθανότητα
τουλάχιστον 99% να προσεγγιστεί το R με σφάλμα το πολύ 1%.
(β) Για τον προαναφερθέντα αριθμό (m) σημείων υπολογίστε το αντίστοιχο ορθογώνιο
παραλληλόγραμμο R.

0.8
R

0.5

0.2 0.7 1

5-17
5.2) Να αποδειχθεί ότι εάν η συνάρτηση πιθανοφάνειας είναι παραγωγίσιμη, και εάν Pˆ ( wi ) ≠0 για όλα
τα i, τότε Pˆ ( wi ) και θ̂ i ικανοποιούν τις ισότητες Εξ.(5.2) και Εξ.(5.3)
1 x
5.3) Στο Παράδειγμα 1 δείγματα επιλέγονται σύμφωνα με τη μίξη πυκνότητας P(x|θ)= θ (1-1)1-x +
2 1
 1
1 x  (θ 1  θ 2 ) if x  1
θ 2 (1-2) =  2
1-x
, με P(x=1|θ) = 0.6 και τελικά επισημάνθηκε ότι «το
2 1
1  (θ 1  θ 2 ) if x  0
 2
περισσότερο που μπορούμε να πούμε για το θ είναι θ1+θ2=1.2». Πώς αιτιολογείτε την
προαναφερθείσα επισήμανση;
5.4) Να αναπτυχθεί στο MATLAB ο κατάλληλος κώδικας που υλοποιεί τον αλγόριθμο κ-μέσων.
5.5) Να αναπτυχθεί στο MATLAB ο κατάλληλος κώδικας που υλοποιεί τον αλγόριθμο ασαφών κ-
μέσων.
5.6) Έστω ότι το ενδεχόμενο χρώμα ενός αυτοκίνητου ανήκει αποκλειστικά στο σύνολο {(Κ)όκκινο,
(Π)ράσινο, (Μ)πλε}. Δύο αυτόπτες μάρτυρες καταθέτουν αντικρουόμενες μαρτυρίες δίνοντας δύο
διαφορετικές συναρτήσεις μάζας όπως φαίνεται στον ακόλουθο Πίνακα.
Χρησιμοποιήστε το συνδυαστικό κανόνα του Dempster για να υπολογίσετε την από κοινού
συνάρτηση μάζας m1,2= m1m2. Ποια είναι η πιθανότερη εκδοχή χρώματος του αυτοκινήτου
σύμφωνα με τη συνάρτηση μάζας m1,2;

Δυνατές καταθέσεις Συναρτήσεις μάζας


m1 (μάρτυρα-1) m2 (μάρτυρα-2)
{} 0 0
{Κ} 0.05 0.15
{Π} 0 0
{Μ} 0.05 0.05
{Κ, Π} 0.15 0.05
{Κ, Μ} 0.10 0.20
{Π, Μ} 0.05 0.05
{Κ, Π, Μ} 0.60 0.50

5-18
Βιβλιογραφία
Breiman, L. (1996). Bagging Predictors. Machine Learning, 24(2), 123-140.
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32.
Breiman, L., Friedman, J.H., Olshen, R.A. & Stone, C.J. (1998). Classification and Regression Trees. Boca
Raton, FL: Chapman & Hall /CRC.
Dempster, A.P. (1967). Upper and lower probabilities induced by a multivalued mapping. The Annals of
Mathematical Statistics, 38(2), 325–339.
Duda, R., Hart, P.E. & Stork, D.G. (2001). Pattern Classification (2nd edition). New York, NY: Wiley & Sons
– A Wiley-Interscience Publication.
Freund, Y. & Schapire, R.E. (1997). A decision-theoretic generalization of on-line learning and an application
to boosting. J. of Computer and System Sciences, 55, 119-139.
Freund, Y. & Schapire, R.E. (1999). A short introduction to boosting. J. Japan Soc. Artificial Intelligence,
14(5), 771-780.
Grabisch, M. (2009). Belief functions on lattices. International Journal of Intelligent Systems, 24(1), 76-95.
Ho, T.K. (1998). The Random Subspace Method for Constructing Decision Forests. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 20(8), 832–844.
Jain, A.K., Duin, R.P.W. & Mao, J. (2000). Statistical pattern recognition: a review. IEEE Transactions on
Pattern Analysis Machine Intelligence, 22(1), 4-37.
Jøsang, A. & Simon, P. (2012). Dempster's rule as seen by little colored balls. Computational Intelligence,
28(4), 453-474.
Kearns, M.J. & Vazirani, U.V. (1994). An Introduction to Computational Learning Theory. Cambridge, MA:
The MIT Press.
Kearns, M., Li, M. & Valiant, L. (1994) Learning Boolean formulas. Journal of the Association of Computing
Machinery, 41(6), 1298-1328.
Kittler, J., Hatef, M., Duin, R.P.W. & Matas, J. (1998). On combining classifiers. IEEE Transactions on
Pattern Analysis Machine Intelligence, 20(3), 226-239.
Kuncheva, L.I. (1996). On the equivalence between fuzzy and statistical classifiers. Intl. J. Uncertainty,
Fuzziness and Knowledge-Based Systems, 4(3), 245-253.
Kuncheva, L.I. (2004). Combining Pattern Classifiers: Methods and Algorithms. Cambridge, UK: Wiley-
Interscience.
Long, P.M. & Tan, L. (1998). PAC learning axis-aligned rectangles with respect to product distributions from
multiple-instance examples. Machine Learning, 30(1), 7-21.
Looney, C.G. (1997). Pattern Recognition Using Neural Networks. New York, NY: Oxford University Press.
Opitz, D. & Maclin, R. (1999). Popular ensemble methods: an empirical study. J. Artificial Intelligence
Research, 11, 169-198.
Pearson, K. (1894). Contributions to the mathematical theory of evolution. Phil. Trans. Roy. Soc. London A,
185, 71-110.
Schapire, R.E. (1990). The strength of weak learnability. Machine Learning, 5(2), 197-227.
Shafer, G. (1976). A Mathematical Theory of Evidence. Princeton, NJ: Princeton University Press.
Tuia, D., Volpi, M., Copa, L., Kanevski, M. & Muñoz-Marí, J. (2011). A survey of active learning algorithms
for supervised remote sensing image classification. IEEE Journal of Selected Topics in Signal
Processing, 5(3), 606-617.
Valiant, L.G. (1984). A theory of the learnable. Comm ACM, 27(11), 1134-1142.
Vapnik, V.N. (1999). An overview of statistical learning theory. IEEE Transactions on Neural Networks,
10(5), 988-999.
Zhou, Z.-H. (2012). The term boosting refers to a family of algorithms that are able to convert weak learners
to strong learners. Ensemble Methods: Foundations and Algorithms (p. 23). Boca Raton, FL: Chapman
& Hall /CRC.

5-19
Κεφάλαιο 6: Μεθοδολογίες με Γράφους
Σε πολλές περιπτώσεις στα δεδομένα του προβλήματος υπάρχει δομή η οποία μπορεί να αναπαρασταθεί με
έναν γράφο. Απόψεις της κλασικής θεωρίας γράφων (graph theory) παρουσιάζονται από το Μανωλόπουλο
(2000). Στο πλαίσιο αυτού του βιβλίου ένας γράφος μπορεί να μελετηθεί ως μια δυαδική σχέση RP2 στο
Καρτεσιανό γινόμενο PP, όπως περιγράφεται στο Παράρτημα του Κεφαλαίου 7. Στο προαναφερθέν πλαίσιο
σημειώστε ότι ένα πλέγμα, ως μια συγκεκριμένη δυαδική σχέση εφοδιασμένη με χρήσιμα μαθηματικά
εργαλεία, μπορεί να χρησιμοποιηθεί για μελέτη ειδικών κατηγοριών γράφων, π.χ. δένδρων, όπως
περιγράφεται στο Κεφάλαιο 7. Στη συνέχεια παρουσιάζονται επιλεγμένες μεθοδολογίες με γράφους.

6.1 Δίκτυα Bayes


Ο όρος δίκτυα Bayes (ΔΒ) (Bayesian networks (BNs)) προτάθηκε από τον Pearl (1985). Λίγα χρόνια
αργότερα τα ΔΒ αναγνωρίζονταν ως ένα ώριμο πεδίο μελέτης (Neapolitan, 1989· Pearl, 1988). Τα ΔΒ είναι
εναλλακτικά γνωστά με ονόματα ως δίκτυα πεποίθησης (belief networks) καθώς και ως πιθανοτικά μοντέλα
κατευθυνόμενων ακυκλικών γράφων (ΚΑΓ) (directed acyclic graphs (DAGs)) (Edwards, 2000· Jordan &
Sejnowski, 2001). Οι κόμβοι του ΚΑΓ αναπαριστούν τυχαίες μεταβλητές, ενώ οι σύνδεσμοι αναπαριστούν
εξαρτήσεις μεταξύ των μεταβλητών. Σημειώστε ότι δίκτυα (βλ. γράφοι) που αποκλειστικά περιλαμβάνουν
μη-κατευθυνόμενους συνδέσμους καλούνται δίκτυα Markov (ΔΜ) (Markov networks (MNs)).
Ένα απλό ΔΒ παρουσιάζεται στο Σχήμα 6.1, όπου θεωρείται ότι ένας άνθρωπος μπορεί να υποφέρει
από τραύμα στη μέση, γεγονός που αναπαρίσταται με τη μεταβλητή Μέση (Μ). Τέτοιου είδους τραύμα μπορεί
να προκαλέσει πόνο, γεγονός που αναπαρίσταται με τη μεταβλητή Πόνο (Π). Το τραύμα στη μέση μπορεί να
προέλθει είτε από αθλητική άσκηση, γεγονός που αναπαρίσταται με τη μεταβλητή Άσκηση (Α), είτε από μη-
αναπαυτική καρέκλα στο γραφείο, γεγονός που αναπαρίσταται με τη μεταβλητή Καρέκλα (Κ). Στην τελευταία
περίπτωση είναι λογικό να υποθέσουμε ότι και κάποιος συνεργάτης μπορεί να έχει παραπονεθεί για παρόμοιο
πόνο στη μέση, γεγονός που αναπαρίσταται με τη μεταβλητή Συνεργάτης (Σ). Σ’ αυτό το συγκεκριμένο
παράδειγμα όλες οι μεταβλητές είναι δυαδικές, συνεπώς οι μεταβλητές είναι είτε αληθείς (γεγονός που
αναπαριστάνεται με «T»), είτε ψευδείς (γεγονός που αναπαρίσταται με «F»).
Ακολουθώντας την ορολογία της θεωρίας γράφων λέμε ότι οι «γονείς» της μεταβλητής Μέση είναι οι
μεταβλητές Καρέκλα και Άσκηση, το «παιδί» της μεταβλητής Μέση είναι η μεταβλητή Πόνος, ο «γονιός» της
μεταβλητής Συνεργάτης είναι η μεταβλητή Καρέκλα κ.λπ. Μια παραδοχή των ΔΒ είναι η ανεξαρτησία
μεταβλητών που δε συσχετίζονται άμεσα με τη σχέση γονιός-παιδί. Η προαναφερθείσα παραδοχή οδηγεί σε
απλούστερη παραγοντοποίηση, όπως εξηγείται στη συνέχεια με αναφορά στο Σχήμα 6.1. Συγκεκριμένα, αντί
η από κοινού συνάρτηση κατανομής πιθανότητας (joint probability distribution function) να
υπολογίζεται με παραγοντοποίηση όλων των μεταβλητών σύμφωνα με τον κανόνα αλυσίδας (chain rule):
P(Κ,Α,Σ,Μ,Π) = P(Κ)P(Α|Κ)P(Σ|Α,Κ)P(Μ|Σ,Α,Κ)P(Π|Μ,Σ,Α,Κ)
υπολογίζεται ως P(Κ,Α,Σ,Μ,Π) = P(Κ)P(Α)P(Σ|Κ)P(Μ|Α,Κ)P(Π|Μ).

6.1.1 Συμπερασμός με ΔΒ
Ένα ΔΒ υποστηρίζει τους ακόλουθους δύο τύπους συμπερασμού:

(α) Συμπερασμό πρόβλεψης (prediction) για έναν κόμβο Xi χρησιμοποιώντας γνώση των γονέων κόμβων
του Xi ή/και άλλων κόμβων συνδεδεμένων με τους γονείς κόμβους του Xi  Αυτός ο συμπερασμός
εναλλακτικά καλείται συλλογιστική από πάνω προς τα κάτω (top-down reasoning).

(β) Συμπερασμό διάγνωσης (diagnosis) για έναν κόμβο Xi χρησιμοποιώντας γνώση των παιδιών κόμβων
του Xi ή/και άλλων κόμβων συνδεδεμένων με τα παιδιά κόμβους του Xi  Αυτός ο συμπερασμός
εναλλακτικά καλείται συλλογιστική από κάτω προς τα πάνω (bottom-up reasoning).

Στη συνέχεια παρουσιάζουμε ένα παράδειγμα συμπερασμού διάγνωσης με αναφορά στο Σχήμα 6.1.
Συγκεκριμένα, έστω ότι ένας άνθρωπος υποφέρει από πόνο στη μέση. Χρησιμοποιώντας συλλογιστική από
κάτω προς τα πάνω μπορούμε να υπολογίσουμε την πεποίθηση ότι υπάρχει μη-αναπαυτική καρέκλα στο
γραφείο, ως ακολούθως:

6-1
P (  T ,   T )
P(Κ=T|Π=T)= , όπου
P (  T )
P(Κ=T,Π=T)=   {T , F }
P(  T )P() P( |   T ) P( | ,   T ) P(  T |  ) , και
P(Π=T)=   {T , F }
P( )P() P( |  ) P( | ,  ) P(  T |  ) .

Σημειώστε ότι τα ΔΒ είναι δημοφιλή σε εφαρμογές στατιστικής, μηχανικής μάθησης και TN.

P(Κ=Τ) P(Κ=F) P(Α=Τ) P(Α=F)


0.8 0.2 0.02 0.98

Καρέκλα (Κ) Άσκηση (Α)

Κ P(Σ=Τ|Κ) P(Σ=F|Κ)
Τ 0.9 0.1
F 0.01 0.99

Κ Α P(Μ=Τ|Κ,Α) P(Μ=F|Κ,Α)
Συνεργάτης (Σ) Μέση (Μ) Τ Τ 0.9 0.1
Τ F 0.2 0.8
F Τ 0.9 0.1
Μ P(Π=Τ|Μ) P(Π=F|Μ) F F 0.01 0.99
Τ 0.7 0.3
F 0.1 0.9

Πόνος (Π)

Σχήμα 6.1 Παράδειγμα ενός Δικτύου Bayes.

6.2 Δένδρα Αποφάσεων


Ένα δένδρο αποφάσεων χρησιμοποιείται για λήψη αποφάσεων. Για παράδειγμα, έστω ότι η απόφασή μας να
κάνουμε περίπατο εξαρτάται από τις καιρικές συνθήκες σύμφωνα με το Σχήμα 6.2, το οποίο δόθηκε από
κάποιον εμπειρογνώμονα.
Ωστόσο, προκειμένου να είναι χρήσιμο σε πρακτικές εφαρμογές, ένα δένδρο αποφάσεων θα πρέπει
να υπολογίζεται με επαγωγή (induction) από (καταγεγραμμένα) δεδομένα, αντί να δίδεται από κάποιον
εμπειρογνώμονα. Για παράδειγμα, ένα δένδρο αποφάσεων μπορεί να είναι χρήσιμο σε εφαρμογές εξόρυξης
γνώσης με τελικό σκοπό την πρόβλεψη της κατηγορίας/τιμής μιας μεταβλητής στη βάση δοθέντων
μεταβλητών (Quinlan, 1992· Kotsiantis, 2013).

6.2.1 Υπολογισμός Δένδρων Απόφασης με Επαγωγή


Τυπικά, ένα δένδρο αποφάσεων υπολογίζεται με μια τεχνική τύπου διαίρει-και-βασίλευε (divide-and-
conquer). Συγκεκριμένα, έστω ότι (α) υπάρχει ένα σύνολο Τ δεδομένων, όπου ένα δεδομένο περιλαμβάνει Ν
γνωρίσματα τα οποία είναι είτε αριθμητικά, είτε μη-αριθμητικά και (β) υπάρχουν συνολικά k κατηγορίες C1,
C2, …, Ck. Τρεις είναι οι δυνατές περιπτώσεις:

6-2
ουρανός

ηλιόλουστος βροχερός
συννεφιασμένος

υγρασία άνεμος

 75% >75% δυνατός ασθενής

περίπατος όχι περίπατος περίπατος όχι περίπατος περίπατος

Σχήμα 6.2 Δένδρο απόφασης για το αν θα πάμε περίπατο ανάλογα με τις καιρικές συνθήκες. Τα φύλλα του δένδρου
παριστάνονται με διακεκομμένο περίγραμμα.

1. Το σύνολο Τ περιλαμβάνει ένα ή περισσότερα δεδομένα τα οποία ανήκουν σε μία μόνον κατηγορία,
έστω Cj. Σ’ αυτήν την περίπτωση το δένδρο απόφασης είναι ένα φύλλο, το οποίο αντιστοιχεί στην
κατηγορία Cj.
2. Το σύνολο Τ είναι κενό. Σ’ αυτήν την περίπτωση θεωρούμε ότι το δένδρο απόφασης είναι και πάλι
ένα φύλλο, το οποίο αντιστοιχεί σε μια κατηγορία, που τυπικά προσδιορίζεται από την πλειοψηφία
των δεδομένων του γονέα (κόμβου) στο δένδρο.
3. Το σύνολο Τ περιλαμβάνει δεδομένα τα οποία ανήκουν σε περισσότερες από μία κατηγορίες. Στόχος
είναι ο διαμερισμός (partition) του συνόλου Τ σε υποσύνολα, των οποίων όλα τα δεδομένα ανήκουν
σε μία μόνον κατηγορία, όπως περιγράφεται στη συνέχεια. Συγκεκριμένα, επιλέγουμε μια κατάλληλη
δοκιμασία (test), η οποία τυπικά χρησιμοποιεί ένα μόνον γνώρισμα, με ένα μόνον αποτέλεσμα στο
σύνολο {O1, O2,…, On}. Μ’ αυτόν τον τρόπο το σύνολο Τ διαμερίζεται σε υποσύνολα Τ1, Τ2,…, Τn,
όπου το υποσύνολο Ti περιλαμβάνει όλα τα δεδομένα του T για τα οποία προέκυψε το αποτέλεσμα
Οi. Εν κατακλείδι, το δένδρο απόφασης περιλαμβάνει (α) έναν κόμβο απόφασης όπου εκτελείται η
δοκιμασία που επιλέχθηκε και (β) έναν κλάδο για κάθε ένα αποτέλεσμα O1, O2,…, On.

Οι προαναφερθείσες τρεις περιπτώσεις εξετάζονται εκ νέου για κάθε νέο κόμβο στο δένδρο, ώσπου
να προκύψουν φύλλα τα οποία αντιστοιχούν σε μία μόνον κατηγορία. Στη συνέχεια παρουσιάζουμε ένα απλό
παράδειγμα υπολογισμού δένδρου απόφασης. Θεωρήστε το μικρό σύνολο Τ δεδομένων στο Σχήμα 6.3 με
τέσσερα γνωρίσματα και δύο δυνατές κατηγορίες.
Επειδή όλα τα δεδομένα στο Σχήμα 6.3 ανήκουν σε περισσότερες από μία κατηγορίες, θα
χρησιμοποιήσουμε μια υπολογιστική τεχνική τύπου διαίρει-και-βασίλευε προκειμένου να προκύψουν
υποσύνολα, των οποίων τα δεδομένα ανήκουν σε μία μόνον κατηγορία. Για το σκοπό αυτό έστω ότι
επιλέγουμε μια δοκιμασία με βάση το (πρώτο) γνώρισμα «ουρανός» για το οποίο υπάρχουν τρία δυνατά
αποτελέσματα: «ηλιόλουστος», «συννεφιασμένος» και «βροχερός». Από την τελευταία στήλη παρατηρούμε
ότι μόνον το υποσύνολο δεδομένων που αντιστοιχούν στο αποτέλεσμα «συννεφιασμένος» ανήκει όλο σε μία
κατηγορία (βλ. «περίπατος»), ενώ το υποσύνολο δεδομένων είτε του αποτελέσματος «ηλιόλουστος», είτε του
αποτελέσματος «βροχερός» ανήκει σε δύο κατηγορίες (βλ. «περίπατος» και «όχι περίπατος»).
Το πρώτο υποσύνολο, δηλ. αυτό που αντιστοιχεί στο αποτέλεσμα «ηλιόλουστος», μπορεί να
διαμεριστεί περαιτέρω αν επιλέξουμε μια δοκιμασία με βάση το (τρίτο) γνώρισμα «υγρασία» με δύο δυνατά
αποτελέσματα: «υγρασία  75%» και «υγρασία > 75%». Ενώ, το τρίτο υποσύνολο, δηλ. αυτό που αντιστοιχεί
στο αποτέλεσμα «βροχερός», μπορεί να διαμεριστεί περαιτέρω, αν επιλέξουμε μια δοκιμασία με βάση το
(τέταρτο) γνώρισμα «άνεμος» με δύο δυνατά αποτελέσματα: «δυνατός» και «ασθενής». Μετά από τις
προαναφερθείσες δύο δοκιμασίες προκύπτουν τα υποσύνολα διαμερισμού στο Σχήμα 6.4. Το αντίστοιχο

6-3
δένδρο απόφασης φαίνεται στο Σχήμα 6.5. Παρατηρήστε ότι το δένδρο στο Σχήμα 6.5 συμφωνεί με το δένδρο
στο Σχήμα 6.2. Ωστόσο η σημαντική διαφορά είναι ότι το δένδρο απόφασης στο Σχήμα 6.2 δόθηκε από
κάποιον εμπειρογνώμονα, ενώ το δένδρο απόφασης στο Σχήμα 6.5 υπολογίστηκε με επαγωγή από
καταγεγραμμένα δεδομένα. Στη συνέχεια μελετάμε τρόπους επιλογής κατάλληλων δοκιμασιών με σκοπό τον
υπολογισμό όσο το δυνατόν μικρότερων δένδρων απόφασης.

ουρανός θερμοκρασία (oC) υγρασία (%) άνεμος κατηγορία


ηλιόλουστος 20 70 δυνατός περίπατος
ηλιόλουστος 25 90 δυνατός όχι περίπατος
ηλιόλουστος 27 85 ασθενής όχι περίπατος
ηλιόλουστος 19 95 ασθενής όχι περίπατος
ηλιόλουστος 18 70 ασθενής περίπατος
συννεφιασμένος 19 90 δυνατός περίπατος
συννεφιασμένος 26 78 ασθενής περίπατος
συννεφιασμένος 17 65 δυνατός περίπατος
συννεφιασμένος 25 75 ασθενής περίπατος
βροχερός 19 80 δυνατός όχι περίπατος
βροχερός 15 70 δυνατός όχι περίπατος
βροχερός 20 80 ασθενής περίπατος
βροχερός 18 80 ασθενής περίπατος
βροχερός 19 96 ασθενής περίπατος

Σχήμα 6.3 Ένα μικρό σύνολο Τ δεδομένων για την επαγωγή ενός δένδρου απόφασης.

6.2.2 Αξιολόγηση Δοκιμασιών


Ο προηγούμενος υπολογισμός δένδρου απόφασης στηρίζεται σε δοκιμασίες που ήδη έχουν επιλεγεί. Στη
συνέχεια μελετάμε τρόπους επιλογής δοκιμασιών. Σημειώστε ότι κάθε δοκιμασία η οποία υπολογίζει δύο μη-
κενά υποσύνολα Ti, τελικά υπολογίζει φύλλα (του δένδρου απόφασης) που περιλαμβάνουν δεδομένα μιας
μόνο κατηγορίας. Ωστόσο, το ενδιαφέρον μας εστιάζεται στον υπολογισμό ενός δένδρου απόφασης, το οποίο
όχι μόνο να αποκαλύπτει στοιχεία για τη δομή των δεδομένων, αλλά επιπλέον να έχει την ικανότητα
πρόβλεψης. Για τους προαναφερθέντες λόγους θέλουμε κάθε φύλλο του δένδρου απόφασης που θα
υπολογιστεί να περιλαμβάνει ένα σημαντικό αριθμό δεδομένων ή, ισοδύναμα, θέλουμε να διαμερίσουμε το
σύνολο Τ των δεδομένων στο μικρότερο δυνατό αριθμό υποσυνόλων. Σε κάθε περίπτωση επιζητούμε τον
υπολογισμό μικρών δένδρων απόφασης.
Ένας τρόπος εύρεσης του μικρότερου δένδρου απόφασης είναι με τυφλή αναζήτηση (blind search),
δηλ. να υπολογίσουμε όλα τα δυνατά δένδρα απόφασης και από αυτά να επιλέξουμε το μικρότερο. Δυστυχώς
όμως το πρόβλημα υπολογισμού όλων των δένδρων απόφασης απαιτεί μη-πολυωνυμικό χρόνο, πράγμα που
καθιστά το πρόβλημα πρακτικά άλυτο. Για παράδειγμα, για τα λίγα δεδομένα στο Σχήμα 6.3 υπάρχουν
περισσότερα από 106 δένδρα απόφασης. Σημειώστε ότι οι περισσότερες τεχνικές υπολογισμού δένδρων
απόφασης είναι άπληστες (greedy) υπό την έννοια ότι δε διαθέτουν μνήμη. Συγκεκριμένα, ο διαμερισμός
ενός συνόλου δεδομένων σε υποσύνολα είναι οριστικός και αμετάκλητος χωρίς να προβλέπεται κάποιου
είδους «οπισθοδρόμηση» προς αναζήτηση εναλλακτικών διαμερισμών. Κάθε διαμερισμός είναι το
αποτέλεσμα της εφαρμογής μιας δοκιμασίας η οποία τυπικά χρησιμοποιεί μια ευρετική συνάρτηση όπως
περιγράφεται στη συνέχεια.

6.2.3 Ευρετικές Συναρτήσεις Κέρδους


Μια δημοφιλής ευρετική συνάρτηση που χρησιμοποιείται για την επιλογή μιας δοκιμασίας είναι η συνάρτηση
κέρδους πληροφορίας η οποία βασίζεται στη συνάρτηση εντροπία. Σημειώστε ότι η συνάρτηση εντροπία
προτάθηκε από τον Shannon (1948) στη θεωρία πληροφορίας (information theory) για να ποσοτικοποιήσει
την πληροφορία που μεταφέρει ένα γεγονός ανάλογα με τη σπανιότητά του. Δηλαδή, όσο πιο σπάνιο είναι
ένα γεγονός, τόσο μεγαλύτερη να είναι η πληροφορία που προσλαμβάνουμε, όταν αυτό συμβεί.
Συγκεκριμένα, έστω PA η πιθανότητα να συμβεί ένα γεγονός A. Τότε η πληροφορία που μεταφέρει το γεγονός
A ορίζεται ως -log2(P) και μετριέται σε bits. Για παράδειγμα, όταν από οκτώ ισοπίθανα γεγονότα συμβεί το
ένα, τότε θεωρούμε ότι προσλαμβάνουμε πληροφορία ίση με -log2(8) = 3 bits.

6-4
ουρανός = ηλιόλουστος
υγρασία  75%
ουρανός θερμοκρασία (oC) υγρασία (%) άνεμος κατηγορία
ηλιόλουστος 20 70 δυνατός περίπατος
ηλιόλουστος 18 70 ασθενής περίπατος

υγρασία > 75%


ουρανός θερμοκρασία (oC) υγρασία (%) άνεμος κατηγορία
ηλιόλουστος 25 90 δυνατός όχι περίπατος
ηλιόλουστος 27 85 ασθενής όχι περίπατος
ηλιόλουστος 19 95 ασθενής όχι περίπατος

ουρανός = συννεφιασμένος
ουρανός θερμοκρασία (oC) υγρασία (%) άνεμος κατηγορία
συννεφιασμένος 19 90 δυνατός περίπατος
συννεφιασμένος 26 78 ασθενής περίπατος
συννεφιασμένος 17 65 δυνατός περίπατος
συννεφιασμένος 25 75 ασθενής περίπατος

ουρανός = βροχερός
άνεμος = δυνατός
ουρανός θερμοκρασία (oC) υγρασία (%) άνεμος κατηγορία
βροχερός 19 80 δυνατός όχι περίπατος
βροχερός 15 70 δυνατός όχι περίπατος

άνεμος = ασθενής
ουρανός θερμοκρασία (oC) υγρασία (%) άνεμος κατηγορία
βροχερός 20 80 ασθενής περίπατος
βροχερός 18 80 ασθενής περίπατος
βροχερός 19 96 ασθενής περίπατος

Σχήμα 6.4 Διαμερισμός δεδομένων.

ουρανός = ηλιόλουστος:
υγρασία  75%: περίπατος
υγρασία > 75%: όχι περίπατος
ουρανός = συννεφιασμένος: περίπατος
ουρανός = βροχερός:
άνεμος = δυνατός: όχι περίπατος
άνεμος = ασθενής: περίπατος

Σχήμα 6.5 Δένδρο απόφασης που αντιστοιχεί στο διαμερισμό του Σχήματος 6.4.

6-5
Έστω ότι είναι δυνατόν να συμβούν n πιθανά γεγονότα A1,…,An με πιθανότητες P1,…,Pn, αντίστοιχα.
Τότε ως εντροπία (entropy), συμβολικά info(A1,…,An), ορίζεται ο μέσος όρος της πληροφορίας όλων των
n
γεγονότων, δηλ. info(A1,…,An) =  Pi log 2 ( Pi ) . Τα προηγούμενα χρησιμοποιούνται στη συνέχεια για να
i 1
οριστεί μια ευρετική συνάρτηση κέρδους.
Έστω ένα σύνολο Τ δεδομένων πληθικότητας |Τ| και έστω freq(Cj,T) ο συνολικός αριθμός των
δεδομένων της κατηγορίας Cj, j{1,…,k}. Σύμφωνα με τα προηγούμενα, θεωρούμε ότι η κατηγορία Cj
 freq(C j , T ) 
μεταφέρει πληροφορία ίση με  log 2   bits. Άρα, η εντροπία του συνόλου των κατηγοριών στο
 |T | 
σύνολο Τ είναι:
k freq(C , T )
 freq(C j , T ) 
info(T)= 
j
log 2  .
j 1 |T |  |T | 

Στη συνέχεια υπολογίζουμε τη μέση πληροφορία στο διαμερισμό του συνόλου Τ σε n υποσύνολα
n
|T |
Τ1,…,Tn ως αποτέλεσμα εφαρμογής μιας δοκιμασίας X: infoX(T)=  i info(Ti ) . Η ποσότητα gain(X) =
i 1 | T |
info(T) - infoX(T) ονομάζεται κέρδος πληροφορίας (information gain) ή εναλλακτικά ονομάζεται αμοιβαία
πληροφορία (mutual information), όταν το σύνολο T διαμερίζεται με τη δοκιμασία X. Η επιδίωξή μας είναι
να επιλέξουμε μια δοκιμασία η οποία να μεγιστοποιεί το κέρδος πληροφορίας.
Θεωρήστε το σύνολο T των δεδομένων στο Σχήμα 6.3. Υπάρχουν δύο κατηγορίες: η κατηγορία
«περίπατος» με 9 δεδομένα και η κατηγορία «όχι περίπατος» με 5 δεδομένα. Η εντροπία του συνόλου T είναι
9 9 5 5
info(T) =  log 2    log 2   = 0.940 bits.
14  14  14  14 
Χρησιμοποιώντας το γνώρισμα «ουρανός» ως δοκιμασία X διαμερίζουμε το σύνολο T σε τρία
5 2 2 3  3  4 4 4 0  0 
υποσύνολα με εντροπία infoX(T) =   log 2    log 2    +   log 2    log 2    +
14  5 5 5  5  14  4 4 4  4 
5 3 3 2  2 
  log 2    log 2    = 0.694 bits. Άρα, το κέρδος πληροφορίας σ’ αυτήν την περίπτωση είναι 0.940
14  5 5 5  5 
- 0.694 = 0.246 bits.
Στη συνέχεια, αντί του γνωρίσματος «ουρανός» χρησιμοποιούμε εναλλακτικά το γνώρισμα «άνεμος»
ως δοκιμασία X, οπότε το σύνολο T διαμερίζεται σε δύο υποσύνολα με εντροπία infoX(T) =
6 3 3 3  3  8  6 6 2  2 
  log 2    log 2    +   log 2    log 2    = 0.892 bits. Άρα, το κέρδος πληροφορίας σ’
14  6 6 6  6   14  8 8 8  8 
αυτήν την περίπτωση είναι 0.940 - 0.892 = 0.048 bits. Συνεπώς, σύμφωνα με το κριτήριο κέρδους (gain
criterion) η δοκιμασία με το γνώρισμα «ουρανός» είναι προτιμότερη.
Σε πολλές περιπτώσεις, το κριτήριο κέρδους υπολογίζει μικρά δένδρα απόφασης. Ωστόσο, το
κριτήριο κέρδους είναι μεροληπτικό υπέρ δοκιμασιών με πολλά αποτελέσματα όπως εξηγείται στο ακόλουθο
παράδειγμα. Θεωρήστε μια διαδικασία ιατρικής διάγνωσης όπου καταγράφονται τα δεδομένα ασθενών έτσι
ώστε ένα από τα γνωρίσματα που καταγράφονται είναι ο αριθμός ταυτότητας του ασθενούς. Επειδή κάθε
αριθμός ταυτότητας είναι μοναδικός, επιλέγοντας ως δοκιμασία το γνώρισμα του αριθμού ταυτότητας θα
προκύψει ένα φύλλο (στο δένδρο απόφασης) για κάθε δεδομένο όπου κάθε ασθενής θα θεωρείται ως μια
διαφορετική κατηγορία. Επομένως, σ’ αυτήν την περίπτωση η μέση πληροφορία είναι infoX(T) =
n
1
 info(Ti ) = 0 διότι info(Ti) = 0. Οπότε, επιλέγοντας ως δοκιμασία το γνώρισμα του αριθμού
i 1 | T |
ταυτότητας, μεγιστοποιείται το κριτήριο κέρδους. Ωστόσο, για εφαρμογές πρόβλεψης, η επιλογή αυτής της
δοκιμασίας είναι άχρηστη.
Η προαναφερθείσα μεροληψία του κριτηρίου κέρδους μπορεί να αρθεί με κανονικοποίηση
(normalization) η οποία επιτυγχάνεται διαιρώντας το κέρδος πληροφορίας με την ποσότητα χώρισμα

6-6
n
| Ti | |T |
πληροφορίας (split information) που ορίζεται ως split info(X) =  log 2  i  . Τελικά, προκύπτει η
i 1 | T |  |T | 
gain(X)
ευρετική συνάρτηση λόγος κέρδους (gain ratio) gain ratio(X) = , η οποία είναι
split info(X)
αποτελεσματική για την επιλογή μιας δοκιμασίας όπως εξηγείται στη συνέχεια. Συγκεκριμένα, ο
παρονομαστής του λόγου κέρδους είναι split info(X) = log2(n), όπου n είναι ο συνολικός αριθμός των
ασθενών στο σύνολο T· παρατηρήστε ότι καθώς ο αριθμός n αυξάνει, ο λόγος κέρδους μειώνεται.
Μια αποτελεσματική ευρετική συνάρτηση μπορεί να επιλέξει τη βέλτιστη δοκιμασία σε ένα σύνολο
«υποψήφιων» δοκιμασιών, όπως εξηγήθηκε παραπάνω. Μένει τώρα να ορίσουμε το σύνολο «υποψήφιων»
δοκιμασιών, όπως εξηγείται στη συνέχεια.
Από τη μια μεριά, για ένα γνώρισμα που λαμβάνει διακριτές τιμές μπορούμε να επιλέξουμε ένα
διαφορετικό αποτέλεσμα είτε (α) για κάθε διαφορετική τιμή που λαμβάνει το συγκεκριμένο γνώρισμα, είτε
(β) για κάθε ομάδα ενός διαμερισμού των τιμών που λαμβάνει το συγκεκριμένο γνώρισμα. Ενώ, από την
άλλη μεριά, για ένα γνώρισμα που λαμβάνει συνεχείς αριθμητικές τιμές, μπορούμε να επιλέξουμε μια
δυαδική δοκιμασία με αποτελέσματα AZ και A>Z, όπου A είναι η (συνεχής) τιμή του γνωρίσματος και Z
είναι μια προεπιλεγμένη τιμή κατωφλίου (threshold).

6.3 Γνωσιακοί Χάρτες


Οι γνωσιακοί χάρτες (ΓΧ) (cognitive maps (CM)) είναι προσημασμένοι κατευθυνόμενοι γράφοι για λήψη
αποφάσεων (Axelrod, 1976). Οι κόμβοι σε αυτούς τους χάρτες αναπαριστάνουν έννοιες ή μεταβλητές
σχετιζόμενοι με κάποιο φυσικό σύστημα. Οι αιτιώδεις σύνδεσμοι μεταξύ των εννοιών του χάρτη ονομάζονται
ακμές. Οι ακμές χαρακτηρίζονται από ένα πρόσημο και μία κατεύθυνση που περιγράφουν τον τρόπο με τον
οποίο αλληλεπιδρούν οι κόμβοι μεταξύ τους. Για παράδειγμα μία ακμή που συνδέει δύο κόμβους Α και Β με
κατεύθυνση από το Α στο Β μπορεί να είναι είτε θετική είτε αρνητική περιγράφοντας αντίστοιχα την
προωθητική ή ανασταλτική επίδραση του κόμβου Α στον κόμβο Β.
Στο παρακάτω Σχήμα 6.6 απεικονίζεται ένας γνωσιακός χάρτης που περιγράφει τις σχέσεις μεταξύ
μερικών οικονομικών μεγεθών, καθώς και τον τρόπο που αυτά επηρεάζουν την οικονομική ανάπτυξη.
Αξίζει να σημειωθεί ότι ο κύριος στόχος σχεδίασης ενός γνωσιακού χάρτη για ένα φυσικό σύστημα
είναι η πρόγνωση της συμπεριφοράς του ως αποτέλεσμα της αλληλεπίδρασης των εννοιών του συστήματος.

Σχήμα 6.6 Ένας τυπικός γνωσιακός χάρτης.

6-7
6.3.1 Ασαφείς Γνωσιακοί Χάρτες
Οι ασαφείς γνωσιακοί χάρτες (ΑΓΧ) (fuzzy cognitive maps (FCM)) προτάθηκαν ως επέκταση των
κλασικών γνωσιακών χαρτών που αναπτύχθηκαν στην προηγούμενη παράγραφο. Οι ΑΓΧ έχουν τέσσερις
σημαντικές διαφορές από τους ΓΧ:

1. Οι ακμές μεταξύ των κόμβων μπορούν να λαμβάνουν αριθμητικές τιμές που ονομάζονται βάρη και τα
οποία περιγράφουν το βαθμό αιτιότητας.
2. Οι ΑΓΧ μπορούν να μοντελοποιούν πολύπλοκα σενάρια της καθημερινής ζωής και δυναμικά
συστήματα που μεταβάλλονται με το χρόνο. Σε αυτή τη μορφή τους οι ΑΓΧ μοιάζουν με τα
ανατροφοδοτούμενα ΤΝΔ (βλ. Κεφάλαιο 1).
3. Η αποθηκευμένη γνώση σε έναν ΑΓΧ μπορεί να επαυξηθεί με το συνδυασμό ενός αριθμού ΑΓΧ.
4. Όπως τα ΤΝΔ, οι ΑΓΧ μπορούν να προσαρμόζουν τα βάρη τους μέσω της διαδικασίας της μάθησης.
Σημειώνεται ότι οι αρχικές τιμές των βαρών καθορίζονται από ειδικούς που είναι γνώστες του προς
μοντελοποίηση συστήματος.

Οι ΑΓΧ χρησιμοποιήθηκαν αρχικά για τη μοντελοποίηση πολύπλοκων κοινωνικών και οικονομικών


συστημάτων, όπου είτε δεν υπήρχαν, είτε γιατί ήταν αδύνατο να εξαχθούν αναλυτικές περιγραφές.
Προτάθηκαν από τον Kosko (1986, 1992) ως εναλλακτική μέθοδος μοντελοποίησης πολύπλοκων
συστημάτων, ικανών να περιγράψουν τις αιτιατές σχέσεις μεταξύ κύριων παραγόντων-εννοιών που
καθορίζουν τη δυναμική συμπεριφορά ενός συστήματος. Στο παρακάτω Σχήμα 6.7 απεικονίζεται ένας
τυπικός ΑΓΧ.

Σχήμα 6.7 Ένας τυπικός ΑΓΧ.

Όπως μπορεί να γίνει αντιληπτό από το παραπάνω Σχήμα 6.7, ένας ΑΓΧ αποτελείται από κόμβους
(έννοιες), Ci, i=1,2,3,…,N, όπου N είναι ο συνολικός αριθμός των εννοιών, οι οποίες είναι χαρακτηριστικά,
κύριοι παράγοντες ή ιδιότητες του προς μοντελοποίηση συστήματος. Οι έννοιες ενώνονται μεταξύ τους με
συνδέσμους που έχουν συγκεκριμένα βάρη, που δηλώνουν την επίδραση που έχουν οι έννοιες μεταξύ τους.
Υπάρχουν τρεις πιθανοί τύποι (Stylios & Groumpos, 1998) αιτιατών σχέσεων μεταξύ δύο εννοιών Ci και Cj :
(α) θετική, που δηλώνει ότι μία αύξηση ή μείωση της τιμής μίας έννοιας αίτιο (cause), προκαλεί την έννοια
αιτιατό (effect) να κινηθεί προς την ίδια κατεύθυνση και περιγράφεται με ένα θετικό βάρος Wij, (β) αρνητική,
που δηλώνει ότι οι αλλαγές στις έννοιες αίτιο και αιτιατό λαμβάνουν χώρα σε αντίθετες κατευθύνσεις, με το
βάρος Wij να έχει αρνητικό πρόσημο και (γ) ανύπαρκτη, με μηδενικό βάρος. Η τιμή του βάρους, π.χ. Wij,
περιγράφει το κατά πόσο η έννοια Ci επηρεάζει την έννοια Cj και έχει πεδίο ορισμού το διάστημα [-1,1].
Κάθε χρονική στιγμή η τιμή κάθε έννοιας Ai υπολογίζεται από το άθροισμα των επιρροών όλων των
υπολοίπων εννοιών σε αυτή την έννοια και τον περιορισμό της συνολικής επίδρασης με τη χρήση μίας
συνάρτησης φραγής f σύμφωνα με τον παρακάτω κανόνα:
 
Ait 1  f  Ait  W ji Atj  , (6.1)
 i 1,i  j 

6-8
όπου Ait 1 και Ait είναι οι τιμές της έννοιας Ci τις χρονικές στιγμές t+1 και t αντίστοιχα, A tj η τιμή της
έννοιας Cj τη χρονική στιγμή t, Wji το βάρος της σύνδεσης με κατεύθυνση από την έννοια Cj στην Ci και f η
συνάρτηση φραγής που χρησιμοποιείται για τον περιορισμό της τιμής της έννοιας σε ένα συγκεκριμένο
εύρος, συνήθως στο διάστημα [0,1].
Σε κάθε βήμα μία νέα κατάσταση των εννοιών προκύπτει μέσω της Εξ.(6.1) και μετά από έναν
συγκεκριμένο αριθμό επαναλήψεων ο ΑΓΧ μπορεί να καταλήξει σε μία από τις παρακάτω καταστάσεις
(Stylios & Groumpos, 1998):
1. Σε ένα συγκεκριμένο σημείο ισορροπίας.
2. Σε έναν περιορισμένο κύκλο.
3. Σε χαοτική συμπεριφορά.

Όταν ο ΑΓΧ καταλήγει σε ένα συγκεκριμένο σημείο ισορροπίας, μπορούμε να συμπεράνουμε ότι ο
χάρτης έχει συγκλίνει και η τελική κατάσταση αντιστοιχεί στην πραγματική κατάσταση του συστήματος στην
οποία μεταπίπτει, όταν οι αρχικές τιμές των βαρών εφαρμοστούν στο χάρτη.

6.3.1.1 Εκπαίδευση των ΑΓΧ


Ο σχεδιασμός των ΑΓΧ βασίζεται σημαντικά στην εμπειρία μερικών ειδικών, οι οποίοι έχουν αρκετή γνώση
του προς μοντελοποίηση συστήματος και παρέχουν τις τιμές των βαρών για τις διασυνδέσεις μεταξύ των
εννοιών. Σε πιο ευέλικτες δομές ΑΓΧ αυτά τα βάρη υπολογίζονται μέσω μίας διαδικασίας μάθησης, με
παρόμοιο τρόπο όπως στην περίπτωση της εκπαίδευσης νευρωνικών δικτύων. Για αυτό το λόγο πολλοί
επιστήμονες έχουν δανειστεί και προσαρμόσει αλγορίθμους από το πεδίο των νευρωνικών δικτύων και έχουν
προτείνει νέες διαδικασίες εκπαίδευσης (Papageorgiou, 2012· Papakostas κ.ά., 2012). Επιπλέον, έχει γίνει
σημαντική δουλειά όσον αφορά τη χρήση εξελικτικών μεθόδων εύρεσης των βέλτιστων συνόλων βαρών των
ΑΓΧ, ως εναλλακτικοί στους βασιζόμενους σε παραγώγους αλγορίθμους, με αξιόλογα αποτελέσματα
(Papakostas κ.ά., 2012).
Αξίζει να σημειωθεί ότι μία μεγάλη κατηγορία αλγορίθμων εκπαίδευσης ΑΓΧ οι οποίοι
χρησιμοποιούνται ευρέως στη βιβλιογραφία είναι αλγόριθμοι που βασίζονται στο γνωστό από το Κεφάλαιο 1
κανόνα δέλτα ή κανόνα του Heb (Papakostas κ.ά., 2012). Συγκεκριμένα, ξεχωρίζουμε τρείς αλγόριθμους στην
κατηγορία αυτή: τη διαφορική μάθηση τύπου Hebb (ΔΜΗ) (differential Hebbian learning (DHL))
(Dickerson & Kosko, 1994), τη μη-γραμμική μάθηση τύπου Hebb (ΜΓΗ) (non-linear Hebbian learning
(NHL)) (Papageorgiou κ.ά., 2003) και την ενεργή μάθηση τύπου Hebb (ΕΜΗ) (active Hebbian learning
(AHL)) (Papageorgiou κ.ά., 2004), που περιγράφονται στη συνέχεια.

Α. Διαφορική Μάθηση τύπου Hebb (ΔΜΗ)


Ο αλγόριθμος ΔΜΗ ήταν ο πρώτος χρονικά αλγόριθμος που προτάθηκε και που έκανε χρήση του κανόνα
δέλτα. Προτάθηκε από τους Dickerson & Kosko (1994) για την εύρεση καλύτερων βαρών αλληλοσυνδέσεων
των εννοιών από αυτά που παρέχονται αρχικά από τους ειδικούς. Ο αλγόριθμος συσχετίζει τις αλλαγές των
τιμών των εννοιών του χάρτη και ανανεώνει τα βάρη με βάση τον ακόλουθο κανόνα ανανέωσης:

wij  
 i j 
 w t    A t  A t   wt  , A t   0
 t 1  ij t ij i
(6.2)
 wij t  , At 
 0
 i

όπου
Ai   Ai   Ai 
t t t 1
(6.3)

Η παράμετρος t αντιστοιχεί στο ρυθμό μάθησης ο οποίος μειώνεται σε κάθε επανάληψη του
αλγορίθμου ως ακολούθως:
 t 
t  0.1 1  , (6.4)
 1.1N 
όπου t είναι η τρέχουσα επανάληψη του αλγορίθμου και Ν μία σταθερά που εξασφαλίζει ότι ο ρυθμός
μάθησης δε θα λάβει αρνητικές τιμές. Συνήθως, επιλέγεται να είναι ίση με το μέγιστο αριθμό των
επαναλήψεων του αλγορίθμου.

6-9
Β. Μη-γραμμική Μάθηση τύπου Hebb (ΜΓΗ)
Ο αλγόριθμος ΜΓΗ προτάθηκε από τους Papageorgiou κ.ά. (2004). Κάνει χρήση του τροποποιημένου από
τον Oja (1989) κανόνα δέλτα (Εξ.(6.5)), ο οποίος αντιμετωπίζει τα προβλήματα ευστάθειας που παρουσιάζει
ο κλασικός κανόνας, και ορίζεται ως εξής:
 
wij  n  1   yi  n  x j  n   yi  n  wij  n  (6.5)

Η παραπάνω εξίσωση υπολογίζει την ανανέωση του βάρους που συνδέει τον κόμβο j με τον κόμβο i
στην επανάληψη n+1, με ρυθμό μάθησης η. Για την ανανέωση λαμβάνονται υπόψη τα προ-σύναψης
(είσοδος) x j και μετά-σύναψης (έξοδος) yi σήματα. Η ανανέωση των βαρών ενός ΑΓΧ με τον αλγόριθμο
ΜΓΗ επιτυγχάνεται μέσω του παρακάτω κανόνα:
t t

wij   wij    Aj  Ai   Aj  wij 
t 1 t t t
 (6.6)

Επιπλέον, έχουν προταθεί δύο παραλλαγές του παραπάνω αλγορίθμου (Papageorgiou κ.ά., 2006), με
στόχο να εξασφαλίσουν τη σύγκλιση του αλγορίθμου σε πιο βέλτιστες λύσεις βαρών. Στην πρώτη παραλλαγή
έχει προστεθεί η συνάρτηση προσήμου sgn(.), ώστε να διατηρείται το πρόσημο του βάρους, σύμφωνα με τον
παρακάτω κανόνα:
t t
  
wij   wij    Aj  Ai   sgn wij  Aj  wij 
t 1 t t t t
 (6.7)

Τέλος, η δεύτερη παραλλαγή του ΜΓΗ αλγορίθμου, περιλαμβάνει την εφαρμογή ενός παράγοντα
μείωση (γ) της επίδρασης του προηγούμενου βάρους του κόμβου, που περιγράφεται ως εξής:
t t
 t
 
wij    wij    Aj  Ai   sgn wij  Aj  wij 
t 1 t t t
 (6.8)

Γ. Ενεργή Μάθηση τύπου Hebb (ΕΜΗ)


Ένα κοινό χαρακτηριστικό των δύο προηγούμενων αλγορίθμων είναι η ταυτόχρονη ανανέωση των τιμών των
εννοιών του χάρτη σε κάθε επανάληψη με βάση την Εξ.(6.1). Αντίθετα, ο αλγόριθμος ΕΜΗ θεωρεί ότι κάθε
κόμβος ενεργοποιείται ασύγχρονα. Αυτό σημαίνει ότι η ισορροπία του χάρτη θα επιτυγχάνεται με την
ενεργοποίηση διαφορετικών κόμβων και σε δοαφορετικό χρόνο. Επομένως, με βάση τον αλγόριθμο ΕΜΗ οι
κόμβοι ενός ΑΓΧ διακρίνονται σε κόμβους που ενεργοποιήθηκαν και σε κόμβους που ενεργοποιούνται. Σε
αυτή την περίπτωση ο κανόνας ανανέωσης των τιμών των κόμβων της Εξ.(6.1) τροποποιείται ως εξής:

 t N 
Ai   f  Ai  
t 1
  W ji Aj   
act t

(6.9)
 i 1,i  j 

όπου ο δείκτης act δηλώνει τον ενεργοποιημένο κόμβο.


Ο κανόνας ανανέωσης των βαρών με βάση τον αλγόριθμο ΕΜΗ έχει τη μορφή:

 t
 t t

wij   1     wij      Ai  Aj   wij  Ai  
t 1 t t t act t
 (6.10)

όπου ο ρυθμός μάθησης η και ο παράγοντας μείωσης των βαρών στην επανάληψη t, υπολογίζονται από τις
σχέσεις
  t   b1e   t 
1

(6.11)
  t   b2 e   t 
2

όπου 0.01<b1<0.09, 0.1<λ1<1, ενώ b2, λ2 είναι θετικοί σταθεροί αριθμοί που επιλέγονται με δοκιμή και
παρατήρηση.
Σημειώστε ότι όλοι οι προηγούμενοι αλγόριθμοι εκτελούνται επαναληπτικά, μέχρι να ικανοποιηθεί
κάποιο κριτήριο τερματισμού (μέγιστος αριθμός επαναλήψεων ή σύγκλιση σε επιθυμητό σφάλμα με βάση
κάποιο μέτρο καταλληλότητας).

6-10
6.3.1.2 Σύγχρονες Αρχιτεκτονικές Δομές ΑΓΧ
Τα τελευταία χρόνια παρατηρείται έντονη κινητικότητα στην ανάπτυξη νέων αρχιτεκτονικών δομών ΑΓΧ με
απώτερο στόχο την αύξηση της ακρίβειας μοντελοποίησης των συστημάτων, καθώς και την εισαγωγή των
ΑΓΧ σε νέα πεδία εφαρμογών (Papageorgiou & Salmeron, 2013).
Σε αρχιτεκτονικές ΑΓΧ ανήκουν δομές για εφαρμογές ταξινόμησης και αναγνώρισης προτύπων που
καλούνται ασαφείς γνωσιακοί απεικονιστές (ΑΓΑ) (fuzzy cognitive maps FCMper) (Papakostas &
Koulouriotis, 2010· Papakostas κ.ά., 2008, 2012). Σε αυτά τα μοντέλα ένας ΑΓΧ επιδιώκει να μοντελοποιήσει
έναν ταξινομητή, στον οποίο οι κόμβοι είναι είτε χαρακτηριστικά διάκρισης, είτε ετικέτες κλάσεων.
Επομένως, σε αντίθεση με τα νευρωνικά δίκτυα στα οποία οι νευρώνες έχουν μία αφαιρετική σημασία και
αποτελούν απλά υπολογιστικές μονάδες, στους ΑΓΑ οι κόμβοι και οι συνδέσεις περιγράφουν τις σχέσεις που
διέπουν τα χαρακτηριστικά με τις ετικέτες των κλάσεων. Ένας τυπικός ΑΓΑ απεικονίζεται στο Σχήμα 6.8.
Επίσης, για τον ίδιο σκοπό της ταξινόμησης δεδομένων έχουν προταθεί συνδυασμοί ΑΓΧ, οι οποίοι
λειτουργούν συνεργατικά με βάση τα μοντέλα πολλαπλής δειγματοθέτησης και ώθησης (Papageorgiou &
Kannappan, 2012).
Μία δεύτερη κατηγορία αρχιτεκτονικών ΑΓΧ περιλαμβάνει όλες εκείνες τις δομές που είναι ικανές
να διαχειριστούν την αβεβαιότητα και την ανακρίβεια που εμφανίζεται σε πολλά προβλήματα. Για το σκοπό
αυτό έχουν προταθεί οι γκρι ασαφείς γνωσιακοί χάρτες (ΓΑΓΧ) (fuzzy grey cognitive maps (FGCM)) που
βασίζονται στην γκρι θεωρία συστημάτων (Salmeron, 2010), οι γνωσιακοί χάρτες τεκμηρίων (ΓΧΤ)
(evidential cognitive maps (ECM)) που κάνουν χρήση της θεωρίας τεκμηρίων των Dempster και Shafer
(Kang κ.ά., 2012) και οι διαισθητικοί ασαφείς γνωσιακοί χάρτες (ΔΑΓΧ) (intuitionistic fuzzy cognitive
maps (IFCM)), οι οποίοι βασίζονται στη διαισθητική ασαφή λογική (intuitionistic fuzzy logic)
(Papageorgiou & Iakovidis, 2013). Τέλος, στην κατηγορία αυτή ανήκουν και δομές οι οποίες κάνουν χρήση
του κοκκώδους υπολογισμού (granular computing) (Pedrycz & Homenda, 2014), και των αριθμών
διαστημάτων (Papakostas κ.ά., 2015). Συγκεκριμένα, ένας ΑΓΧ που χρησιμοποιεί την αναπαράσταση
αριθμών διαστημάτων για εφαρμογές ταξινόμησης δεδομένων απεικονίζεται στο Σχήμα 6.9.

Σχήμα 6.8 Ένας Ασαφής Γνωσιακός Απεικονιστής.

6-11
Σχήμα 6.9 Ασαφής γνωσιακός χάρτης αριθμού διαστημάτων.

Ερωτήσεις Κατανόησης και Ασκήσεις


6.1) Έστω το Δίκτυο Bayes (ΔΒ) του παρακάτω σχήματος, όπου η Βροχή συσχετίζεται με τη συσκευή
ποτίσματος (βλ. Συντριβάνι), ενώ τόσο η Βροχή, όσο και το Συντριβάνι συσχετίζονται με το γεγονός
Χλοοτάπητας Υγρός. Εφαρμόζοντας συμπερασμό διάγνωσης υπολογίστε την αριθμητική τιμή της
πεποίθησης ότι βρέχει, υπό την προϋπόθεση ότι ο χλοοτάπητας είναι υγρός.

Συντριβάνι (Σ) Βροχή (Β)

Συντριβάνι (Σ) Βροχή (B)


Βροχή (B) T F T F
F 0.4 0.6 0.2 0.8
T 0.01 0.99
Χλοοτάπητας Υγρός (Υ)

Χλοοτάπητας Υγρός (Υ)


Συντριβάνι (Σ) Βροχή (Β) T F
F F 0.0 1.0
F T 0.8 0.2
T F 0.9 0.1
T T 0.99 0.01

6-12
Λύση:

P(Β=T|Υ=T)=
P(  T ,   T )

{T , F }
P(  T ,  ,   T )
P(  T )  , {T , F }
P(  T ,  ,  )

Υπολογίζουμε τον αριθμητή του παραπάνω κλάσματος χρησιμοποιώντας την από κοινού
συνάρτηση κατανομής πιθανότητας.

 {T , F }
P(  T ,  ,   T )  P(Υ=T, Σ=T, Β=T) + P(Υ=T, Σ=F, Β=T) =
P(Υ=T|Σ=T,Β=T)P(Σ=T|Β=T)P(Β=T) + P(Υ=T|Σ=F,Β=T)P(Σ=F|Β=T)P(Β=T) =
(0.99)(0.01)(0.2) + (0.8)(0.99)(0.2) = 0.00198 + 0.1584 = 0.16038.

Στη συνέχεια υπολογίζουμε τον παρονομαστή χρησιμοποιώντας την από κοινού συνάρτηση
κατανομής πιθανότητας.

  , {T , F }
P(  T ,  ,  )  P(Υ=T, Σ=T, Β=T) + P(Υ=T, Σ=F, Β=T) + P(Υ=T, Σ=T, Β=F) + P(Υ=T,
Σ=F, Β=F) = P(Υ=T|Σ=T,Β=T)P(Σ=T|Β=T)P(Β=T) + P(Υ=T|Σ=F,Β=T)P(Σ=F|Β=T)P(Β=T) +
P(Υ=T|Σ=T,Β=F)P(Σ=T|Β=F)P(Β=F) + P(Υ=T|Σ=F,Β=F)P(Σ=F|Β=F)P(Β=F) = (0.99)(0.01)(0.2) +
(0.8)(0.99)(0.2) + (0.9)(0.4)(0.8) + (0.0)(0.6)(0.8) = 0.00198 + 0.1584 + 0.288 + 0 = 0.44838.

Συνεπώς, P(Β=T|Υ=T) = 0.16038/0.44838 = 0.357687.

6.2) Σε εφαρμογές δένδρων απόφασης μπορεί να εμφανιστεί ένα πρόβλημα μεροληψίας όταν
χρησιμοποιείται η συνάρτηση κέρδος πληροφορίας. Περιγράψτε το προαναφερθέν πρόβλημα και
στη συνέχεια, εξηγήστε τον τρόπο επίλυσής του.
6.3) Έστω το παρακάτω σύστημα, στο οποίο τρεις βαλβίδες ελέγχουν την ποσότητα υγρού μίας
δεξαμενής. Καθώς γεμίζει η δεξαμενή με υγρό, θα πρέπει το ύψος και το βάρος του υγρού μέσα στη
δεξαμενή να βρίσκονται σε επιθυμητά επίπεδα. Σχεδιάστε έναν ΑΓΧ και υπολογίστε το σημείο
ισσοροπίας του συστήματος, όταν οι περιορισμοί του ύψους και του βάρους είναι 0.68  H  0.74
και 0.74  G  0.80 αντίστοιχα. Τέλος, οι ειδικοί έχουν ορίσει ότι οι 5 παράγοντες (H, G, V1, V2, V3)
που περιγράφουν το σύστημα επηρεάζουν ο ένας τον άλλον βάσει του πίνακα:
 0 0.4 0.25 0 0.3
 0.36 0  ,
 0 0 0 ενώ οι αρχικές τους τιμές είναι (0.10, 0.01, 0.45, 0.39 0.04).
 0.45 0 0 0 0 
 
 0.9 0 0 0 0 
 0 0.6 0 0.3 0 

6.4) Να αναπτυχθεί κώδικας σε MATLAB, ο οποίος να υλοποιεί τον κανόνα ανανέωσης των τιμών των
εννοιών ενός ΑΓΧ με βάση την Εξ.(6.1), για μεταβλητό αριθμό εννοιών και τυχαίο σύνολο βαρών.
6.5) Να αναπτυχθεί κώδικας σε MATLAB, ο οποίος να υλοποιεί τον αλγόριθμο εκπαίδευσης DHL.

6-13
Βιβλιογραφία
Axelrod, R. (1976). Structure of Decision: The Cognitive Maps of Political Elites. Princeton, NJ: Princeton
University Press.
Dickerson, J.A. & Kosko, B. (1994). Virtual worlds as fuzzy cognitive maps. Presence, 3(2), 173-189.
Edwards, D. (2000). Introduction to Graphical Modelling (2nd ed.). Springer, New York, NY.
Jordan, M.I. & Sejnowski. T.J. (Eds.). (2001). Graphical Models: Foundations of Neural Computation.
Cambridge, MA: The MIT Press.
Kang, B., Deng, Y., Sadiq, R. & Mahadevan, S. (2012). Evidential cognitive maps. Knowledge-Based
Systems, 35, 77-86.
Kosko, B. (1986). Fuzzy cognitive maps. Intl. Journal Man-Machine Studies, 24, 65-75.
Kosko, B. (1992). Neural Networks and Fuzzy Systems: A Dynamical Systems Approach to Machine
Intelligence. Upper Saddle River, NJ: Prentice-Hall.
Kotsiantis, S.B. (2013). Decision trees: a recent overview. Artificial Intelligence Review, 39(4), 261-283.
Μανωλόπουλος, Γ. (2000). Μαθήματα Θεωρίας Γράφων  Θεμελιώσεις - Αλγόριθμοι - Εφαρμογές. Αθήνα,
Ελλάς, Εκδόσεις Νέων Τεχνολογιών.
Neapolitan, R.E. (1989). Probabilistic Reasoning in Expert Systems: Theory and Algorithms. New York,
N.Y.: Wiley.
Oja, E. (1989). Neural networks, principal components and subspaces. International Journal of Neural
Systems, 1, 61-68.
Papageorgiou, E.I. (2012). Learning algorithms for fuzzy cognitive maps - a review study. IEEE Transactions
on Systems, Man, and Cybernetics, Part C, 42(2), 150-163.
Papageorgiou, E.I. & Iakovidis, D.K. (2013). Intuitionistic fuzzy cognitive maps. IEEE Transactions on Fuzzy
Systems, 21(2), 342-354.
Papageorgiou, E.I. & Kannappan, A. (2012). Fuzzy cognitive map ensemble learning paradigm to solve
classification problems: application to autism identification. Applied Soft Computing, 12(12), 3798-
3809.
Papageorgiou, E.I. & Salmeron, J.L. (2013). A review of fuzzy cognitive maps research during the last
decade. IEEE Transactions on Fuzzy Systems, 21(1), 66-79.
Papageorgiou, E.I., Stylios, C.D. & Groumpos, P.P. (2003). Fuzzy cognitive map learning based on nonlinear
Hebbian rule. Advances in Artificial Intelligence, (LNAI 2903, pp. 254-266). Berlin, Germany:
Springer.
Papageorgiou, E.I., Stylios, C.D. & Groumpos, P.P. (2004). Active Hebbian learning algorithm to train fuzzy
cognitive maps. International Journal of Approximate Reasoning, 37(3), 219-249.
Papageorgiou, E.I., Stylios, C.D. & Groumpos, P.P. (2006). Unsupervised learning techniques for fine-tuning
fuzzy cognitive map casual links. International Journal of Human-Computer Studies, 64(8), 727-743.
Papakostas, G.A. & Koulouriotis, D.E. (2010). Classifying patterns using fuzzy cognitive maps. In M. Glykas
(Ed.), Fuzzy Cognitive Maps: Advances in Theory, Methodologies, Tools and Applications (pp. 291-
306). Berlin, Germany: Springer.
Papakostas, G.A., Papageorgiou, E.I. & Kaburlasos, V.G. (2015). Linguistic Fuzzy Cognitive Map (LFCM)
for pattern recognition. In IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), 2-5 August
2015.
Papakostas, G.A., Boutalis, Y.S., Koulouriotis, D.E. & Mertzios, B.G. (2008). Fuzzy cognitive maps for
pattern recognition applications. International Journal of Pattern Recognition and Artificial
Intelligence, 22(8), 1461-1468.
Papakostas, G.A., Koulouriotis, D.E., Polydoros, A.S. & Tourassis, V.D. (2012). Towards Hebbian learning
of fuzzy cognitive maps in pattern classification problems. Expert Systems with Applications, 39(12),
10620-10629.
Pearl, J. (1985). Bayesian networks: a model of self-activated memory for evidential reasoning. In
Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine,
CA, 329-334.
Pearl, J. (1988) Probabilistic Reasoning in Intelligent Systems. San Francisco, CA: Morgan Kaufmann.
Pedrycz, W. & Homenda, W. (2014). From fuzzy cognitive maps to granular cognitive maps. IEEE
Transactions on Fuzzy Systems, 22(4), 859-869.

6-14
Quinlan, J.R. (1992). C4.5: Programs for Machine Learning. San Mateo, CA: Morgan Kaufman.
Salmeron, J.L. (2010). Modelling grey uncertainty with Fuzzy Grey Cognitive Maps. Expert Systems with
Applications, 37(12), 7581-7588.
Shannon, C.E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379-
423.
Stylios, C.D. & Groumpos, P.P. (1998). The challenge of modelling supervisory systems using fuzzy
cognitive maps. Journal of Intelligent Manufacturing, 9, 339-345.
Swartout, W. & Tate, A. (1999). Ontologies. IEEE Intelligent Systems, 14(1), 18-19.

6-15
Μέρος-ΙΙΙ: Μια Ενοποιητική Προσέγγιση στην
Υπολογιστική Νοημοσύνη
Εισαγωγή στο Μέρος-ΙΙΙ
Ήδη εξηγήθηκε στην εισαγωγή του παρόντος βιβλίου πως μια τεχνολογία ΥΝ αναμένεται να είναι
συμβατή με τις αρχές της κοινής λογικής. Στο Μέρος-ΙΙΙ παρουσιάζεται εν συντομία μια μαθηματική
δομή, το μαθηματικό πλέγμα για μοντελοποίηση της λογικής. Συγκεκριμένα, παρουσιάζονται
χρήσιμες έννοιες και αποτελέσματα από τη θεωρία πλεγμάτων (Birkhoff, 1967), η οποία εναλλακτικά
είναι γνωστή και ως θεωρία διάταξης. Στη συνέχεια συνοψίζονται από τη βιβλιογραφία τρεις
διαφορετικές μεθοδολογίες της Διευρυμένης ΥΝ, οι οποίες βασίζονται στη θεωρία πλεγμάτων. Τέλος,
το ενδιαφέρον επικεντρώνεται στο πλέγμα των Αριθμών Διαστημάτων (ΑΔ), το οποίο έχει προταθεί
από τους συγγραφείς αυτού του βιβλίου και εδώ παρουσιάζεται εποικοδομητικά ως μια αυξανόμενης
πολυπλοκότητας ιεραρχία με βάση το σύνολο R των πραγματικών αριθμών.
Το σύνολο R είναι αυτό που χρησιμοποιείται παραδοσιακά για την ανάπτυξη μοντέλων (βλ.
συναρτήσεων) της μορφής f: RNRM στη βάση μετρήσεων (Kaburlasos, 2006). Για παράδειγμα,
πολλοί νόμοι των Φυσικών Επιστημών, της Οικονομίας, της Μηχανικής κ.λπ. μοντελοποιούνται
επιτυχώς στο χώρο RN. Σημειώστε ότι μια τυπική τεχνολογία ΥΝ στην πράξη χρησιμοποιείται ως
μηχανισμός υλοποίησης μιας συνάρτησης της μορφής f: RNRM (Kaburlasos & Kehagias, 2007).
Ωστόσο, δεν είναι προφανής η μεταφορά τεχνικών μοντελοποίησης από το χώρο RN των αριθμητικών
δεδομένων σε χώρους μη-αριθμητικών δεδομένων που απαιτούν νέες τεχνολογίες, όπως περιγράφεται
στη συνέχεια.
Με την εξάπλωση των Η/Υ παρουσιάστηκε η ανάγκη για επεξεργασία, σε μεγάλη κλίμακα,
μη-αριθμητικών δεδομένων, όπως λογικές τιμές, εικόνες, (ασαφή) σύνολα, γράφοι, κείμενο κ.λπ. με
μη-αριθμητικές αναπαραστάσεις και αντίστοιχες σημασιολογίες. Σε έναν αναδυόμενο νέο κόσμο
εξακολουθεί να υπάρχει η ανάγκη για μοντελοποίηση, π.χ. για αναγνώριση, πρόβλεψη κ.λπ. Είναι
ενδιαφέρον ότι αρκετά από τα (μη) αριθμητικά δεδομένα τα οποία εμφανίζονται στην πράξη είναι
μερικώς διατεταγμένα και μάλιστα είναι στοιχεία ενός μαθηματικού πλέγματος. Σημειώστε ότι
πρόσφατα ο όρος υπολογισμός σε πλέγματα (lattice computing) προτάθηκε ως «ένα συνεχώς
εξελισσόμενο σύνολο μαθηματικών εργαλείων καθώς και μεθοδολογιών μαθηματικής
μοντελοποίησης με ικανότητα χειρισμού μερικώς-διατεταγμένων δεδομένων ως τέτοιων, στα οποία
συμπεριλαμβάνονται λογικές τιμές, αριθμοί, σύνολα, σύμβολα, γράφοι κ.λπ.» (Esmi κ.ά., υπο
έκδοση· Graña & Chyzhyk, υπο έκδοση· Kaburlasos & Papakostas, 2015· Kaburlasos κ.ά., 2013·
Sussner, υπο έκδοση· Valle & Sussner, 2013). Δηλαδή στον υπολογισμό σε πλέγματα χειριζόμαστε
μερικώς-διατεταγμένα δεδομένα ως τέτοια, χωρίς να τα μετασχηματίζουμε σε άλλου είδους δεδομένα,
π.χ. σε πραγματικούς αριθμούς.
Η θεωρία διάταξης προτείνεται εδώ ως ένα γενικό πεδίο μοντελοποίησης, το οποίο, πέραν
των μετρήσεων, μπορεί επιπλέον να αναπαραστήσει και σημασιολογίες. Συγκεκριμένα, η καινοτόμα
πρόταση εδώ είναι η διεύρυνση του πεδίου μοντελοποίησης από το ολικώς διατεταγμένο σύνολο R σε
(μερικώς διατεταγμένα) πλέγματα και, τελικά, ο υπολογισμός μιας συνάρτησης της μορφής f: LK,
όπου L και K είναι πλέγματα. Ένα συγκριτικό πλεονέκτημα μοντελοποίησης σε πλέγματα είναι η
αναπαράσταση σημασιολογιών με τη σχέση μερικής διάταξης μεταξύ των δεδομένων και, τελικά, ο
υπολογισμός ακόμα και με σημασιολογίες αντί μόνο για υπολογισμό τύπου αλέσματος αριθμών που
εφαρμόζεται παραδοσιακά. Επιπλέον, σημειώστε ότι επειδή οι κόκκοι πληροφορίας είναι μερικώς
διατεταγμένοι (Liu κ.ά., 2013· Sussner & Esmi, 2011), η θεωρία διάταξης θα μπορούσε να
χρησιμοποιηθεί για ανάλυση και σχεδίαση σε εφαρμογές κοκκώδους υπολογισμού (Pedrycz κ.ά.,
2008· Zadeh, 1997).
Τα τρία κεφάλαια του Μέρους-ΙΙΙ παρουσιάζουν το ακόλουθο υλικό. Το κεφάλαιο 7
παρουσιάζει βασικές έννοιες από τη θεωρία πλεγμάτων προς χρήση στα επόμενα κεφάλαια. Το
κεφάλαιο 8 συνοψίζει μεθοδολογίες από τη βιβλιογραφία που περιλαμβάνουν (1) Λογική και
Συλλογιστική, (2) Φορμαλιστική Ανάλυση Εννοιών και (3) Μαθηματική Μορφολογία, όπου ανάλυση
και σχεδίαση βασίζονται στη θεωρία πλεγμάτων. Τέλος, το κεφάλαιο 9 εστιάζει στη μελέτη των
Αριθμών Διαστημάτων (ΑΔ), όπου περιγράφεται ο τρόπος με τον οποίο το μερικώς διατεταγμένο
πλέγμα των ΑΔ μπορεί να ενοποιήσει δημοφιλείς σημασιολογικές αναπαραστάσεις που
περιλαμβάνουν κατανομές πιθανότητας /εφικτότητας. Σημειώστε ότι κατά καιρούς έχουν
πραγματοποιηθεί κοινές παρουσιάσεις μεθοδολογιών ΥΝ σε πλέγματα (Kaburlasos, 2011· Kaburlasos
& Ritter, 2007· Kaburlasos κ.ά., 2008· Kaburlasos κ.ά., 2014· Liu κ.ά., υπο έκδοση).

III-2
Βιβλιογραφία
Birkhoff, G. (1967). Lattice Theory (Colloquium Publications 25). Providence, RI: American
Mathematical Society.
Esmi, E., Sussner, P. & Sandri, S. (to be published). Tunable equivalence fuzzy associative memories.
Fuzzy Sets and Systems.
Graña, M. & Chyzhyk, D. (to be published). Image understanding applications of lattice
autoassociative memories. IEEE Transactions on Neural Networks and Learning Systems.
Kaburlasos, V.G. (2006). Towards a Unified Modeling and Knowledge-Representation Based on
Lattice Theory (Studies in Computational Intelligence 27). Heidelberg, Germany: Springer.
Kaburlasos, V.G. (Ed.). (2011). Special Issue on: Information Engineering Applications Based on
Lattices. Information Sciences, 181(10), 1771-1773.
Kaburlasos, V.G & Kehagias, A. (2007). Novel fuzzy inference system (FIS) analysis and design based
on lattice theory. IEEE Transactions on Fuzzy Systems, 15(2), 243-260.
Kaburlasos, V.G. & Papakostas, G.A. (2015). Learning distributions of image features by interactive
fuzzy lattice reasoning (FLR) in pattern recognition applications. IEEE Computational
Intelligence Magazine, 10(3), 42-51.
Kaburlasos, V.G. & Ritter, G.X. (Eds.). (2007). Computational Intelligence Based on Lattice Theory
(Studies in Computational Intelligence 67). Heidelberg, Germany: Springer.
Kaburlasos, V.G., Papadakis, S.E. & Papakostas, G.A. (2013). Lattice computing extension of the
FAM neural classifier for human facial expression recognition. IEEE Transactions on Neural
Networks and Learning Systems, 24(10), 1526-1538.
Kaburlasos, V., Priss, U. & Graña, M. (Eds.). (2008). Proc. of the Lattice-Based Modeling (LBM)
Workshop, in conjunction with The Sixth International Conference on Concept Lattices and
Their Applications (CLA). Olomouc, Czech Republic: Palacký University.
Kaburlasos, V.G., Tsoukalas, V. & Moussiades, L. (2014). FCknn: a granular knn classifier based on
formal concepts. In Proceedings of the World Congress on Computational Intelligence (WCCI)
2014, FUZZ-IEEE Program, 6-11 July 2014, (pp. 61-68).
Liu, Y., Kaburlasos, V.G. & Xu, Y. (to be published). Lattice implication algebra with application in
fuzzy lattice reasoning. In G.A. Papakostas, A.G. Hatzimichailidis, V.G. Kaburlasos (Eds.),
Handbook of Fuzzy Sets Comparison - Theory, Algorithms and Applications (Gate to Computer
Science and Research 7). Xanthi, Greece: Science Gate Publishing.
Liu, H., Xiong, S. & Wu, C.-a. (2013). Hyperspherical granular computing classification algorithm
based on fuzzy lattices. Mathematical and Computer Modelling, 57(3-4), 661-670.
Pedrycz, W., Skowron, A. & Kreinovich, V. (Eds.). (2008). Handbook of Granular Computing.
Chichester, U.K.: Wiley.
Sussner, P. (to be published). Lattice fuzzy transforms from the perspective of mathematical
morphology. Fuzzy Sets and Systems.
Sussner, P. & Esmi, E.L. (2011). Morphological perceptrons with competitive learning: Lattice-
theoretical framework and constructive learning algorithm. Information Sciences, 181(10),
1929-1950.
Valle, M.E. & Sussner, P. (2013). Quantale-based autoassociative memories with an application to the
storage of color images. Pattern Recognition Letters, 34(14), 1589-1601.
Zadeh, L.A. (1997). Toward a theory of fuzzy information granulation and its centrality in human
reasoning and fuzzy logic. Fuzzy Sets Systems, 90(2), 111-127.

III-3
Κεφάλαιο 7: Η Θεωρία Πλεγμάτων στην
Υπολογιστική Νοημοσύνη
Αυτό το κεφάλαιο, πέρα από την παρουσίαση μαθηματικών εννοιών και εργαλείων, προτείνει μια ενοποίηση
στην ΥΝ μέσω της ενοποίησης ανόμοιων (μερικώς διατεταγμένων) τύπων δεδομένων, που περιλαμβάνουν
λογικές τιμές, αριθμούς (μαζί και σήματα), (ασαφή) σύνολα, γράφους, συμβολοσειρές, κ.λπ. στο πλαίσιο της
θεωρίας πλεγμάτων.
Αυτό το κεφάλαιο, συνοψίζει ειδικά μαθηματικά εργαλεία της θεωρίας πλεγμάτων με σκοπό τη
διάδοσή τους σε εφαρμογές ΥΝ. Γνώσεις υποδομής από τη θεωρία πλεγμάτων παρουσιάζονται στο
Παράρτημα αυτού του κεφαλαίου προς διευκόλυνση της ανάγνωσης. Στη συνέχεια μεθοδεύεται η
ασαφοποίηση της δυαδικής σχέσης «μερική διάταξη» σε ένα κλασικό πλέγμα.

7.1 Ασαφή Πλέγματα


Έστω ένα (κλασικό) πλέγμα (L,⊑), όπου για x, y  L ισχύει είτε (x,y)⊑, είτε (x,y)⊑. Με άλλα λόγια, ο
ισχυρισμός «x ⊑ y» είναι είτε αληθής, είτε ψευδής αντίστοιχα. Ο υπολογισμός ενός βαθμού αλήθειας, υπό
κάποια έννοια, του ισχυρισμού «x ⊑ y» είναι χρήσιμος για λήψη αποφάσεων σε πρακτικές εφαρμογές. Για τον
προαναφερθέντα λόγο, εισάγουμε την έννοια του ασαφούς πλέγματος με σκοπό να ασαφοποιήσουμε τη σχέση
«μερική διάταξη» ενός πλέγματος (L,⊑), ώστε να την επεκτείνουμε σε κάθε ζεύγος  x, y   L  L . Με άλλα
λόγια το ασαφές πλέγμα είναι ένα ασαφές σύνολο στο σύνολο αναφοράς L  L .
Ως ασαφές πλέγμα (fuzzy lattice) ορίζουμε μια τριάδα (L,⊑,), όπου (L,⊑) είναι πλέγμα και
L  L,   είναι ασαφές σύνολο τέτοιο, ώστε   x, y   1 , εάν και μόνο εάν x ⊑ y. Παρατηρήστε ότι το ασαφές
πλέγμα (L,⊑,) ασαφοποιεί τη δυαδική σχέση της διάταξης στο πλέγμα (L,⊑).
Σημειώστε ότι διάφοροι συγγραφείς έχουν χρησιμοποιήσει τον όρο «ασαφές πλέγμα» στα
μαθηματικά, με διαφορετικό περιεχόμενο (Ajmal & Thomas, 1994· Kehagias & Konstantinidou, 2003·
Tepavčević & Trajkovski, 2001). Όμως, ο παραπάνω ορισμός εισήχθη στο πλαίσιο εφαρμογών μηχανικής-
μάθησης και ταξινόμησης σε ιατρικές βάσεις δεδομένων (Kaburlasos, 1992). Άλλοι συγγραφείς
χρησιμοποίησαν τον ίδιο όρο (βλ. ασαφές πλέγμα) για να παρουσιάσουν την ίδια έννοια στα μαθηματικά
(Chakrabarty, 2001· Nanda, 1989), ενώ στη θεωρία πιθανότητας Bayes η ίδια έννοια παρουσιάστηκε με το
όνομα συνάρτηση ζήτα (Knuth, 2005).
Όπως προαναφέρθηκε, το κίνητρο για τον ορισμό ενός ασαφούς πλέγματος είναι η ποσοτικοποιημένη
σύγκριση μη-συγκρίσιμων (βλ. παράλληλων) στοιχείων πλέγματος. Συγκεκριμένα, σε κάθε ζεύγος
 x, y  L  L επισυνάπτεται ένας πραγματικός αριθμός   x, y  0,1 που δείχνει το βαθμό κατά τον οποίο
το x είναι μικρότερο-ίσο από το y. Όταν x ⊑ y, τότε η ασαφής σχέση  ισχύει μεταξύ των x και y κατά το
μέγιστο δυνατό βαθμό (δηλαδή 1), αλλά η συνάρτηση  μπορεί επίσης να ισχύει σε μικρότερο βαθμό, όταν
x || y (δηλαδή όταν τα x και y είναι μη-συγκρίσιμα). Ως εκ τούτου, η συνάρτηση  μπορεί να ερμηνευτεί
ως μια ασθενής (ασαφής) σχέση μερικής διάταξης (weak (fuzzy) partial order relation). Πιο
συγκεκριμένα, η συνάρτηση  χαρακτηρίζεται από μια ασθενή ιδιότητα μεταβατικότητας, ώστε όταν είναι
ταυτόχρονα   x, y   1 και   y, z   1 , τότε   x, z   1 . Εάν όμως είναι   x, y   1 ή   y, z   1 , τότε το
  x, z  μπορεί να λάβει οποιαδήποτε τιμή στο διάστημα [0,1].
Σημειώστε ότι η έννοια ασαφές πλέγμα είναι διαφορετική από την έννοια L-ασαφές σύνολο (Goguen,
1967). Η τελευταία είναι μια γενίκευση της έννοιας του ασαφούς συνόλου τέτοια ώστε η συνάρτηση (βαθμού)
συμμετοχής απεικονίζει, συνήθως, το σύνολο αναφοράς σε κάποιο πλήρες πλέγμα, αντί να το απεικονίζει
αποκλειστικά στο συνηθισμένο κλειστό διάστημα [0,1] , όπως κάνει η κλασική θεωρία ασαφών συνόλων.
Στη συνέχεια μεθοδεύουμε τον υπολογισμό ενός ασαφούς πλέγματος εισάγοντας την ακόλουθη
συνάρτηση (Kaburlasos & Papakostas, 2015).

7-1
Έστω ένα πλέγμα (L,⊑). Ως βαθμός διάταξης (fuzzy order) ορίζεται μια συνάρτηση
 : L  L  0,1 η οποία ικανοποιεί τις παρακάτω δύο ιδιότητες.

C1. u⊑w    u, w  1 .
C2. u⊑w    x, u     x, w . (Συνέπεια)

Η συνάρτηση του βαθμού διάταξης μπορεί να χρησιμοποιηθεί για να εκφράσει το βαθμό που ένα
στοιχείο πλέγματος είναι μικρότερο/ίσο από ένα άλλο στοιχείο. Έτσι, ο συμβολισμός (x⊑y) μπορεί να
χρησιμοποιηθεί αντί του συμβολισμού   x, y  .
Παρατηρήστε ότι η ιδιότητα C1 απαιτεί τη μεγιστοποίηση του βαθμού διάταξης (u,w)=1 τότε και
μόνο τότε, αν το στοιχείο u είναι μικρότερο/ίσο από το στοιχείο w. Με άλλα λόγια, η ιδιότητα C1 απαιτεί τη
μεγιστοποίηση του βαθμού διάταξης αποκλειστικά για τα στοιχεία τα οποία είναι διατεταγμένα στο πλέγμα
(L,⊑). Ενώ, η ιδιότητα C2 απαιτεί κάποιου είδους συνέπεια για μια συνάρτηση βαθμού διάταξης υπό την
ακόλουθη έννοια. Αν το στοιχείο u περιέχεται στο στοιχείο w, η ιδιότητα C2 απαιτεί ένα οποιοδήποτε
στοιχείο x να περιέχεται στο u «όχι περισσότερο» από ό,τι περιέχεται στο w.
Ο βαθμός διάταξης (x⊑y) αποτελεί μια γενίκευση εναλλακτικών ορισμών που προτείνονται στη
βιβλιογραφία για την ποσοτικοποίηση του βαθμού εγκλεισμού ενός (ασαφούς) συνόλου σε ένα άλλο (Fan
κ.ά., 1999· Sinha & Dougherty 1993· Sinha & Dougherty 1995· Young, 1996· Zhang & Zhang, 2009).
Ωστόσο, οι προαναφερθέντες, εναλλακτικοί ορισμοί αφορούν μόνον επικαλυπτόμενα ζεύγη (ασαφών)
συνόλων, αλλιώς ο αντίστοιχος βαθμός περιεκτικότητας είναι ίσος με μηδέν. Αντιθέτως, ο παραπάνω ορισμός
για το βαθμό διάταξης είναι πιο γενικός, διότι (α) έχει εφαρμογή σε κάθε πλέγμα και όχι μόνο στο πλέγμα των
(ασαφών) συνόλων, και (β) αφορά ανεξαιρέτως όλα τα ζεύγη στοιχείων οποιουδήποτε πλέγματος.
Κάθε χρήση μιας συνάρτησης βαθμού διάταξης (σ) ονομάζεται συλλογιστική ασαφών πλεγμάτων
(ΣΑΠ) (fuzzy lattice reasoning (FLR)) (Kaburlasos & Kehagias, 2014). Συγκεκριμένα, μια συνάρτηση
βαθμού διάταξης (σ) υποστηρίζει δύο διαφορετικούς τύπους συλλογιστικής, οι οποίοι είναι ο γενικευμένος
τρόπος που θέτει και η συλλογιστική κατ’ αναλογία (reasoning by analogy), όπως εξηγείται στη συνέχεια.
Από τη μια, ο γενικευμένος τρόπος που θέτει είναι ένας τύπος παραγωγικής συλλογιστικής (deductive
reasoning) σύμφωνα με τον οποίον, χρησιμοποιώντας μαθηματικό συμβολισμό της θεωρίας πλεγμάτων,
δοθέντων (α) ενός λογικού κανόνα ac, και (β) ενός αιτίου a0 έτσι ώστε a0⊑a, έπεται το αποτέλεσμα c. Από
την άλλη, η συλλογιστική κατ’ αναλογία είναι ένας τύπος προσεγγιστικής συλλογιστικής (approximate
reasoning) κατάλληλος για χειρισμό ελλιπούς γνώσης όπως εξηγείται στη συνέχεια. Συγκεκριμένα, δοθέντων
(α) ενός συνόλου κανόνων aici, i{1,…,L}, και (β) ενός αιτίου a0 τέτοιο ώστε a0⋢ai, i{1,…,L},
επιλέγεται εκείνος ο κανόνας aJcJ, ο οποίος μεγιστοποιεί τη συνάρτηση βαθμού διάταξης
J arg max (a0 ai ) . Έπεται το αποτέλεσμα cJ.
i{1,...,L}

Έχει αποδειχθεί ότι εάν η συνάρτηση v :L  R0 είναι θετικής τιμοδότησης στο πλέγμα (L,⊑) τότε οι
v u 
δύο συναρτήσεις (α) σίγμα-συνένωση (sigma-join): ⊔(x,u) = , και (β) σίγμα-διατομή (sigma-
v x u
v x u
meet): ⊓(x,u) = είναι (συναρτήσεις) βαθμού διάταξης.
v  x
Έστω ένα πλέγμα (L,⊑) και ένας βαθμός διάταξης  : L  L  0,1 . Τότε, η τριάδα (L,⊑,) είναι ένα
ασαφές πλέγμα. Συνεπώς, η χρησιμότητα της ύπαρξης ενός βαθμού διάταξης () σε πλέγμα (L,⊑) είναι ότι
μετασχηματίζει το (L,⊑) σε ασαφές πλέγμα και έτσι επιτρέπει την ποσοτικοποιημένη σύγκριση δύο
οποιονδήποτε στοιχείων του (L,⊑), είτε συγκρίσιμων στοιχείων είτε μη-συγκρίσιμων στοιχείων.

7-2
Όταν στο πλέγμα (L,⊑) υπάρχει ελάχιστο στοιχείο o, μια λογική απαίτηση είναι να ισχύει η ισότητα
⊔(x,o) = 0 = ⊓(x,o), για κάθε x⊐o, δηλ. ο βαθμός κατά τον οποίον οποιοδήποτε (μη-ελάχιστο) στοιχείο είναι
μικρότερο ή ίσο από το ελάχιστο στοιχείο o είναι μηδέν. Η προαναφερθείσα απαίτηση συνεπάγεται v(o)= 0.

7.2 Επεκτάσεις σε Ιεραρχίες Πλεγμάτων


Αυτή η ενότητα μελετάει ιεραρχίες πλεγμάτων όπου, επίσης, εισάγει συναρτήσεις βαθμού διάταξης καθώς
και μετρικές συναρτήσεις.

7.2.1 Καρτεσιανά Γινόμενα Πλεγμάτων


Ένα πλέγμα (L,⊑) μπορεί να ισούται με το Καρτεσιανό γινόμενο Ν  ενδεχομένως ανόμοιων  βασικών
(constituent) πλεγμάτων (Li,⊑), i=1,…,N. Δηλαδή μπορεί να είναι (L,⊑) = (L1,⊑)…(LN,⊑) όπου κάθε
βασικό πλέγμα (Li,⊑), i=1,…,N χαρακτηρίζεται από τη δική του σχέση διάταξης ⊑. Σημειώστε ότι, χάριν
απλότητας, χρησιμοποιούμε τα ίδια σύμβολα ⊑, ⊔, ⊓ σε κάθε πλέγμα. Επίσης χάριν απλότητας θα
χρησιμοποιούμε τα ίδια σύμβολα o και i, αντίστοιχα, για το ελάχιστο και το μέγιστο στοιχείο ενός πλήρους
πλέγματος, εκτός αν επισημαίνεται διαφορετικά. Η διατομή (⊓) και η συνένωση (⊔) στο πλέγμα (L,⊑) =
(L1,⊑)…(LN,⊑) υπολογίζονται, αντίστοιχα, ως
x⊓y = (x1,…,xN)⊓(y1,…,yN) = (x1⊓y1,…,xN⊓yN) και
x⊔y = (x1,…,xN)⊔(y1,…,yN) = (x1⊔y1,…,xN⊔yN).

Επιπλέον, ισχύει (x1,…,xN) ⊑ (y1,…,yN)  x1⊑y1,…,xN⊑yN.


Αν οι συναρτήσεις v1,…,vN είναι τιμοδοτήσεις στα πλέγματα (L1,⊑),…,(LN,⊑), αντίστοιχα, τότε η
συνάρτηση v: L=L1…LNR που δίδεται ως v= v1+…+vN είναι μια τιμοδότηση στο πλέγμα
(L=L1…LN,⊑). Εάν όλες οι τιμοδοτήσεις v1,…,vN είναι μονότονες τότε η τιμοδότηση v= v1+…+vN είναι
μονότονη. Εάν, επιπλέον, τουλάχιστον μία από τις τιμοδοτήσεις v1,…,vN είναι θετική τότε η τιμοδότηση v
είναι θετική.
Από συναρτήσεις θετικής τιμοδότησης σε (βασικά) πλέγματα τελικά προκύπτουν συναρτήσεις
μετρικές καθώς και βαθμού διάταξης όπως περιγράφεται στη συνέχεια.
Πρώτον, από μία συνάρτηση vi: LiR θετικής τιμοδότησης στο (βασικό) πλέγμα (Li,⊑) ορίζεται μια
μετρική συνάρτηση di: Li R 0 σύμφωνα με τον τύπο di(xi,yi)= vi(x1⊔y1)-vi(x1⊓y1), i  1,..., N . Συνεπώς, στο
Καρτεσιανό γινόμενο (L,⊑)= (L1,⊑)…(LN,⊑), ορίζεται μια μετρική Minkowski συνάρτηση

d (.;p) : L  L  R ως ακολούθως
0

d  x, y;p    d1  x1 , y1    ...   d N  xN , yN    , p R, xi , yi Li με i  1,..., N


p 1/p p

 

όπου x   x1 ,..., xN  , y   y1 ,..., yN  .

Δεύτερον, από συναρτήσεις θετικής τιμοδότησης v1,…,vN σε (βασικά) πλέγματα (L1,⊑),…,(LN,⊑)


αντίστοιχα, ορίζεται μια συνάρτηση θετικής τιμοδότησης v : L  L1  ...  L N  R0 η οποία δίδεται ως
v  v1  ...  vN . Έτσι, προκύπτουν οι ακόλουθοι δύο βαθμοί διάταξης ⊔: LL[0,1] και ⊓: LL[0,1]
αντίστοιχα.

7-3
v  u  v u 
v  u1 , , uN 
N

Σίγμα-συνένωσης:   x, u     i=1 i i
και
v  x u v  x u , , x 1 u   v x u 
1 N N
N
i=1 i i i

v  x u v  x u , , x u   v x u 
N

Σίγμα-διατομής:   x, u     i=1 i
1 1 N N i i

v x v x , , x  1  v x N
N
i=1 i i

στο Καρτεσιανό γινόμενο πλέγμα (L,⊑)= (L1…LN,⊑).


Εναλλακτικά, υπάρχει ο ακόλουθος τρόπος ορισμού ενός βαθμού διάταξης στο Καρτεσιανό γινόμενο
πλέγμα (L,⊑)= (L1…LN,⊑). Συγκεκριμένα, δοθείσης μιας συνάρτησης vi :Li  R0 θετικής τιμοδότησης σε
κάθε πλέγμα (Li,⊑), i{1,…,N}, σύμφωνα με τα παραπάνω, έπονται οι δύο συναρτήσεις βαθμού διάταξης (α)
σίγμα-συνένωση ⊔: LiLi[0,1], και (β) σίγμα-διατομή ⊓: LiLi[0,1], αντίστοιχα. Έστω i: LiLi[0,1],
i{1,…,N} μια συγκεκριμένη συνάρτηση βαθμού διάταξης στο πλέγμα (Li,⊑), δηλ. η i(.,.) ισούται είτε με
⊔(.,.), είτε με ⊓ (.,.). Δοθέντων μη-αρνητικών πραγματικών αριθμών 1,…,N τέτοιων ώστε 1+…+N = 1,
ένας βαθμός διάταξης c: LL[0,1] στο πλέγμα (L,⊑)= (L1…LN,⊑) δίνεται από τον κυρτό (convex)
N
συνδυασμό (combination) c ( x  ( x1 ,..., xN ), u  (u1 ,..., uN ))   i i ( xi , ui ) . Άλλοι δύο βαθμοί διάταξης
i 1
N
δίνονται από τους τύπους (α) (x,u)= min i ( xi , ui ) και (β) (x,u)=
i{1,..., N }
 i ( xi , ui ) αντίστοιχα.
i 1

7.2.2 Πλέγματα Διαστημάτων


Έστω (I,) το μδσυν των (συνηθισμένων) διαστημάτων ενός πλέγματος (L,⊑). Ένα ενδιαφέρον πλέγμα είναι
το (I{},), όπου η διατομή () ορίζεται ως (1) x= για κάθε x(I{}) και (2) [a,b][c,d] =
[a⊔c,b⊓d] εάν a⊔c⊑b⊓d και [a,b][c,d] =  εάν a⊔c⋢b⊓d, για [a,b],[c,d]I. Ενώ, η συνένωση (⊔) ορίζεται
ως (1) x⊔=x, για κάθε x(I{}) και (2) [a,b]⊔[c,d] = [a⊓c,b⊔d], για [a,b],[c,d]I. Σημειώστε ότι το
πλέγμα (I{},) είναι ατομικό, διότι κάθε διάστημα [a,b]I είναι η συνένωση δύο ατόμων, συγκεκριμένα
[a,b] = [a,a]⊔[b,b]. Το ατομικό πλέγμα (I{},) αποτελεί εργαλείο για την αναλυτική μελέτη σύνθετων
αναπαραστάσεων-δεδομένων, όπως εξηγείται παρακάτω.
Ιδιαίτερο ενδιαφέρον παρουσιάζει η περίπτωση που το πλέγμα (L,⊑) είναι πλήρες με ελάχιστο και
μέγιστο στοιχείο o και i αντίστοιχα. Σ’ αυτή τη περίπτωση το πλέγμα (Ι1=I{},) είναι και αυτό πλήρες με
μέγιστο στοιχείο το I=[o,i]. Για το ελάχιστο στοιχείο O που είναι το κενό σύνολο (), επιλέγουμε την
αναπαράσταση O=[i,o]. Ένα στοιχείο του συνόλου I1= I{[i,o]} καλείται διάστημα Τύπου-1 (Τ1) (type-1
(T1) interval). Συγκεκριμένα πλεονεκτήματα της αναπαράστασης O=[i,o] παρουσιάζονται στη συνέχεια.
Ένα πλεονέκτημα της αναπαράστασης O=[i,o] είναι ότι η σχέση διάταξης [a,b]⊑[c,e], η οποία
ορίζεται ως [a,b]⊑[c,e]  «c⊑a.ΚΑΙ.b⊑e» στο πλέγμα (I1,⊑), είναι συμβατή με την ισοδυναμία [a,b][c,e]
 c⊑a⊑b⊑e στο μδσυν (I,). Ένα άλλο πλεονέκτημα της αναπαράστασης O=[i,o] είναι ότι ο ορισμός της
διατομής καθώς και της συνένωσης στο πλέγμα (I1,⊑) είναι σε συμφωνία με τους αντίστοιχους ορισμούς στο
πλέγμα (I{},), διότι (α) η διατομή (⊓) στο πλέγμα (I1,⊑) ορίζεται ως [a,b]⊓[c,e] = [a⊔c,b⊓e] εάν
a⊔c⊑b⊓e, και [a,b]⊓[c,e] = [i,o], εάν a⊔c⋢b⊓e και (β) η συνένωση (⊔) στο (I1,⊑) ορίζεται ως [a,b]⊔[c,e] =
[a⊓c,b⊔e]. Συνεπώς, σε αυστηρή μαθηματική ορολογία, λέμε ότι τα πλέγματα (I{},) και (I1,⊑) είναι
ισομορφικά, συμβολικά (I{},)  (I1,⊑). Σημειώστε ότι το πλέγμα (I1,⊑) είναι και αυτό ατομικό.

7-4
Στη συνέχεια αναζητούμε συναρτήσεις μετρικές, καθώς και βαθμού διάταξης, στο πλέγμα (I1,⊑).
Γνωρίζουμε ήδη πώς να ορίζουμε τις προαναφερθείσες συναρτήσεις χρησιμοποιώντας μια συνάρτηση θετικής
τιμοδότησης. Ωστόσο, μια συνάρτηση θετικής τιμοδότησης δεν υπάρχει, γενικά, στο πλέγμα (I1,⊑) όπως
βλέπουμε σε ένα αντι-παράδειγμα στη συνέχεια.
Έστω τα διαστήματα  a, b ,  c, e και c, e στην αλυσίδα (R,) των πραγματικών αριθμών, όπου
a  b  c  c  e , όπως φαίνεται στο Σχ. 7.1. Προφανώς ισχύει c, e  c, e . Θεωρήστε την ακόλουθη
Αρχική Υπόθεση: Έστω ότι υπάρχει μια συνάρτηση v1 :  I  {}   I  {}  R0 θετικής τιμοδότησης. Ως
συνέπεια της προαναφερθείσας Αρχικής Υπόθεσης θα ισχύουν οι παρακάτω δύο ισότητες:

1) v1 ( a, b)  v1 (c, e)  v1 (a, b c, e)  v1 (a, b c, e)  v1 (a, e)  v1 () .
2) v1 ( a, b)  v1 (c, e)  v1 (a, b c, e)  v1 (a, b c, e)  v1 (a, e)  v1 () .

Άρα: v1 (c, e)  v1 (c, e) . Όμως, η τελευταία ισότητα αντιφάσκει με την ανισότητα
v1 (c, e)  v1 (c, e)  c, e  c, e που προκύπτει, επειδή η συνάρτηση v1 :  I  {}   I  {}  R0
είναι θετικής τιμοδότησης. Συνεπώς, η Αρχική Υπόθεση είναι λανθασμένη. Με άλλα λόγια, δεν υπάρχει
καμιά συνάρτηση v1 :  I  {}   I  {}  R0 θετικής τιμοδότησης.

a b c c e

Σχήμα 7.1 Πέντε σημεία a  b  c  c  e πάνω στην ευθεία των πραγματικών αριθμών.

Για τους παραπάνω λόγους αναζητούμε συναρτήσεις μετρικές καθώς και βαθμού διάταξης στο
πλήρες πλέγμα (I1,⊑) των διαστημάτων Τ1 με διαφορετικό τρόπο, όπως περιγράφεται στη συνέχεια.
Έστω ότι το πλέγμα (I1,⊑) μπορεί να εμφυτευτεί σε ένα υπερπλέγμα (G,⊑), στο οποίο υπάρχει μια
συνάρτηση θετικής τιμοδότησης v1: G R 0  Για τον ορισμό εμφύτευσης (τάξης) καθώς και για τον ορισμό
του υπερπλέγματος βλέπε στο Παράρτημα αυτού του κεφαλαίου. Σύμφωνα με όσα παρουσιάστηκαν
παραπάνω η ύπαρξη της συνάρτησης v1: G R 0 συνεπάγεται την ύπαρξη μιας μετρικής συνάρτησης (βλέπε
στο Παράρτημα αυτού του κεφαλαίου), καθώς και συναρτήσεων βαθμού διάταξης (βλέπε στην ενότητα 7.1)
στο πλέγμα (G,⊑). Οι προαναφερθείσες συναρτήσεις (δηλ. η μετρική και η βαθμού διάταξης) ισχύουν ως
τέτοιες στο εμφυτευμένο πλέγμα (I1,⊑), όπως ζητείται να αποδειχθεί σε ερώτηση κατανόησης στο τέλος
αυτού του κεφαλαίου.
Ας επιστρέψουμε στο πλήρες πλέγμα (I1,⊑) των διαστημάτων Τ1, το οποίο προέκυψε από ένα πλήρες
πλέγμα (L,⊑) με ελάχιστο και μέγιστο στοιχείο o και i αντίστοιχα. Έστω ότι στο (L,⊑) υπάρχει μια συνάρτηση
v: L R 0 θετικής τιμοδότησης τέτοια ώστε για τους λόγους που εξηγούνται στην ενότητα 7.1, καθώς επίσης
και στο Παράρτημα αυτού του κεφαλαίου, ισχύουν οι δύο λογικές απαιτήσεις (reasonable constraints)
v(o)=0 και v(i)<+. Εξαιτίας του τρόπου ορισμού της διάταξης στο πλέγμα (I1,⊑) το ενδιαφέρον μας εδώ
εστιάζεται στο Καρτεσιανό γινόμενο πλέγμα (L,⊑)(L,⊑) = (LL,⊒⊑) των γενικευμένων διαστημάτων ως
ένα υποψήφιο υπερπλέγμα. Ένα γενικευμένο διάστημα (generalized interval) συμβολίζεται ως [a,b],
a,bL. Η διατομή (⊓) στο πλέγμα (LL,⊒⊑) υπολογίζεται ως [a,b]⊓[c,d] = [a⊔c,b⊓d], ενώ η συνένωση (⊔)

7-5
στο πλέγμα (LL,⊒⊑) υπολογίζεται ως [a,b]⊔[c,d] = [a⊓c,b⊔d]. Το πλέγμα (LL,⊒⊑) είναι και αυτό πλήρες
με ελάχιστο και μέγιστο στοιχείο O=[i,o] και I=[o,i], αντίστοιχα.
Είδαμε παραπάνω σ’ αυτήν την ενότητα ότι το άθροισμα συναρτήσεων θετικής τιμοδότησης σε κάθε
ένα από τα βασικά πλέγματα (L,⊒) και (L,⊑) είναι μια συνάρτηση θετικής τιμοδότησης στο Καρτεσιανό
γινόμενο (LL,⊒⊑). Στην προηγούμενη παράγραφο έχουμε ήδη υποθέσει την ύπαρξη μιας συνάρτησης v:
L R 0 θετικής τιμοδότησης στο πλήρες πλέγμα (L,⊑), στο οποίο ισχύουν οι δύο λογικές απαιτήσεις v(o)=0
και v(i)<+. Ο στόχος μας τώρα είναι να δείξουμε μια συνάρτηση θετικής τιμοδότησης στο (L,⊒).
Παρατηρήστε ότι η προαναφερθείσα συνάρτηση v: L R 0 θετικής τιμοδότησης στο (L,⊑) αποτελεί
συνάρτηση τιμοδότησης στο (L,⊒), όπου τα σύμβολα ⊓ και ⊔ εναλλάσσονται αμοιβαία. Συνεπώς, για
x,y(L,⊒) ισχύει v(x)+v(y) = v(x⊔y)+v(x⊓y). Ωστόσο, η τιμοδότηση v(.) δεν είναι θετική στο πλέγμα (L,⊒),
διότι x⊏y στο (L,⊒) είναι ισοδύναμο με x⊐y στο (L,⊑), άρα x⊏y στο (L,⊒) συνεπάγεται v(x)>v(y).
Το πρόβλημα της έλλειψης μιας συνάρτησης θετικής τιμοδότησης στο πλέγμα (L,⊒), δοθείσης μιας
συνάρτησης v: L R 0 θετικής τιμοδότησης στο πλέγμα (L,⊑), μπορεί να λυθεί αν θεωρήσουμε μια
(αμφιμονοσήμαντη) συνάρτηση δυϊκού ισομορφισμού : (L,⊑)(L,⊑), όπου x⊏y στο (L,⊒) είναι ισοδύναμο
με (x)⊏(y) στο (L,⊑). Συνεπώς, η σχέση x⊏y στο (L,⊒) μετασχηματίζεται στη σχέση (x)⊏(y) στο (L,⊑)
και, τελικά, συνεπάγεται v((x)) < v((y)). Έτσι, η σύνθετη (composite) συνάρτηση v (.) είναι μια
συνάρτηση θετικής τιμοδότησης στο (L,⊒) και τελικά η συνάρτηση v1([x,y]) = v((x))+v(y) αποτελεί μια
συνάρτηση θετικής τιμοδότησης στο πλέγμα (LL,⊒⊑) των γενικευμένων διαστημάτων. Επιπλέον,
παρατηρήστε ότι, επειδή η συνάρτηση (.) είναι αμφιμονοσήμαντη, οφείλει να ισχύει (o)=i, καθώς και
(i)=o. Συνεπώς, οι δύο λογικές απαιτήσεις μιας συνάρτησης θετικής τιμοδότησης v(.) ισχύουν και για τη
συνάρτηση v1(.). Συγκεκριμένα, ισχύει πρώτον, v1(O=[i,o])= v((i))+v(o)= 2v(o)= 0 και, δεύτερον,
v1(O=[o,i])= v((o))+v(i)= 2v(i) < +.
Έπεται ότι η μετρική συνάρτηση d1: (LL,⊒⊑)(LL,⊒⊑) R 0 , η οποία δίνεται από τον τύπο
d1([a,b],[c,e]) = v1([a,b]⊔[c,e]) - v1([a,b]⊓[c,e])= v1([a⊓c,b⊔e]) - v1([a⊔c,b⊓e])= v((a⊓c))+ v(b⊔e) - v((a⊔c))
- v(b⊓e) = v((a)⊔(c))-v((a)⊓(c)) + v(b⊔e)-v(b⊓e)= d((a),(c))+d(b,e), είναι επίσης μετρική στο πλέγμα
(I1,⊑). Επιπλέον, έπεται ότι η συνάρτηση βαθμού διάταξης ⊔: (LL,⊒⊑)(LL,⊒⊑)[0,1], η οποία δίνεται
v1 ([c, e]) v1 ([c, e]) v((c))  v(e)
από τον τύπο  ([a, b],[c, e])  = = , είναι επίσης
v1 ([a, b] [c, e]) v1 ([a c, b e]) v((a c))  v(b e)
συνάρτηση βαθμού διάταξης ⊔: Ι1Ι1[0,1] στο εμφυτευμένο (υπο)πλέγμα (I1,⊑). Σημειώστε ότι για
v1([a,b]⊔[c,e]) = 0  [a,b]⊔[c,e] =   [a,b] =  = [c,e] θεωρούμε  ([a, b],[c, e])  1 εξ ορισμού. Τέλος, η
συνάρτηση βαθμού διάταξης ⊓: (LL,⊒⊑)(LL,⊒⊑)[0,1], η οποία δίνεται από τον τύπο
v ([a, b] [c, e]) v ([a c, b e]) v((a c))  v(b e)
 ([a, b],[c, e])  1 = 1 = είναι επίσης συνάρτηση
v1 ([a, b]) v1 ([a, b]) v((a))  v(b)
βαθμού διάταξης ⊓: Ι1Ι1[0,1] στο εμφυτευμένο (υπο)πλέγμα (I1,⊑). Σημειώστε ότι για v1([a,b]) = 0 
[a,b] =  θεωρούμε  ([a, b],[c, e])  1 εξ ορισμού.
Έστω μια συνάρτηση v :L  R θετικής τιμοδότησης σε πλέγμα (L,⊑) και έστω (I,) το αντίστοιχο
μδσυν των διαστημάτων. Η μη-αρνητική συνάρτηση δ1: I R 0 , η οποία υπολογίζεται ως δ1([a,b])= v(b)-v(a),
είναι συνάρτηση μεγέθους ενός διαστήματος, διότι ικανοποιεί τον ορισμό της συνάρτησης μεγέθους.
Παρατηρείστε ότι δ1([a,b]) = d(a,b)= max d  x, y  , όπου d :L  L  R0 είναι η μετρική d(x,y)= v(x⊔y)-
x , y a ,b

7-6
v(x⊓y) στο πλέγμα (L,⊑), δηλ. το μέγεθος ενός διαστήματος [a,b] ισούται με τη μέγιστη απόσταση δύο
στοιχείων x και y του διαστήματος [a,b]. Παρατηρήστε ότι κάθε τετριμμένο (trivial) διάστημα [a,a] έχει
μηδενικό μέγεθος, δηλ. δ([a,a])= 0. Επίσης, παρατηρήστε ότι κάθε τετριμμένο διάστημα [a,a] είναι άτομο στο
πλήρες πλέγμα (I1,⊑) των διαστημάτων Τ1, διότι καλύπτει το ελάχιστο στοιχείο ο=  στο (I1,⊑).

7.2.3 Σύνολα Στοιχείων Πλέγματος


Έστω 2L το δυναμοσύνολο ενός πλέγματος (L,⊑). Σε συνέχεια των προηγούμενων ενοτήτων σημειώστε ότι το
L μπορεί να είναι το Καρτεσιανό γινόμενο N βασικών πλεγμάτων συμπεριλαμβανομένων πλεγμάτων
διαστημάτων.
Ορίζουμε μια δυαδική σχέση ⊑ στο Καρτεσιανό γινόμενο 2L  2L ώστε για U ,W  2L είναι U W ,
εάν και μόνον εάν u U , w W : u w . Έτσι, προκύπτει το πλέγμα  2L ,  με U W {u w}
uU , wW

και U W {u w} .
uU , wW

Ένα υποσύνολο S του L καλείται απλοποιημένο (simplified) ή, εναλλακτικά, πηλίκο (quotient),


εάν το S περιέχει μόνο μη-συγκρίσιμα στοιχεία του L . Ένα μη-απλοποιημένο σύνολο S καλείται
απλοποιήσιμο και μπορεί να απλοποιηθεί, εάν αντικαταστήσουμε κάθε υποσύνολο X  S συγκρίσιμων
στοιχείων με το ελάχιστο άνω φράγμα  X . Έστω (2L )  2L το υποσύνολο του 2 L που περιέχει όλα τα
απλοποιημένα υποσύνολα του L και μόνον αυτά. Το ενδιαφέρον εδώ εστιάζεται σε στοιχεία του πλέγματος
(π(2L ), ) , διότι κάθε στοιχείο του π(2L) μεγιστοποιεί μια οποιαδήποτε συνάρτηση σ: 2L2L[0,1] βαθμού
διάταξης λόγω της ιδιότητας C2 (Συνέπεια). Επιπλέον, μπορούμε να ορίσουμε μια συνάρτηση
σc : π(2L )  π(2L )  [0,1] βαθμού διάταξης στο πλέγμα (π(2L ), ) ως ακολούθως.
Έστω μια συνάρτηση  : L  L  0,1 βαθμού διάταξης στο πλέγμα (L,⊑). Τότε η συνάρτηση
N
σc : π(2L )  π(2L )  [0,1] , η οποία δίδεται από τον κυρτό συνδυασμό c(UW)= 
i 1
i max (ui
j{1, ,N}
wj ) ,

είναι βαθμού διάταξης, όπου U={u1,…,uM}, W={w1,…,wN}(2L).

7.3 Ενοποίηση Ανόμοιων Τύπων Δεδομένων


Αυτή η ενότητα παρουσιάζει συγκεκριμένα παραδείγματα πλεγμάτων στο πλαίσιο των προηγούμενων
ενοτήτων. Το κάθε πλέγμα αφορά ένα διαφορετικό τύπο δεδομένων, τα οποία είναι διατεταγμένα. Με τον
προαναφερθέντα τρόπο η θεωρία πλεγμάτων ενοποιεί ανόμοιους τύπους δεδομένων. Εδώ θεωρούμε ότι η
σχέση μερικής διάταξης αναπαριστά την σημασιολογία των δεδομένων. Υπό αυτήν την έννοια ο υπολογισμός
σε πλέγματα είναι υπολογισμός με σημασιολογίες.

7.3.1 Πραγματικοί Αριθμοί


Το ολικώς διατεταγμένο πλέγμα (R,) των πραγματικών αριθμών, ως το πλέον δημοφιλές μελετάται
λεπτομερώς, μαζί με επεκτάσεις του, στο κεφάλαιο 9. Εδώ σημειώνουμε μόνο ότι μια γνησίως αύξουσα
(strictly increasing) συνάρτηση v: RR είναι συνάρτηση θετικής τιμοδότησης στο πλέγμα (R,). Επίσης,
μια γνησίως φθίνουσα (strictly decreasing) συνάρτηση : RR είναι συνάρτηση δυϊκού ισομορφισμού
στο πλέγμα (R,). Στη συνέχεια αναφέρουμε επεκτάσεις του (R,) στο Καρτεσιανό γινόμενο, μερικώς
διατεταγμένο πλέγμα (RN,⊑)= (R,)N.
Επιλέγοντας την ίδια συνάρτηση θετικής τιμοδότησης v(x)= x σε κάθε διάσταση του (RN,⊑) έπεται η
1/p 1/p
μετρική d(x,y;p)=  d ( x1 , y1 )   ...   d ( xN , yN )   =  x1  y1  ...  xN  yN  , όπου x=(x1,…,xN) και
p p p p
   
y=(y1,…,yN), η οποία είναι γνωστή στη βιβλιογραφία ως Lp μετρική (metric). Ειδικότερα, η L1 ισούται με
d  x, y;1  x1  y1  ...  xN  yN και είναι γνωστή ως απόσταση Hamming (Hamming distance ή,

7-7
εναλλακτικά, city-block distance), η L2 είναι η Ευκλείδεια απόσταση (Euclidean distance) d  x, y;2  

 x1  y1   ...   xN  yN  , ενώ η L ισούται με d  x, y;   max | x1  y1 |,...,| xN  yN | .


2 2

Μια επιπλέον επέκταση προκύπτει αν θεωρήσουμε το Καρτεσιανό γινόμενο R…R που αντιστοιχεί
σε μη-αριθμήσιμο σύνολο βασικών πλεγμάτων (R,). Σ’ αυτήν την περίπτωση προκύπτει το μερικώς
διατεταγμένο πλέγμα (F,⊑) όλων των πραγματικών συναρτήσεων που ορίζονται πάνω στο σύνολο R των
πραγματικών αριθμών. Συγκεκριμένα, δοθέντων f,gF, η σχέση f ⊑ g ερμηνεύεται ως f ( x)  g ( x) για κάθε
x  R , όπου «» είναι η σχέση διάταξης (πραγματικών) αριθμών. Η διατομή (⊓) δύο στοιχείων
(συναρτήσεων) f και g στο πλέγμα (F,⊑) ορίζεται ως f⊓g = f(x)⊓g(x) := min{ f ( x), g ( x)} , ενώ η συνένωση (⊔)
xR

στο πλέγμα (F,⊑) ορίζεται ως f⊔g = f(x)⊔g(x) := max{ f ( x), g ( x)} .


xR

7.3.2 Χώροι Μέτρου


 
Ως χώρος μέτρου (measure space) ορίζεται μια τριάδα ,  , m , όπου  είναι ένα σύνολο,   είναι μια
-άλγεβρα του συνόλου  και m είναι ένα μέτρο πάνω στη   . Για τον ορισμό της -άλγεβρας καθώς και
του μέτρου βλέπε στη συνέχεια.
Ως -άλγεβρα (-algebra)   ενός συνόλου  ορίζεται μια συλλογή υποσυνόλων του  η οποία
ικανοποιεί τις παρακάτω συνθήκες:

Σ1.    ,
Σ2. A    (\A)   ,
Σ3. για μια συλλογή συνόλων Ai   , όπου ο δείκτης i λαμβάνει τιμές σε ένα αριθμήσιμο σύνολο D,
έπεται ( iD
Ai )  .

Οι παραπάνω συνθήκες δηλώνουν ότι, μια -άλγεβρα περιλαμβάνει το κενό σύνολο και είναι κλειστή
στο συμπλήρωμα και σε κάθε αριθμήσιμη ένωση συνόλων της.
Ως μέτρο (measure) ορίζεται μια πραγματική, μη-αρνητική συνάρτηση m :   R0 η οποία
ικανοποιεί τις παρακάτω συνθήκες:

Μ1. m ()  0 ,


Μ2. για κάθε αριθμήσιμο σύνολο δεικτών D και για συλλογή  ξένων μεταξύ τους ανά δύο  υποσυνόλων
AiS ισχύει m ( iD Ai )  iD m (Ai ) .

Το ζεύγος (,) καλείται μετρήσιμος χώρος (measurable space).


Ένας χώρος μέτρου προσφέρει τη δυνατότητα χειρισμού μη-αριθμητικών δεδομένων, τα οποία είναι
 
στοιχεία ενός συνόλου . Συγκεκριμένα, δοθέντος ενός χώρου μέτρου ,  , m , η δυάδα (,), όπου 
είναι η συνηθισμένη συνολοθεωρητική σχέση του υποσυνόλου, είναι ένα πλήρες πλέγμα με o= και i=. Οι
πράξεις διατομή και συνένωση στο πλέγμα (,) είναι οι συνολοθεωρητικές πράξεις τομή () και ένωση
(), αντίστοιχα. Η συνάρτηση του μέτρου m (.) είναι μια συνάρτηση θετικής τιμοδότησης στο πλέγμα
(,). Τέλος, η συνάρτηση (A)= \Α= A, η οποία απεικονίζει ένα σύνολο A στο συμπλήρωμα του A,
είναι μια συνάρτηση δυϊκού ισομορφισμού στο πλέγμα (,). Συνεπώς, όλα τα μαθηματικά εργαλεία που
παρουσιάστηκαν στις προηγούμενες ενότητες είναι διαθέσιμα στο πλέγμα (,).

7-8
Μια ειδική περίπτωση χώρου μέτρου αποτελεί ο χώρος πιθανότητας, ο οποίος ορίζεται ως ένας χώρος
 
μέτρου ,  , m με τον περιορισμό m ()  1 . Συχνά, στις εφαρμογές, το σύνολο  ενός χώρου μέτρου

 ,   
, m είναι πεπερασμένο, και η -άλγεβρα   ισούται με το δυναμοσύνολο 2.
Σημειώστε ότι μια επέκταση της έννοιας δυναμοσύνολο αποτελεί το ασαφές δυναμοσύνολο ως προς
σύνολο αναφοράς , συμβολικά F(Ω) = [0,1]Ω. Έχει αποδειχθεί ότι η δομή (F(Ω),) είναι πλήρες πλέγμα.

7.3.3 Προτάσεις
Το σύνολο των (αληθών/ψευδών) προτάσεων είναι μια άλγεβρα Boole (Birkhoff, 1967).
Έστω  το σύνολο των (αληθών/ψευδών) προτάσεων που ενδιαφέρουν σε μια συγκεκριμένη
εφαρμογή και έστω  το δυναμοσύνολο του συνόλου . Μπορούμε να ορίσουμε ένα μέτρο, δηλ. μια
συνάρτηση m :   R0 , απεικονίζοντας κάθε αληθή πρόταση σε ένα θετικό αριθμό. Άρα, σύμφωνα με τα
προηγούμενα, η τριάδα ,  , m   είναι ένας χώρος μέτρου. Συνεπώς, όλα τα μαθηματικά εργαλεία που
παρουσιάστηκαν στις προηγούμενες ενότητες γίνονται διαθέσιμα στον προτασιακό λογισμό.

7.3.4 Δένδρα
Τα «δένδρα» αποτελούν αναπαραστάσεις που μπορεί να χρησιμοποιηθούν ως μηχανισμοί λήψης αποφάσεων
ή/και μελέτης διαδικασιών, όπου κάθε κόμβος του δένδρου αναπαριστά μια απόφαση/ενέργεια (πράξη) που
μπορεί να ληφθεί/εκτελεστεί αντίστοιχα. Για παράδειγμα, το Σχήμα 7.2 δείχνει ένα δυαδικό δένδρο στο οποίο
κάθε κόμβος έχει ακριβώς δύο «κόμβους παιδιά».
Ένα δένδρο αναπαριστά ένα πλέγμα συνένωσης (join lattice), όπου κάθε ζεύγος κόμβων x και y έχει
συνένωση x⊔y, αλλά όχι διατομή x⊓y. Συγκεκριμένα, η συνένωση x⊔y δύο κόμβων είναι ο πρώτος κόμβος
όπου συναντώνται οι διαδρομές από το x και από το y προς τη ρίζα του δένδρου. Για παράδειγμα, στο Σχήμα
7.2 είναι c1⊔c4=c13, c5⊔c12=c14, c2⊔c14=c15 κ.λπ.

c15 επίπεδο-0 (ρίζα)

c13 c14 επίπεδο-1

c9 c10 c11 c12 επίπεδο-2

επίπεδο-3
c1 c2 c3 c4 c5 c6 c7 c8

Σχήμα 7.2 Δυαδικό δένδρο τριών επιπέδων με 23=8 φύλλα (κόμβους) στο επίπεδο-3.

Για να συγκρίνουμε δύο κόμβους του δένδρου στο Σχήμα 7.2 χρησιμοποιώντας είτε μια μετρική
συνάρτηση, είτε μια συνάρτηση βαθμού διάταξης, εφαρμόζουμε μια κατασκευαστική διαδικασία
τιμοδότησης, η οποία ξεκινάει με θετικές τιμές στα φύλλα του δένδρου στο επίπεδο-3, όπως φαίνεται στο
Σχήμα 7.3(α). Στη συνέχεια, τιμοδοτούνται οι κόμβοι στο αμέσως παραπάνω επίπεδο-2 αθροίζοντας τις τιμές
των παιδιών κάθε κόμβου, όπως φαίνεται στο Σχήμα 7.3(β). Συγκεκριμένα, αν ci και cj είναι οι κόμβοι παιδιά
κάποιου κόμβου ck με τιμές v(ci) και v(cj) αντίστοιχα, τότε η τιμή του γονέα κόμβου ck υπολογίζεται ως v(ck)=
v(ci)+v(cj). Προοδευτικά, τιμοδοτούνται οι κόμβοι όλων των άλλων επιπέδων μέχρι τη ρίζα του δένδρου,
όπως φαίνεται στο Σχήμα 7.3(γ).

7-9
Το δένδρο του Σχήματος 7.3(γ) μπορεί να μετασχηματιστεί σε πλήρες πλέγμα με την εισαγωγή ενός
επιπλέον κόμβου στο (νέο) επίπεδο-4, ως το ελάχιστο στοιχείο (o) με τιμή ίση με 0 (βλ. Σχήμα 7.3(δ)) 
Σημειώστε ότι το μέγιστο στοιχείο (i) του πλήρους πλέγματος στο Σχήμα 7.3(δ) είναι ο κόμβος-ρίζα του
δένδρου c15, δηλ. i= c15. Τώρα μπορεί να υπολογιστεί τόσο μια μετρική απόσταση (d), όσο και ένας βαθμός
διάταξης (). Για παράδειγμα, d(c1,c13)= v(c1⊔c13)-v(c1⊓c13)= v(c13)-v(c1)= 11.7-2= 9.7 και d(c3,c13)= v(c3⊔c13)-
v(c3⊓c13)= v(c13)-v(c3)= 11.7-5= 6.7. Σημειώστε ότι παρόλο που οι κόμβοι c1 και c3 βρίσκονται στο ίδιο
επίπεδο-3, ο κόμβος c3 βρίσκεται εγγύτερα στον κόμβο c13 από τον κόμβο c1 εξαιτίας της συνάρτησης
τιμοδότησης που χρησιμοποιήθηκε. Επιπλέον, η απόσταση μεταξύ των κόμβων c1 και c3 υπολογίζεται ως
d(c1,c3)= v(c1⊔c3)-v(c1⊓c3)= v(c13)-v()= 11.7-0= 11.7. Δηλ. οι κόμβοι c1 και c3 απέχουν πιο πολύ μεταξύ
τους, από όσο απέχει ο καθένας τους από τον κόμβο c13. Στη συνέχεια υπολογίζουμε βαθμούς διάταξης.

c15 c15

c13 c14 c13 c14

c9 c10 c11 c12 3.5 8.2 5.8 2.8

2 1.5 5 3.2 1 4.8 0.4 2.4 2 1.5 5 3.2 1 4.8 0.4 2.4

(α) (β)

20.3 20.3

11.7 8.6 11.7 8.6

3.5 8.2 5.8 2.8 3.5 8.2 5.8 2.8

2 1.5 5 3.2 1 4.8 0.4 2.4 2 1.5 5 3.2 1 4.8 0.4 2.4

επίπεδο-4
0
(γ) (δ)

Σχήμα 7.3 Τιμοδότηση όλων των κόμβων του δυαδικού δένδρου του Σχήματος 7.2. (α) Τιμοδότηση των φύλλων του
δένδρου. (β) Τιμοδότηση των κόμβων στο επίπεδο-2 του δένδρου. (γ) Η τιμοδότηση όλων των κόμβων του δένδρου έχει
ολοκληρωθεί. (δ) Οι τιμές που φαίνονται ορίζουν μια συνάρτηση θετικής τιμοδότησης στο πλήρες πλέγμα που προκύπτει
μετά την εισαγωγή ενός μοναδικού κόμβου (στο νέο επίπεδο-4) ως το ελάχιστο στοιχείο (o) του πλήρους πλέγματος.

7-10
Για συγκρίσιμα στοιχεία, όπως για παράδειγμα είναι τα στοιχεία c5 και c14, έπεται ⊔(c5⊑c14)=
v  c14  v  c14  v  c5 c14  v  c5 
= = 1, ⊓(c5⊑c14)= = = 1. Ενώ για μη-συγκρίσιμα στοιχεία, όπως για
v  c5 c14  v  c14  v  c5  v  c5 
v  c14  v  c14  8.6
παράδειγμα είναι τα στοιχεία c1 και c14, έπεται ⊔(c1⊑c14)= = = ≅ 0.423 και
v  c1 c14  v  c15  20.3
v  c1 c14  0 v  
⊓(c1⊑c14)= = = 0. Είναι ενδιαφέρον να επαληθεύσουμε υπολογιστικά ότι, για
=
v  c1  v  c1  2
συγκρίσιμα στοιχεία, ο βαθμός που ένα μεγαλύτερο στοιχείο περιέχεται σε ένα μικρότερο μπορεί να είναι μη-
v  c5  v  c5  1 v  c14 c5 
μηδενικός. Για παράδειγμα, ⊔(c14⊑c5)= = = ≅ 0.116 ≅ = ⊓(c14⊑c5).
v  c14 c5  v  c14  8.6 v  c14 
Οι προηγούμενες τεχνικές μπορούν να επεκταθούν όπως περιγράφεται στη συνέχεια.
Πρώτη επέκταση: Στο προαναφερθέν δυαδικό δένδρο αν ci και cj είναι οι κόμβοι παιδιά του ck με
τιμές v(ci) και v(cj) αντίστοιχα, τότε η τιμή του γονέα ck μπορεί να τεθεί v(ck) > v(ci)+v(cj). Αυτό έχει ως
αποτέλεσμα την ανάγκη για εισαγωγή επιπλέον στοιχείων στο πλέγμα του Σχήματος 7.3(δ), ώστε για κάθε
ζεύγος ci και cj να υπάρχει η διατομή ci⊓cj με v(ci⊓cj) > 0. Ωστόσο, προκείμενου να υπολογίσουμε μετρικές
αποστάσεις ή/και βαθμούς διάταξης, το μόνο που χρειαζόμαστε είναι η τιμή v(ci⊓cj) και όχι το στοιχείο ci⊓cj
αυτό καθαυτό. Σημειώστε ότι η τιμή v(ci⊓cj) πρέπει να υπολογιστεί έτσι, ώστε να ικανοποιούνται οι δύο
σχέσεις, v(x)+v(y) = v(x⊓y)+v(x⊔y) και x ⊏ y  v  x   v  y  μιας συνάρτησης θετικής τιμοδότησης.
v( x)  v(u )  v  x u
Συνεπώς, προκύπτουν: d(ci,cj)= 2v(ci⊔cj)-v(ci)-v(cj) και ⊓(x,u) = .
v  x
Δεύτερη επέκταση: Το δένδρο μπορεί να μην είναι δυαδικό. Σ’ αυτήν την περίπτωση εφαρμόζουμε
μια κατασκευαστική διαδικασία τιμοδότησης δίνοντας θετικές τιμές στα φύλλα του δένδρου και στη
συνέχεια, τιμοδοτώντας τους κόμβους του αμέσως παραπάνω επιπέδου ως εξής. Έστω ότι ένας κόμβος ck έχει
τους κόμβους παιδιά ci, iI. Την τιμή v(ck) την υπολογίζουμε θέτοντας v(ck) > max{v(ci )  v(c j )} .
i, jI
i j

Προοδευτικά, δηλ. ανά επίπεδο, τιμοδοτούμε όλους τους κόμβους μέχρι τη ρίζα του δένδρου.
Και στις δύο προαναφερθείσες επεκτάσεις, το πρόβλημα της τιμοδότησης των κόμβων ενός δένδρου
μπορεί να αντιμετωπιστεί ως ένα πρόβλημα βελτιστοποίησης.
Να σημειωθεί ότι ο υπολογισμός της διατομής ci⊓cj σε δένδρο, όπου ci και cj είναι κόμβοι, είναι
αναγκαίος για τον υπολογισμό διαστημάτων (μέσα σε δένδρα). Όμως, όπως εξηγήθηκε παραπάνω, ο
υπολογισμός της διατομής ci⊓cj δεν είναι προφανής σε ένα γενικό δένδρο, με εξαίρεση ειδικές περιπτώσεις
όπως το δυαδικό δένδρο στο Σχήμα 7.2, μια επέκταση του οποίου σε πλήρες πλέγμα παρουσιάζεται στο
Σχήμα 7.3(δ). Γενικά, εδώ έχουμε να αντιμετωπίσουμε ένα δυσκολότερο πρόβλημα βελτιστοποίησης, όπου,
εκτός από την τιμοδότηση των κόμβων του δένδρου, πρέπει επίσης να εισαγάγουμε και νέους κόμβους.
Η επιδίωξή μας είναι να υπολογίσουμε ένα πλέγμα (L,⊑), το οποίο να είναι εφοδιασμένο τόσο με μια
συνάρτηση θετικής τιμοδότησης v(.), όσο και με μια συνάρτηση δυϊκού ισομορφισμού (.), ώστε το αρχικό
δένδρο που μας ενδιαφέρει να είναι εμφυτευμένο στο πλέγμα (L,⊑), δηλ. να αποτελεί υποπλέγμα του (L,⊑).
Το προαναφερθέν κατασκευαστικό πρόβλημα είναι παρόμοιο με αυτό που περιγράφεται στην ενότητα 9.1.2,
όπου το πλέγμα (Ι1,) εμφυτεύεται στο πλέγμα (RR,) των γενικευμένων διαστημάτων και μπορούμε να
υπολογίσουμε τόσο συναρτήσεις θετικής τιμοδότησης v(.), όσο και συναρτήσεις δυϊκού ισομορφισμού (.).
Ωστόσο, σημειώστε ότι η αντίστοιχη κατασκευή σε δένδρα θεωρείται δυσκολότερο πρόβλημα, διότι για κάθε
διαφορετικό δένδρο θα πρέπει να κατασκευάζεται ένα διαφορετικό πλέγμα (L,⊑).

7-11
7.3.5 Συμπέρασμα
Πέραν των προαναφερθέντων συγκεκριμένων παραδειγμάτων πλεγμάτων υπάρχουν και άλλες χρήσιμες
αναπαραστάσεις υποψήφιες για ανάλυση στο πλαίσιο της θεωρίας διάταξης. Για παράδειγμα, οι οντολογίες
(ontologies) (Guarino, 2009) αποτελούν μια δημοφιλή αναπαράσταση στην επιστήμη των υπολογιστών, π.χ.
στο σημασιολογικό ιστό (semantic Web), η οποία θα μπορούσε να εμφυτευτεί σε κάποιο πλέγμα με
παρόμοιο τρόπο, όπως εξηγήθηκε στην ενότητα 7.3.3 για τα δένδρα, προκειμένου να προκύψουν τα χρήσιμα
μαθηματικά εργαλεία που παρουσιάστηκαν σ’ αυτό το κεφάλαιο.
Η θεωρία διάταξης αποτελεί ένα πεδίο για υπολογισμό με σημασιολογίες οι οποίες αναπαρίστανται
με μια σχέση μερικής διάταξης σε πλέγμα. Γενικά, η θεωρία διάταξης δίνει τη δυνατότητα
αποτελεσματικότερων αναπαραστάσεων. Επιπλέον, επειδή το Καρτεσιανό γινόμενο (ανόμοιων) πλεγμάτων
είναι και αυτό πλέγμα, η θεωρία διάταξης προβάλλει ως ένα μαθηματικά αυστηρό πλαίσιο για την ενοποίηση,
καθώς και τον αυστηρό συγκερασμό ανόμοιων τύπων δεδομένων (disparate data fusion) σε εφαρμογές
μοντελοποίησης στην ΥΝ. Τέλος, σημειώστε ότι ένας αλγόριθμος εφαρμόσιμος σε πλέγματα, π.χ. ένας
αλγόριθμος για μάθηση, έχει ευρύτατο πεδίο εφαρμογής χωρίς ουσιαστικές τροποποιήσεις. Επιλεγμένες
εφαρμογές προς επίρρωση των προαναφερθέντων πλεονεκτημάτων της θεωρίας διάταξης παρουσιάζονται στο
κεφάλαιο 9.

Παράρτημα (Γενική Θεωρία Πλεγμάτων)


Σ’ αυτό το Παράρτημα παρουσιάζονται γνώσεις υποδομής από τη θεωρία πλεγμάτων.

Η Δυαδική Σχέση «Μερική Διάταξη»


Μια δυαδική σχέση (binary relation) R (μεταξύ δύο συνόλων P και Q) ορίζεται ως ένα υποσύνολο του
Καρτεσιανού γινομένου P  Q , δηλ. R  P  Q . Αντί για  p, q   R συχνά γράφουμε pRq . Εάν P  Q , τότε
μιλάμε για μια δυαδική σχέση μέσα στο σύνολο P. Την αντίστροφη (inverse) σχέση της R τη συμβολίζουμε
με R 1 , δηλ. είναι εξ ορισμού qR1 p : pRq .
Μία δυαδική σχέση RPQ καλείται συνάρτηση (function), όταν δεν υπάρχουν ζεύγη (p,q1)R και
(p,q2)R με q1q2. Με άλλα λόγια, μια συνάρτηση f είναι μια αντιστοιχία που απεικονίζει κάθε στοιχείο p του
συνόλου P σε ένα μόνον στοιχείο f(p) του συνόλου Q. Το f(p) καλείται εικόνα (image) του p. Εάν κάθε
στοιχείο του συνόλου Q είναι η εικόνα κάποιου στοιχείου του συνόλου P, τότε λέμε ότι η συνάρτηση f είναι
επί (surjection). Επιπλέον, εάν η ανάστροφη σχέση μιας συνάρτησης είναι και αυτή συνάρτηση, τότε η
συνάρτηση καλείται αμφιμονοσήμαντη αντιστοιχία (bijection). Με άλλα λόγια, αμφιμονοσήμαντη
αντιστοιχία σημαίνει «1-1 και επί». Στη συνέχεια θα θεωρήσουμε μια συγκεκριμένη δυαδική σχέση.
Μία δυαδική σχέση R  P  P σε ένα σύνολο P καλείται μερικώς διατεταγμένη (partially
ordered), αν και μόνο αν ικανοποιεί τις παρακάτω συνθήκες:

Δ1. ( x, x)  R (Ανακλαστική)
Δ2. ( x, y)  R και x  y  ( y, x) R (Αντισυμμετρική)
Δ3. ( x, y)  R και ( y, z)  R  ( x, z)  R (Μεταβατική)

Η συνθήκη Δ2 μπορεί να αντικατασταθεί με την παρακάτω ισοδύναμη συνθήκη:

Δ2 ( x, y)  R και ( y, x) R  x  y (Αντισυμμετρική)

Αντί για xRy  ( x, y)  R συχνά χρησιμοποιούμε το συμβολισμό x ⊑ y  (x,y)⊑ και λέμε ότι «το
x περιέχεται στο y» ή ότι «το x είναι μέρος του y» ή ότι «το x είναι μικρότερο ή ίσο του y». Εάν x ⊑ y και
x  y τότε γράφουμε x ⊏ y και λέμε ότι «το x είναι γνησίως μικρότερο από το y» ή «το x περιέχεται γνησίως
στο y». Παρόμοια ορίζονται τα σύμβολα x ⊒ y και x ⊐ y για την ανάστροφη σχέση R 1 .

7-12
Ως γενική πληροφόρηση αξίζει να σημειωθεί ότι ο προαναφερθείς ορισμός μιας μερικώς
διατεταγμένης σχέσης διαφέρει από τον ορισμό της (επίσης δυαδικής) σχέσης ισοδυναμίας μόνον κατά την
αντισυμμετρική συνθήκη όπως φαίνεται στη συνέχεια.
Μία δυαδική σχέση R  P  P σε ένα σύνολο αναφοράς P καλείται σχέση ισοδυναμίας
(equivalence relation), αν και μόνο αν ικανοποιεί τις παρακάτω συνθήκες:

Ι1. ( x, x)  R (Ανακλαστική)
Ι2. ( x, y)  R  ( y, x) R (Συμμετρική)
Ι3. ( x, y)  R και ( y, z)  R  ( x, z)  R (Μεταβατική)

Μερικώς διατεταγμένο σύνολο (μδσυν) (partially ordered set (poset)) είναι ένα ζεύγος (P,⊑),
όπου P είναι ένα σύνολο και ⊑ είναι μια σχέση (μερικής) διάταξης στο P. Σημειώστε ότι στο ίδιο σύνολο P
μπορεί να οριστούν περισσότερες από μια (διαφορετικές) σχέσεις διάταξης, π.χ. ⊑1 και ⊑2.
Μία συνάρτηση : PQ από το μδσυν (P,⊑) στο μδσυν (Q,⊑) καλείται συνάρτηση διατήρησης
τάξης (order preserving) ή απλά μονότονη (monotone), εάν x ⊑ y  (x) ⊑ (y), για x, y  P . Εάν,
επιπλέον, η  ικανοποιεί την αντίστροφη συνεπαγωγή x ⊑ y  (x) ⊑ (y), τότε η  καλείται συνάρτηση
εμφύτευσης τάξης (order embedded). Μία αμφιμονοσήμαντη συνάρτηση εμφύτευσης τάξης καλείται
ισομορφισμός (isomorphism). Όταν υπάρχει μια συνάρτηση ισομορφισμού μεταξύ δύο μδσυν (P,⊑) και
(Q,⊑), τότε τα μδσυν (P,⊑) και (Q,⊑) καλούνται ισομορφικά, συμβολικά (P,⊑)  (Q,⊑). Το δυϊκό (dual) ενός
μδσυν (P,⊑) είναι ένα μδσυν (P,⊑) = (P,⊑) = (P,⊒) που ορίζεται από την ανάστροφη σχέση διάταξης πάνω
στα ίδια στοιχεία. Εάν για δύο μδσυν (P,⊑) και (Q,⊑) ισχύει (P,⊑)  (Q,⊑), τότε τα (P,⊑) και (Q,⊑)
καλούνται δυϊκώς (dually) ισομορφικά.
Αρχή της δυϊκότητας (duality principle) (σε μδσυν): Η ανάστροφη ⊒ μιας σχέσης διάταξης ⊑ είναι
επίσης σχέση διάταξης. Συγκεκριμένα, η ανάστροφη διάταξη ⊒ καλείται δυϊκή της ⊑ και συμβολίζεται με ⊑
ή ⊑-1 ή ⊒. Η αρχή της δυϊκότητας χρησιμοποιείται για να επεκτείνει ορισμούς και αποδείξεις, όπως εξηγείται
στη συνέχεια.
Λαμβάνουμε τη δυϊκή πρόταση (dual statement) S  μιας πρότασης S σε μδσν, εάν εναλλάξουμε
αμοιβαία τα σύμβολα ⊑ και ⊒ στην πρόταση S . Η S ισχύει για ένα διατεταγμένο σύνολο, εάν και μόνο εάν η
S  ισχύει για το δυϊκό του σύνολο.
Δύο διαφορετικά στοιχεία x και y ενός μδσυν καλούνται συγκρίσιμα (comparable), εάν x ⊑ y ή y ⊑
x. Μη-συγκρίσιμα (incomparable) στοιχεία x και y καλούνται παράλληλα (parallel), συμβολικά x || y .
Μια ειδική περίπτωση μδσυν παρουσιάζεται στη συνέχεια. Αλυσίδα (chain) ή, εναλλακτικά, ολικώς
διατεταγμένο σύνολο (totally ordered set) είναι ένα μδσυν (P,⊑), το οποίο περιέχει μόνον συγκρίσιμα
στοιχεία. Για παράδειγμα, το σύνολο R των πραγματικών αριθμών με τη συνήθη σχέση διάταξης  είναι ένα
μδσυν· συγκεκριμένα το μδσυν R,   είναι αλυσίδα. Ένα παράδειγμα μδσυν το οποίο δεν είναι αλυσίδα
παρουσιάζεται στη συνέχεια με αναφορά στο Σχήμα 7.4.
Ένα πεπερασμένο μδσυν (P,⊑) μπορεί να αναπαρασταθεί με ένα διάγραμμα Hasse (Hasse
diagram), όπου τα στοιχεία του P απεικονίζονται με μικρούς κύκλους (κόμβους) έτσι, ώστε δύο στοιχεία
a  P και b  P αντίστοιχα, «άνω» και «κάτω» στο διάγραμμα, συνδέονται με μια γραμμή αν και μόνο αν το
a καλύπτει το b  Λέγοντας ότι «το a καλύπτει (cover) το b» σε ένα μδσυν (P,⊑) εννοούμε ότι a ⊐ b και
επιπλέον δεν υπάρχει x  P τέτοιο, ώστε a ⊐ x ⊐ b. Το Σχήμα 7.4 δείχνει το διάγραμμα Hasse του
δυναμοσυνόλου 2{a,b,c}, όπου {a,b,c} καλύπτει το {a,b}, το {a,c} καλύπτει το {c} κ.λπ.  Υπενθυμίζουμε ότι
ως δυναμοσύνολο ενός συνόλου S, συμβολικά 2S, ορίζεται το σύνολο όλων των υποσυνόλων του S.

7-13
{a,b,c}

{a,b} {a,c} {b,c}

{a} {c}
{b}

{}

Σχήμα 7.4 Διάγραμμα Hasse του δυναμοσυνόλου 2{a,b,c} του συνόλου S  a, b, c .

Το ελάχιστο (least) στοιχείο, εάν υπάρχει, ενός συνόλου X  P σε ένα μδσυν (P,⊑) είναι το
μοναδικό στοιχείο a  X , τέτοιο, ώστε a⊑x για κάθε x  X . Το αντίστοιχο δυϊκό στοιχείο σε ένα σύνολο
X  P καλείται μέγιστο (greatest) στοιχείο. Το ελάχιστο στοιχείο, εάν υπάρχει, σε ένα μδσυν θα
συμβολίζεται με o. Αντίστοιχα, το μέγιστο στοιχείο θα συμβολίζεται με i.
Έστω ένα μδσυν (P,⊑) με ελάχιστο στοιχείο o. Κάθε x  P που καλύπτει το o, αν τέτοιο x υπάρχει,
καλείται άτομο (atom). Π.χ. τα σύνολα a , b , c στο Σχήμα 7.4 είναι άτομα.
Έστω ένα μδσυν (P,⊑) και a, b  P με a ⊑ b. Ως (συνηθισμένο) διάστημα ((ordinary) interval)
 a, b  ορίζεται το σύνολο  a, b := {xP: a ⊑ x ⊑ b}.
Έστω I το σύνολο των (συνηθισμένων) διαστημάτων στο (P,⊑). Έπεται το μδσυν (I,), όπου  είναι
η σχέση υποσυνόλου. Η σχέση διάταξης [a,b][c,e] είναι ισοδύναμη με τη σχέση c⊑a⊑b⊑e. Το μδσυν (I,)
μπορεί να επεκταθεί με την εισαγωγή ενός ελάχιστου στοιχείου που είναι το κενό σύνολο (). Έτσι,
προκύπτει το μδσυν (I{},). Σημειώστε ότι η προαναφερθείσα ισοδύναμη σχέση διάταξης δεν
επεκτείνεται προφανώς στο μδσυν (I{},), διότι δεν υπάρχει μια προφανής αναπαράσταση του κενού
συνόλου () σε μορφή διαστήματος. Κάθε τετριμμένο διάστημα [x,x]I στο μδσυν (I{},) είναι άτομο.
Εάν (P,⊑) είναι μδσυν, το σύνολο  a  :  x  P : x  a ονομάζεται πρωτεύον ιδεώδες (principal
ideal) (παραγόμενο από το a ), ενώ το σύνολο b  :  x  P : x  b ονομάζεται πρωτεύον φίλτρο (principal
filter) (παραγόμενο από το b ).
Ως μέγεθος (size) ενός στοιχείου του μδσυν (P,⊑) ορίζεται μια (μη-αρνητική) πραγματική συνάρτηση
δ: P R 0 , η οποία ικανοποιεί την παρακάτω ιδιότητα:

S1. u ⊏ w  δ(u) < δ(w).

Το Καρτεσιανό γινόμενο N μδσυν (P1,⊑1)…(PN,⊑N) ορίζεται ως ένα μδσυν (P1…PN,⊑) =


(P1…PN,⊑1…⊑N) με (x1,…,xN)⊑(y1,…,yN) : x1⊑1y1, …, xN⊑NyN.
Έστω ότι το μδσυν (P,⊑) ισούται με το Καρτεσιανό γινόμενο ( P, )   ( Pi , i) , όπου Ω είναι ένα
i

ολικώς διατεταγμένο σύνολο δεικτών, έστω μια συνάρτηση δi: Pi R 0 μεγέθους σε κάθε μδσυν (Pi,⊑i) και
 
έστω ο χώρος πιθανότητας ,  , P . Τότε, το μέγεθος ενός στοιχείου A(P,⊑), με συνιστώσες AiPi,

iΩ, είναι μια συνάρτηση δ: P R , η οποία υπολογίζεται από το γενικό τύπο:
0

7-14
δ(A) =  i ( Ai )dP 
.

Σημειωτέον ότι το Ω μπορεί να είναι είτε διακριτό, είτε συνεχές. Σε κάθε περίπτωση, η συνάρτηση
P :   [0,1] του μέτρου πιθανότητας ερμηνεύεται ως συνάρτηση βάρους.

Η Δυαδική Σχέση «Πλέγμα»


Η θεωρία πλεγμάτων (lattice theory), ή εναλλακτικά, θεωρία διάταξης (order theory), αναπτύχθηκε από
τον Garrett Birkhoff (Birkhoff, 1967· Davey & Priestley, 1990· Grätzer, 2003). Στη συνέχεια συνοψίζονται
χρήσιμα στοιχεία αυτής της θεωρίας.
Έστω ένα μδσυν (P,⊑) και X  P. Άνω φράγμα (upper bound) του Χ είναι ένα στοιχείο aP με x ⊑
a, xX. Ελάχιστο άνω φράγμα (least upper bound) του Χ, εάν υπάρχει, είναι το μοναδικό άνω φράγμα
που περιέχεται σε κάθε άνω φράγμα. Το ελάχιστο άνω φράγμα καλείται συνένωση πλέγματος (lattice join),
ή απλά συνένωση (join), του Χ και συμβολίζεται με supX ή ⊔X. Οι έννοιες κάτω φράγμα (lower bound)
του Χ και μέγιστο κάτω φράγμα (greatest lower bound) του Χ ορίζονται δυϊκά. Το μέγιστο κάτω φράγμα
καλείται διατομή πλέγματος (lattice meet), ή απλά διατομή (meet), του Χ και συμβολίζεται με infX ή ⊓X.
Εάν X   x, y , τότε θα γράφουμε x⊔y για το supX και x⊓y για το infX . Ακολουθεί ο πρώτος ορισμός του
πλέγματος.
Ως πλέγμα (lattice) (L,⊑) ορίζεται ένα μδσυν, στο οποίο οποιαδήποτε δύο στοιχεία x, y  L έχουν
μέγιστο κάτω φράγμα που συμβολίζεται με x⊓y, και ελάχιστο άνω φράγμα που συμβολίζεται με x⊔y.
Κάθε αλυσίδα, συμπεριλαμβανομένης της αλυσίδας R,   των πραγματικών αριθμών, είναι πλέγμα.
Ένα γενικό πλέγμα (L,⊑) καλείται πλήρες (complete), όταν κάθε υποσύνολό του X έχει ένα μέγιστο κάτω
φράγμα και ένα ελάχιστο άνω φράγμα στο L . Αν θέσουμε X  L , προκύπτει ότι ένα (μη-κενό) πλήρες
πλέγμα περιέχει ένα ελάχιστο στοιχείο και ένα μέγιστο στοιχείο που συμβολίζονται έστω με o και i αντίστοιχα.
Ο προηγούμενος ορισμός για το πλέγμα εδώ καλείται σημασιολογικός (semantic lattice definition).
Επιπλέον, υπάρχει και ένας ισοδύναμος, δεύτερος ορισμός, ο οποίος εδώ καλείται αλγεβρικός (algebraic
lattice definition) και δίδεται στη συνέχεια βασιζόμενος στις δυαδικές πράξεις (operations) διατομή (⊓) και
συνένωση (⊔)  Σημειώστε ότι ως άλγεβρα (algebra) A ορίζεται ένα ζεύγος [S,F], όπου S είναι ένα μη-κενό
σύνολο, και F είναι ένα καλώς ορισμένο σύνολο πράξεων fa, κάθε μια από τις οποίες απεικονίζει μια δύναμη
Sn(a) του S στο S για έναν πεπερασμένο θετικό ακέραιο n(a). Ακολουθεί ο δεύτερος ορισμός του πλέγματος.
Ως πλέγμα (L,⊑) ορίζεται μια άλγεβρα (L,⊓,⊔) με δύο δυαδικές πράξεις ⊓ και ⊔ που ικανοποιούν τις
παρακάτω ιδιότητες L1 - L4, και αντιστρόφως.

L1. x⊓x = x, x⊔x = x (Ταυτοτική)


L2. x⊓y = y⊓x, x⊔y = y⊔x (Αντιμεταθετική)
L3. x⊓(y⊓z) = (x⊓y)⊓z, x⊔(y⊔z) = (x⊔y)⊔z (Προσεταιριστική)
L4. x⊓(x⊔y) = x⊔(x⊓y) = x (Απορρόφηση)

Η δυαδική σχέση x ⊑ y είναι ισοδύναμη με το ακόλουθο ζεύγος πράξεων

x⊓y = x και x⊔y = y (Συνέπεια)

Οι δυαδικές πράξεις διατομή (⊓) και συνένωση (⊔) έχουν διάφορες ιδιότητες. Παραδείγματος χάριν,
οι πράξεις ⊓ και ⊔ είναι μονότονες, δηλ. y⊑z  x⊓y ⊑ x⊓z και x⊔y ⊑ x⊔z, xL. Ειδικότερα, σε ένα πλήρες

7-15
πλέγμα (L,⊑) ισχύει o⊓x = o, o⊔x = x, x⊓i = x και x⊔i = i, xL. Εξ ορισμού, ατομικό (atomic) καλείται ένα
πλέγμα όπου κάθε στοιχείο ισούται με τη συνένωση ατόμων.
Στο πλαίσιο εφαρμογών ΥΝ ο αλγεβρικός ορισμός του πλέγματος είναι χρήσιμος κυρίως για
υπολογισμούς, ενώ ο σημασιολογικός ορισμός του πλέγματος είναι χρήσιμος κυρίως για λήψη αποφάσεων.
Από αυστηρά μαθηματική άποψη σημειώστε ότι η θεωρία πλεγμάτων δεν είναι τόσο γενική, όσο
είναι η θεωρία συνόλων, εξαιτίας των περιορισμών στον ορισμό του πλέγματος. Ωστόσο, στην πράξη η
θεωρία πλεγμάτων προσφέρεται για ανάλυση και σχεδίαση σε ένα ευρύ φάσμα εφαρμογών, όπως
σκιαγραφείται στην ενότητα 7.3.
Το δυϊκό, συμβολικά (L,⊑)  (L,⊑)  (L,⊒), ενός πλέγματος (L,⊑) είναι και αυτό πλέγμα όπου οι
πράξεις διατομή και συνένωση εναλλάσσονται αμοιβαία. Με άλλα λόγια κάθε πρόταση στο πλέγμα (L,⊑)
ισχύει επίσης στο πλέγμα (L,⊒), υπό την προϋπόθεση ότι η πράξη ⊓ αντικαθιστά την πράξη ⊔ και η πράξη ⊔
αντικαθιστά την πράξη ⊓. Έπεται ότι το δυϊκό ενός πλήρους πλέγματος είναι πλήρες πλέγμα.
Αρχή της δυϊκότητας (σε πλήρες πλέγμα): Λαμβάνουμε τη δυϊκή πρόταση μιας (θεωρητικής) πρότασης
σε πλήρες πλέγμα, εάν αντικαταστήσουμε τα σύμβολα ⊑, ⊔, ⊓, o, i με τα σύμβολα ⊒, ⊓, ⊔, i, o αντίστοιχα.
Ως υποπλέγμα (sublattice) (S,⊑) ενός πλέγματος (L,⊑) ορίζεται ένα πλέγμα με SL. Το (L,⊑)
καλείται υπερπλέγμα (superlattice) του (S,⊑). Επιπλέον, λέμε ότι το (S,⊑) είναι εμφυτευμένο στο (L,⊑).
Εάν (a,b)⊑ σε ένα πλέγμα (L,⊑) τότε το ([a,b],⊑), όπου [a,b] είναι το κλειστό διάστημα [a,b]:=
{xL: a⊑x⊑b}, είναι υποπλέγμα. Ένα υποπλέγμα (S,⊑) του πλέγματος (L,⊑) καλείται κυρτό, όταν a,bS
συνεπάγεται [a⊓b,a⊔b]S.
Ένα πλέγμα καλείται επιμεριστικό (distributive), εάν και μόνον εάν οποιεσδήποτε από τις
ακόλουθες δύο ισοδύναμες «επιμεριστικές ταυτότητες» ισχύουν για όλα τα x, y, z .

L5. x⊓(y⊔z) = (x⊓y)⊔(x⊓z) L5. x⊔(y⊓z) = (x⊔y)⊓(x⊔z)

Συμπλήρωμα (complement), εάν υπάρχει, ενός στοιχείου x σε πλήρες πλέγμα (L,⊑) με ελάχιστο
(μέγιστο) στοιχείο o(i) καλείται ένα στοιχείο yL, τέτοιο, ώστε x⊓y = o και x⊔y = i. Τυπικά, το συμπλήρωμα
ενός στοιχείου xL συμβολίζεται με xL. Ένα πλέγμα (L,⊑) καλείται συμπληρωματωμένο
(complemented), εάν όλα του τα στοιχεία έχουν συμπλήρωμα. Ένα συμπληρωμένο, επιμεριστικό πλέγμα
καλείται πλέγμα Boole (Boolean lattice).
Ένα παράδειγμα πλέγματος Boole είναι το ζεύγος (2S,), όπου 2S είναι το δυναμοσύνολο ενός
συνόλου S και «» είναι η συνολοθεωρητική σχέση υποσυνόλου. Η διατομή και η συνένωση στο πλέγμα
Boole (2S,) είναι η συνολοθεωρητική τομή () και συνολοθεωρητική ένωση () αντίστοιχα.
Ως άλγεβρα Boole (Boolean algebra) ορίζουμε μια άλγεβρα (L,⊓,⊔,) με δύο δυαδικές πράξεις ⊓, ⊔
και μια εναδική πράξη  που ικανοποιεί τις L1 - L8.

L6. x⊓x = o, x⊔x = i


L7.  x  x
L8. (x⊓y) = x⊔y (x⊔y) = x⊓y

Δοθέντος του γεγονότος ότι το σύνολο των προτάσεων είναι μια άλγεβρα Boole όπως εξηγήθηκε
στην ενότητα 7.3.3, έπεται ότι, στα πλαίσια της Κλασικής Λογικής, οι ιδιότητες/πράξεις μιας άλγεβρας Boole
ισχύουν στο σύνολο των προτάσεων. Περαιτέρω επεκτάσεις στην Ασαφή Λογική και Συλλογιστική
παρουσιάζονται στην ενότητα 8.1.

7-16
Έστω τα πλέγματα (L,⊑) και (M,⊑). Μια συνάρτηση : LM καλείται:

(α) Μορφισμός συνένωσης (join morphism), εάν (x⊔y) = (x)⊔(y), x, y  L .


(β) Μορφισμός διατομής (meet morphism), εάν (x⊓y) = (x)⊓(y), x, y  L .

Μια συνάρτηση  καλείται μορφισμός (πλέγματος) ((lattice) morphism), εάν η  είναι ταυτόχρονα
μορφισμός-συνένωσης και μορφισμός-διατομής. Ένας αμφιμονοσήμαντος μορφισμός καλείται ισομορφισμός
(πλέγματος) ((lattice) isomorphism).
Η ακόλουθη συνάρτηση είναι ιδιαίτερα σημαντική, στο πλαίσιο αυτού του βιβλίου.
Συνάρτηση τιμοδότησης (valuation function) σε ένα πλέγμα (L,⊑) είναι μια πραγματική
συνάρτηση v: LR που ικανοποιεί v(x)+v(y) = v(x⊓y)+v(x⊔y). Μια συνάρτηση τιμοδότησης καλείται
μονότονη (monotone), αν και μόνον αν x ⊑ y  v  x   v  y  και θετική (positive) αν και μόνον αν x ⊏ y 
v  x  v  y .
Παρατηρήστε ότι μια συνάρτηση θετικής τιμοδότησης θα μπορούσε να είναι μια συνάρτηση
μεγέθους. Συγκεκριμένα, μια συνάρτηση θετικής τιμοδότησης, η οποία λαμβάνει μη-αρνητικές τιμές, είναι
συνάρτηση μεγέθους.
Οι συναρτήσεις (θετικής) τιμοδότησης συνήθως αναφέρονται στη θεωρία πλεγμάτων, χωρίς να τους
αποδίδεται κάποια ιδιαίτερη σημασία. Αντιθέτως, σ’ αυτό το βιβλίο οι συναρτήσεις θετικής τιμοδότησης είναι
κρίσιμες, διότι επιτρέπουν τον ορισμό δύο χρήσιμων συναρτήσεων, με σκοπό την (ποσοτικοποιημένη)
σύγκριση στοιχείων πλέγματος. Συγκεκριμένα, οι προαναφερθείσες δύο χρήσιμες συναρτήσεις είναι πρώτον,
ένας βαθμός διάταξης και δεύτερον, μια μετρική. Η πρώτη συνάρτηση παρουσιάζεται στην ενότητα 7.1, ενώ
η δεύτερη συνάρτηση παρουσιάζεται στη συνέχεια.
Μία συνάρτηση μονότονης τιμοδότησης v: LR σε ένα πλέγμα (L,⊑) συνεπάγεται μια ψευδομετρική
συνάρτηση d :L  L  R0 , η οποία δίνεται από τον τύπο d(x,y)=v(x⊔y)-v(x⊓y), x, y  L . Εάν, επιπλέον, η
συνάρτηση τιμοδότησης v(.) είναι θετική, τότε η συνάρτηση d(x,y) = v(x⊔y)-v(x⊓y) είναι μετρική  Για τον
ορισμό μιας (ψευδο)μετρικής συνάρτησης βλέπε στη συνέχεια.
Δοθέντος ενός συνόλου X, μετρική (metric) καλείται μία μη-αρνητική συνάρτηση d : X  X  R0
αν και μόνο αν ικανοποιεί τις παρακάτω συνθήκες:

M1. d ( x, y)  0  x  y (Ταύτιση)
M2. d ( x, y)  d ( y, x) (Συμμετρία)
M3. d ( x, z)  d ( x, y)  d ( y, z) (Τριγωνική Ανισότητα)

Εάν η συνθήκη Μ1 ισχύει μόνο προς τη μία κατεύθυνση, ώστε d ( x, y)  0 για κάποια x  y , ενώ οι
συνθήκες Μ2 και Μ3 ισχύουν κανονικά, τότε η συνάρτηση d(.,.) καλείται ψευδο-μετρική (pseudo-metric).
Ένα σύνολο X με μια μετρική d καλείται μετρικός χώρος (metric space), συμβολικά (X,d).
Όταν σε πλέγμα (L,⊑) με μέγιστο στοιχείο i υπάρχει μια συνάρτηση v(.) θετικής τιμοδότησης, μια
λογική απαίτηση είναι να ισχύει d(x,i) < + για κάθε xL, δηλ. να απαιτείται η απόσταση οποιουδήποτε
στοιχείου xL από το μέγιστο i να είναι πεπερασμένη. Η προαναφερθείσα απαίτηση συνεπάγεται d(x,i) =
v(x⊔i)-v(x⊓i) = v(i)-v(x)< +  v(i)< +.

7-17
Ερωτήσεις Κατανόησης και Ασκήσεις
7.1) Να αποδειχθεί ότι η «Αντισυμμετρική» συνθήκη Δ2 είναι ισοδύναμη με την «Αντισυμμετρική»
συνθήκη Δ2.
7.2) Να αποδειχθεί ότι οι δύο ορισμοί του πλέγματος είναι ισοδύναμοι. Με άλλα λόγια, να δειχθεί ότι ο
σημασιολογικός ορισμός του πλέγματος είναι ισοδύναμος με τον αλγεβρικό ορισμό του πλέγματος.
7.3) Να αποδειχθεί ότι το μδσυν (I{},) είναι πλέγμα. Υπόδειξη: Αποδείξτε ότι οι αλγεβρικές
πράξεις διατομή () και συνένωση (⊔), οι οποίες ορίζονται στην ενότητα 7.2.2, ικανοποιούν τις
ιδιότητες του αλγεβρικού ορισμού πλέγματος.
7.4) Έστω ένα (υπο)πλέγμα (ℓ,⊑) εμφυτευμένο στο (υπερ)πλέγμα (L,⊑). Το τελευταίο είναι εφοδιασμένο
με μια μετρική συνάρτηση d :L  L  R0 καθώς και με μια συνάρτηση  : L  L  [0,1] βαθμού
διάταξης. Να αποδειχθεί ότι οι προαναφερθείσες συναρτήσεις ισχύουν ως τέτοιες στο (υπο)πλέγμα
(ℓ,⊑).

Βιβλιογραφία
Ajmal, N. & Thomas, K.V. (1994). Fuzzy lattices. Information Sciences, 79(3-4), 271-291.
Birkhoff, G. (1967). Lattice Theory (Colloquium Publications 25). Providence, RI: American Mathematical
Society.
Chakrabarty, K. (2001). On Fuzzy Lattice. In: W. Ziarko, Y.Y. Yao, eds., Rough Sets and Current Trends in
Computing (Lecture Notes in Computer Science 2005: 238-242). Berlin, Germany: Springer-Verlag.
Davey, B.A. & Priestley, H.A. (1990). Introduction to Lattices and Order. Cambridge, UK: Cambridge
University Press.
Fan, J., Xie, W. & Pei, J. (1999). Subsethood measure: new definitions. Fuzzy Sets and Systems, 106(2), 201-
209.
Goguen, J.A. (1967). L-fuzzy sets. Journal of Mathematical Analysis and Applications, 18(1), 145-174.
Grätzer, G. (2003). General Lattice Theory (2nd ed.). Basel, Switzerland: Birkhäuser Verlag AG.
Guarino, N., Oberle, D. & Staab, S. (2009). What is an ontology?. In: S. Staab, R. Studer, eds., Handbook on
Ontologies (International Handbooks on Information Systems: 1-17). Berlin, Germany: Springer-
Verlag.
Kaburlasos, V.G. (1992). Adaptive Resonance Theory With Supervised Learning and Large Database
Applications (Library of Congress-Copyright Office). Reno, NV: Univ. Nevada, Ph.D. Dissertation.
Kaburlasos, V.G. & Kehagias, A. (2014). Fuzzy inference system (FIS) extensions based on lattice theory.
IEEE Transactions on Fuzzy Systems, 22(3), 531-546.
Kaburlasos, V.G. & Papakostas, G.A. (2015). Learning distributions of image features by interactive fuzzy
lattice reasoning (FLR) in pattern recognition applications. IEEE Computational Intelligence Magazine,
10(3), 40-49.
Kehagias, A. & Konstantinidou, M. (2005). L-fuzzy valued inclusion measure, L-fuzzy similarity and L-fuzzy
distance. Fuzzy Sets and Systems, 136(3), 313-332.
Knuth, K.H. (2005). Lattice duality: the origin of probability and entropy. Neurocomputing, 67, 245-274.
Nanda, S. (1989). Fuzzy lattice. Bulletin Calcutta Mathematical Society, 81, 201-202.
Sinha, D. & Dougherty, E.R. (1993). Fuzzification of set inclusion: theory and applications. Fuzzy Sets and
Systems, 55(1), 15-42.
Sinha, D. & Dougherty, E.R. (1995). A general axiomatic theory of intrinsically fuzzy mathematical
morphologies. IEEE Transactions on Fuzzy Systems, 3(4), 389-403.
Tepavčević, A. & Trajkovski, G. (2001). L-fuzzy lattices: an introduction. Fuzzy Sets and Systems, 123(2),
209-216.
Young, V.R. (1996). Fuzzy subsethood. Fuzzy Sets and Systems, 77(3), 371-384.
Zhang, H.-Y. & Zhang, W.-X. (2009). Hybrid monotonic inclusion measure and its use in measuring
similarity and distance between fuzzy sets. Fuzzy Sets and Systems, 160(1), 107-118.

7-18
Κεφάλαιο 8: Υπολογιστικές Μεθοδολογίες σε Πλέγματα
H θεωρία πλεγμάτων προέκυψε ως παραπροϊόν μιας προσπάθειας για μαθηματική τυποποίηση της
προτασιακής λογικής του Αριστοτέλη. Συγκεκριμένα, στο πρώτο μισό του 19ου αιώνα η προσπάθεια του
George Boole για τυποποίηση της προτασιακής λογικής κατέληξε στην εισαγωγή της άλγεβρας Boole. Η
μελέτη αξιωμάτων της άλγεβρας Boole προς το τέλος του 19ου αιώνα οδήγησε τους Peirce και Schröder στην
έννοια του (μαθηματικού) πλέγματος· ανεξάρτητα, η έρευνα του Dedekind πάνω σε ιδεώδη αλγεβρικών
αριθμών (ideals of algebraic numbers) οδήγησε και αυτή στην εισαγωγή της έννοιας του (μαθηματικού)
πλέγματος (Grätzer, 2003). Τις επόμενες δεκαετίες δημοσιεύονταν αποσπασματικά αποτελέσματα της θεωρίας
πλεγμάτων, συχνά σε εχθρικό κλίμα, το οποίο συντηρούσαν μαθηματικοί κύκλοι της εποχής.
Με τη συστηματική δουλειά του Birkhoff (1967) τη δεκαετία του 1930 στο πανεπιστήμιο Harvard της
Βοστώνης ξεκίνησε η γενική ανάπτυξη της θεωρίας πλεγμάτων και, τελικά, η ανάδειξή της σε διακριτό πεδίο
των μαθηματικών. Ο Birkhoff έδειξε ότι η θεωρία πλεγμάτων ενοποιούσε μέχρι τούδε ασυσχέτιστα
μαθηματικά πεδία, όπως η γραμμική άλγεβρα, η λογική, η θεωρία πιθανοτήτων κ.ά. Σημαντική συμβολή στη
θεμελίωση της θεωρίας πλεγμάτων είχαν διάφοροι μαθηματικοί ή/και λογικιστές (logicians), όπως οι:
Jónsson, Kurosh. Malcev, Ore, von Neumann και Tarski (Rota, 1997).
Ο υπολογισμός σε πλέγματα σήμερα αποτελεί μια τάση στην ΥΝ, όπως εξηγήθηκε στην Εισαγωγή στο
Μέρος-ΙΙΙ. Σημειώστε ότι ο ενοποιητικός χαρακτήρας της θεωρίας πλεγμάτων στην ΥΝ έχει αναγνωριστεί
αποσπασματικά από διάφορους ερευνητές (Bloch & Maitre, 1995· Maragos, 2005· Nachtegael & Kerre,
2001). Αυτό το κεφάλαιο σκιαγραφεί τρεις επιστημονικές μεθοδολογίες (paradigms) υπολογισμού σε
πλέγματα που περιλαμβάνουν τις #1. Λογική και Συλλογιστική, #2. Τυποποιημένη Ανάλυση Εννοιών και #3.
Μαθηματική Μορφολογία. Συγκεκριμένα, οι μεθοδολογίες #1 και #2 βασίζονται στο σημασιολογικό ορισμό
πλέγματος και κάνουν χρήση της δυαδικής σχέσης μερική διάταξη, ενώ η μεθοδολογία #3 βασίζεται στον
αλγεβρικό ορισμό πλέγματος και κάνει χρήση των δυαδικών πράξεων συνένωση και διατομή.

8.1 Λογική και Συλλογιστική


Πλέγματα έχουν χρησιμοποιηθεί σε διάφορες μελέτες της λογικής (Birkhoff & von Neumann, 1936·
Edmonds, 1980· Gaines, 1978· Halmos & Givant, 1998). Περαιτέρω, ενδιαφέρουσα γενίκευση της έννοιας
του ασαφούς συνόλου αποτελεί η έννοια Π-ασαφές σύνολο (L-fuzzy set) (Goguen, 1967). Συγκεκριμένα, η
συνάρτηση βαθμού συμμετοχής ενός Π-ασαφούς συνόλου απεικονίζει το σύνολο αναφοράς σε ένα γενικό
πλήρες πλέγμα, αντί να το απεικονίζει αποκλειστικά στο πλήρες πλέγμα κλειστό διάστημα [0,1] . Η
προαναφερθείσα ιδέα επεκτείνεται τόσο στη λογική, όσο και στη συλλογιστική (reasoning), με τη
συνάρτηση αλήθειας μιας πρότασης να λαμβάνει τιμές σε ένα πλήρες πλέγμα για αποτελεσματικότερη
αναπαράσταση της αμφιβολίας. Τελικά, η προτασιακή λογική που έτσι προκύπτει ονομάζεται Π-προτασιακή
λογική (Xu κ.ά., 2003). Στη συνέχεια συνοψίζουμε και επεκτείνουμε αποτελέσματα του Κεφαλαίου 2 σχετικά
με συνεπαγωγές.

8.1.1 Ασαφείς συνεπαγωγές. Βασικές έννοιες, ορισμοί.


Υπενθυμίζεται ότι στην κλασική (δίτιμη) λογική, οι τιμές αληθείας της συνεπαγωγής (  ) επαληθεύουν τον
ακόλουθο πίνακα αλήθειας.

 0 1
0 1 1
1 0 1

Πίνακας 8.1 Πίνακας αλήθειας της κλασικής (δίτιμης) συνεπαγωγής (  ).

Ο παραπάνω πίνακας περιγράφεται στο διμελές σύνολο 0,1 με τον τύπο:


a b  ab.

Η κλασική συνεπαγωγή (  ) μπορεί να ερμηνευτεί ως μία δυαδική πράξη με τιμές αλήθειας στο
σύνολο 0,1 . Περαιτέρω, η ασαφής λογική επεκτείνει το σύνολο των τιμών αλήθειας στο διάστημα  0,1

8-1
και, συνεπώς, η συνεπαγωγή επεκτείνεται σε μία δυαδική πράξη στο διάστημα  0,1 . Δηλαδή, ασαφής
συνεπαγωγή είναι μία απεικόνιση:
I : 0,1  0,1  0,1 ,

που ικανοποιεί τον παραπάνω πίνακα της κλασικής συνεπαγωγής “  ”, όταν το διάστημα  0,1 περιοριστεί
στο διμελές σύνολο 0,1 .
Η επέκταση της κλασικής συνεπαγωγής a  b  a  b , στην ασαφή λογική, είναι:
I S  a, b   S  n  a  , b  , a, b  0,1 (8.1)
όπου S , T και n , συμβολίζουν τ-συννόρμα (ασαφή διάζευξη), τ-νόρμα (ασαφή σύζευξη) και ασαφή άρνηση,
αντίστοιχα. Οι S και T είναι δυαδικές σε σχέση με την n , δηλ. ικανοποιούν τους νόμους De Morgan.
Επιπλέον, επειδή ο τύπος a  b  a  b , μπορεί να γραφεί στη δίτιμη λογική ως:

a  b  max x 0,1 a  x  b , a, b 0,1


και
a  b  a  a  b , a, b 0,1

οι αντίστοιχες επεκτάσεις στην ασαφή λογική είναι


I R  a, b   supx  0,1 T  a, x   b , a, b  0,1 (8.2)
και
IQL  a, b   S  n  a  , T  a, b   , a, b  0,1 (8.3)

Οι ασαφείς συνεπαγωγές που προκύπτουν από την Εξ.(8.1) αναφέρονται ως S–συνεπαγωγές, αυτές
που προκύπτουν από την Εξ.(8.2) αναφέρονται ως R-συνεπαγωγές, ενώ αυτές που προκύπτουν από την
Εξ.(8.3) αναφέρονται ως QL–συνεπαγωγές. Εκτός των παραπάνω τριών ασαφών συνεπαγωγών, που είναι οι
επικρατέστερες στη βιβλιογραφία, σημειώστε ότι έχουν οριστεί και άλλες ασαφείς συνεπαγωγές.
Γενικεύσεις ιδιοτήτων της κλασικής συνεπαγωγής οδηγούν στις ακόλουθες ιδιότητες, οι οποίες συχνά
εκλαμβάνονται ως λογικά αξιώματα των ασαφών συνεπαγωγών.

A1. a  b  I  a, x   I  b, x  . Δηλαδή, η τιμή αλήθειας των ασαφών συνεπαγωγών αυξάνει, καθώς η τιμή
αλήθειας των υποθέσεων φθίνει.
A2. a  b  I  x, a   I  x, b  . Δηλαδή, η τιμή αλήθειας των ασαφών συνεπαγωγών αυξάνει, καθώς η τιμή
αλήθειας των συμπερασμάτων αυξάνει.
A3. I  0, a   1 . Δηλαδή, η ψευδής πρόταση συνεπάγεται οτιδήποτε.
A4. I 1, b   b . Ουδετερότητα της αληθούς πρότασης.
A5. I  a, a   1 . Δηλαδή, οι ασαφείς συνεπαγωγές είναι αληθείς όταν οι τιμές αλήθειας του αιτίου και του
επακόλουθου είναι ίσες.
A6. I  a, I  b, x    I  b, I  a, x   . Αυτή είναι μια γενίκευση της ισοδυναμίας a   b  x  και
b   a  x  , η οποία ισχύει στη κλασική συνεπαγωγή.
A7. I  a, b   1 εάν και μόνο εάν a  b . Δηλαδή, οι ασαφείς συνεπαγωγές είναι αληθείς, εάν και μόνο εάν
το επακόλουθο είναι τουλάχιστον τόσο αληθές, όσο και το αίτιο.
A8. I  a, b   I  n  b  , n  a   για μια ασαφή άρνηση n . Δηλαδή, οι ασαφείς συνεπαγωγές είναι εξίσου
αληθείς, όταν οι αρνήσεις του αιτίου και του επακόλουθου εναλλαχθούν.
A9. Η I είναι μια συνεχής συνάρτηση. Η ιδιότητα αυτή εξασφαλίζει ότι μικρές αλλαγές στις τιμές
αλήθειας του αιτίου ή του επακόλουθου, δεν επιφέρουν μεγάλες αλλαγές στις τιμές αλήθειας των
ασαφών συνεπαγωγών.

8-2
Τα αξιώματα Α1 – Α9 δεν είναι ανεξάρτητα το ένα από το άλλο, π.χ. τα A3 και A5 προκύπτουν από
το A7, όχι όμως το αντίστροφο. Μια ασαφής συνεπαγωγή δεν ικανοποιεί πάντα όλα τα αξιώματα Α1 – Α9.
Όταν όμως μια ασαφής συνεπαγωγή ικανοποιεί όλα τα αξιώματα Α1 – Α9, ικανοποιεί επίσης και το
ακόλουθο θεώρημα.

Θεώρημα Smets και Magrez. Μια συνάρτηση I : 0,1  0,1  0,1 ικανοποιεί τα αξιώματα A1 - A9 των
ασαφών συνεπαγωγών για μια ασαφή άρνηση n , αν και μόνο αν υπάρχει μία γνησίως αύξουσα συνεχής
συνάρτηση f : 0,1  0,   , με f  0   0 . Τότε ισχύουν:

I  a, b   f ( 1)  f 1  f  a   f  b   , a,b  0,1 και


n  a   f 1  f 1  f  a   , a  0,1 .

Εκτός του προαναφερθέντος ορισμού της ασαφούς συνεπαγωγής, ο οποίος είναι ο επικρατέστερος
στη βιβλιογραφία, αναφέρουμε και τον ακόλουθο εναλλακτικό ορισμό:

Ορισμός Fodor και Roubens. Ασαφής συνεπαγωγή είναι μια απεικόνιση:

I : 0,1  0,1  0,1 ,

που ικανοποιεί το λογικό πίνακα της κλασικής συνεπαγωγής, όταν το  0,1 περιορίζεται στο 0,1 και
επιπλέον a,b  0,1 ικανοποιεί τις ακόλουθες ιδιότητες:

(i) a  b  I  a, x   I  b, x  .
(ii) a  b  I  x, a   I  x, b  .
(iii) I  0, a   1 .
(iv) I  a,1  1 .
(v) I 1,0   0 .

8.1.2 Άλγεβρα Συνεπαγωγών Πλέγματος


Έστω ( L, , , O, I ) ένα πλήρες πλέγμα με ελάχιστο και μέγιστο στοιχείο O και I, αντίστοιχα, έστω ' μια
συνάρτηση δυϊκού ισομορφισμού, και έστω μια συνάρτηση : L  L  L . Η επτάδα  ( L, , , , , O, I )
καλείται άλγεβρα συνεπαγωγών πλέγματος (lattice implication algebra), εάν ισχύουν οι ακόλουθες
ιδιότητες για κάθε x, y, z  L :

(Ι1) x  ( y  z)  y  ( x  z) .
(Ι2) x  x  I .
(Ι3) x  y  y '  x ' .
(Ι4) Εάν x  y  y  x  I τότε x  y .
(Ι5) ( x  y)  y  ( y  x)  x .
(L1) ( x  y)  z  ( x  z)  ( y  z) .
(L2) ( x  y)  z  ( x  z)  ( y  z) .

Ακολουθούν τρία παραδείγματα άλγεβρας συνεπαγωγών πλέγματος.

Παράδειγμα 1
Έστω ( L, , , ) ένα πλέγμα Boole. Για κάθε x, y  L όρισε x  y  x'  y . Τότε, η τετράδα ( L, , , )
είναι μια άλγεβρα συνεπαγωγών πλέγματος.

8-3
Παράδειγμα 2
Έστω L  [0,1] , με πράξεις , ,  και  να ορίζονται για κάθε x, y, z  L ως εξής:
x  y  max{x, y} , x  y  min{x, y} , x'  1  x και x  y  min{x,1  x  y} . Τότε, η επτάδα
([0,1], , ,', ,0,1) είναι μια άλγεβρα συνεπαγωγών πλέγματος, γνωστή και ως άλγεβρα του Łukasiewicz
πάνω στο διάστημα [0, 1].

Παράδειγμα 3
Έστω L  {ai | i  1,2, , n} , με πράξεις , ,  και  να ορίζονται για κάθε 1  j, k  n ως εξής:
a j  ak  amax{ j ,k } , a j  ak  amin{ j ,k } , (a j )'  an j 1 και a j  ak  amin{n  j  k ,n} . Τότε, η επτάδα
( L, , ,', , a1 , an ) είναι μια άλγεβρα συνεπαγωγών πλέγματος, είναι μια άλγεβρα του Łukasiewicz πάνω στην
πεπερασμένη αλυσίδα a1,a2,…,an.

Έστω ( L, , ,', , O, I ) μια άλγεβρα συνεπαγωγών πλέγματος. Τότε, για κάθε x, y, z  L ενδεικτικά
αναφέρουμε τις ακόλουθες ιδιότητες:

(1) Εάν I  x  I τότε x  I .


(2) I  x  x , x  O  x' .
(3) OxI , xI I .
(4) ( x  y)  y  x  y .
(5) x  y εάν και μόνο εάν x  y  I .
(6) (( x  y)  y)  y  x  y .
(7) ( x  y)  x'  ( y  x)  y ' .
(8) Εάν x  y τότε x  z  y  z και z  x  z  y .
(9) ( x  y)  (( y  z)  ( x  z))  I .

Στο πλαίσιο της Π-προτασιακής λογικής ιδιαίτερη έμφαση έχει δοθεί στην αρχή της ανάλυσης
(resolution principle) με σκοπό μια αυτοματοποιημένη συλλογιστική (automated reasoning) (βλ.
αυτοποιημένη αποδεικτική διαδικασία) σε εφαρμογές όπου η αμφιβολία αναπαρίσταται με λογικές τιμές μέσα
σε ένα γενικό πλήρες πλέγμα.

8.2 Τυποποιημένη Ανάλυση Εννοιών


Ως τυποποιημένα συμφραζόμενα (formal context) ορίζουμε μια τριάδα (G, M, I), η οποία περιλαμβάνει δύο
σύνολα G και M καθώς και δυαδική σχέση I μεταξύ των G και M. Τα στοιχεία του G καλούνται αντικείμενα
(objects), ενώ τα στοιχεία του M καλούνται γνωρίσματα (attributes). Για να εκφράσουμε συμβολικά ότι ένα
αντικείμενο g έχει σχέση I με ένα γνώρισμα m, γράφουμε gIm ή (g,m)I και λέμε ότι «το αντικείμενο g έχει
το γνώρισμα m».
Για ένα σύνολο AG αντικειμένων ορίζουμε:

Α = {mM| gIm για όλα τα gA}

δηλαδή Α είναι το σύνολο όλων των κοινών γνωρισμάτων των στοιχείων του A.
Αντίστοιχα, για ένα σύνολο BM αντικειμένων ορίζουμε:

B = {gG| gIm για όλα τα mB}

δηλαδή B είναι το σύνολο όλων των αντικειμένων με γνωρίσματα στο B.


Ως τυποποιημένη έννοια (formal concept), ή απλώς έννοια, μέσα σε μια τριάδα (G, M, I)
τυποποιημένων συμφραζόμενων ορίζουμε ένα ζεύγος (A,B) με AG, BM, Α=B και B=A.

8-4
Αποδεικνύεται ότι το σύνολο των τυποποιημένων εννοιών σε μια τριάδα τυποποιημένων
συμφραζόμενων αποτελεί ένα πλήρες πλέγμα (Ganter & Wille, 1999).
Η τυποποιημένη ανάλυση εννοιών (ΤΑΕ) (formal concept analysis (FCA)) είναι μια επιστημονική
μεθοδολογία που συνήθως μελετά έναν πίνακα συμφραζόμενων, π.χ. ένα ερωτηματολόγιο ή μια βάση
δεδομένων, με σκοπό να υπολογίσει ένα πλέγμα τυποποιημένων εννοιών. Το ακόλουθο παράδειγμα είναι
ενδεικτικό της ΤΑΕ.

Παράδειγμα 4
Για τον Πίνακα 8.2 τυποποιημένων συμφραζόμενων μπορούν να υπολογιστούν οι 19 τυποποιημένες έννοιες
που παρουσιάζονται στο Σχήμα 8.1.

Γνωρίσματα
a b c d e f g h i
1 Βδέλλα   
2 Τσιπούρα    
3 Βάτραχος     
4 Σκύλος     
5 Ρύζι    
6 Καλαμιά     
7 Φασολιά    
8 Αραβόσιτος    

Πίνακας 8.2 Πίνακας συμφραζόμενων αναφορικά με έναν αριθμό ζωντανών οργανισμών με τα ακόλουθα γνωρίσματα: a:
«χρειάζεται νερό για να ζήσει», b: «ζει μέσα στο νερό», c: «ζει πάνω στο έδαφος», d: «χρειάζεται χλωροφύλλη για να
τραφεί», e: «δύο φύλλα σπόρων», f: «ένα φύλλο σπόρων», g: «αυτόνομη κίνηση», h: «έχει μέλη», i: «θηλαστικό».

123
45678
ag ac ab ad
1234 5678
agh 34 12 adf
234 678 356 568
acgh abg abc acd abdf
34 123 678
36 56
acg abgh acdf
23 68
hi acde
abcgh abcdf
4 3 7 6
abcde
fghi

Σχήμα 8.1 Πλέγμα εννοιών που υπολογίστηκε από τον πίνακα στο Σχήμα 8.1.

Σημειώστε ότι έχουν προταθεί διάφοροι αλγόριθμοι υπολογισμού πλεγμάτων τυποποιημένων εννοιών
στην ΤΑΕ (Caro-Contreras & Mendez-Vazquez, 2013). Επίσης, έχουν προταθεί επεκτάσεις της ΤΑΕ στην ΥΝ
(Belohlavek, 2000). Εφαρμογές της ΤΑΕ συχνά προτείνονται για ανάκτηση (retrieval) πληροφοριών σε
βάσεις δεδομένων (data bases) (Carpineto & Romano, 1996· Priss, 2000). Επιπλέον δημοφιλείς είναι
εφαρμογές περιλαμβάνουν οντολογίες (Formica, 2006).

8-5
8.3 Μαθηματική Μορφολογία
Η μαθηματική μορφολογία (MM) (mathematical morphology (MM)) μελετά και σχεδιάζει τεχνικές
ανάλυσης και επεξεργασίας γεωμετρικών δομών. Προτάθηκε από τους Matheron (1975) και Serra (1982), οι
οποίοι ανέπτυξαν ένα σύνολο μαθηματικών εργαλείων για επεξεργασία εικόνων, θεωρώντας τις εικόνες ως
σύνολα γεωμετρικών μορφών και χρησιμοποιώντας εκτεταμένα την θεωρία πλεγμάτων για ανάλυση.
Αρχικά η ΜΜ χρησιμοποιήθηκε για την ανάλυση δυαδικών εικόνων (σύνολα σημείων) με τη χρήση
πράξεων συνόλων (Dougherty & Sinha, 1995). Για την εφαρμογή της ΜΜ σε εικόνες αποχρώσεων του γκρι,
οι πράξεις συνόλων γενικεύτηκαν με την υιοθέτηση των πράξεων ένωση, τομή και εγκλεισμός στη βάση της
θεωρίας πλεγμάτων (Bloch κ.ά., 2007). Συγκεκριμένα, η εφαρμογή τεχνικών ΜΜ τυπικά μεθοδεύεται
κάνοντας χρήση ενός δισδιάστατου δομικού στοιχείου (structure element), το οποίο σαρώνει μια ψηφιακή
εικόνα εφαρμόζοντας τους τελεστές: διαστολή (dilation), διάβρωση (erosion), άνοιγμα (opening) και
κλείσιμο (closing), με σκοπό να απομακρύνει θόρυβο από την εικόνα ή/και να ταυτοποιήσει ενδιαφέροντα
πρότυπα (patterns) πάνω στην εικόνα. Σημειώστε ότι δοθέντων δύο πλήρων πλεγμάτων (L,⊑) και (M,⊑), οι
τελεστές διάβρωση ε : LM και διαστολή δ: LM ορίζονται αντίστοιχα ως εξής:
 ( M)   (M) και  ( M)   (M) ,
όπου ε(Μ) και δ(Μ) συμβολίζουν τα σύνολα {ε(α)|αΜ} και {δ(α)|αΜ} αντίστοιχα.

8.3.1 Μορφολογικές Λειτουργίες σε Επεξεργασία Εικόνων


Έστω E  n
ένα μη κενό σύνολο και 2 το δυναμοσύνολο του E και  η δυαδική σχέση εγκλεισμού. Το
 
ζεύγος 2 ,  είναι ένα πλήρες πλέγμα Boole (Meyer, 1991). Μία πράξη συνόλων είναι κάθε απεικόνιση από

 

το Καρτεσιανό γινόμενο 2 ,  στον εαυτό του για κάποιο Ν{1,2,…}. Άν X, Y  2 , τότε οι πράξεις
X  Y , X  Y , X \ Y και X c είναι οι συνηθισμένες συνολοθεωρητικές πράξεις της ένωσης, τομής,
διαφοράς και συμπληρωματικότητας, αντίστοιχα. Έστω h  E και X, B  E . Τότε το σύνολο
Xh  x  h : x  X είναι η μετατόπιση (translation) του X κατά h , ενώ το σύνολο Xt  x : x  X
είναι το ανάστροφο του X .
Οι περισσότερες μορφολογικές πράξεις σε σύνολα προκύπτουν από το συνδυασμό των πράξεων
συνόλων με τις βασικές πράξεις της διαστολής και της διάβρωσης, oι οποίες προκύπτουν κατά Minkowski ως
εξής:
X  B Xb (8.4)
bB

X B Xb (8.5)
bB

Σε μορφολογικές εφαρμογές επεξεργασίας εικόνας το X αντιστοιχεί σε μία εικόνα, το B είναι το


δομικό στοιχείο, ενώ το αποτέλεσμα των πράξεων X  B , X B είναι μετασχηματισμένες εικόνες. Οι
πράξεις διαστολή και διάβρωση αντίστοιχα ορίζονται με τη χρήση του δομικού στοιχείου B  P  E  ως εξής:

B  X  B (8.6)
B  X B (8.7)

Σημειώστε ότι οι πράξεις διαστολή και διάβρωση είναι δυϊκά συμπληρωματικές. Συγκεκριμένα, η
διαστολή ενός συνόλου ισοδυναμεί με τη διάβρωση του συμπληρώματος του συνόλου, με δομικό στοιχείο το
ανάστροφο δομικό στοιχείο, όπως περιγράφεται από τις παρακάτω εξισώσεις:

 X  B  Xc Bt
c
(8.8)
 X B   X c  Bt
c
(8.9)

8-6
Στην πράξη η διαστολή διογκώνει ένα αντικείμενο στην εικόνα, μειώνει το υπόβαθρο και
παραμορφώνει τις κυρτές γωνίες του αντικειμένου. Αντίθετα, η διάβρωση μειώνει το αντικείμενο, ενισχύει το
υπόβαθρο και παραμορφώνει τις κοίλες γωνίες του αντικειμένου.
Οι πράξεις της διαστολής και διάβρωσης υπάρχουν για κάθε μορφολογικό τελεστή, με κυριότερους
αυτούς του ανοίγματος και του κλεισίματος. Οι δύο τελευταίοι τελεστές ορίζονται αντίστοιχα ως εξής:
X B=  X B  B (8.10)
X  B=  X  B B (8.11)
Η πράξη του ανοίγματος αφαιρεί τα στενά μέρη του αντικειμένου και παραμορφώνει τις κυρτές
γωνίες ενός αντικειμένου στην εικόνα, ενώ το κλείσιμο γεμίζει τα στενά τμήματα του φόντου και
παραμορφώνει τις κοίλες γωνίες ενός αντικειμένου στην εικόνα.
Μια βασική ιδιότητα των πράξεων άνοιγμα και κλείσιμο είναι ότι, αν εφαρμοστούν επαναληπτικά, δεν
επιφέρουν περαιτέρω αλλαγές μετά την πρώτη εφαρμογή τους. Δηλαδή:
 X B B=  X B (8.12)
 X  B  B=  X  B (8.13)

8.3.2 Μορφολογικά Φίλτρα


Οι μορφολογικές πράξεις της διαστολής, της διάβρωσης, του ανοίγματος και του κλεισίματος εφαρμόζονται
με τη μορφή φίλτρων για την απομάκρυνση θορύβου από εικόνες, τη βελτίωση της ποιότητας εικόνων, την
εξαγωγή χαρακτηριστικών από εικόνες, κ.α. Συγκεκριμένα, το άνοιγμα μπορεί να φιλτράρει το θετικό θόρυβο,
δηλ. να αφαιρέσει τα θορυβώδη μέρη του αντικειμένου, συνήθως μικρά τμήματα. Από την άλλη πλευρά το
κλείσιμο μπορεί να χρησιμοποιηθεί για την αφαίρεση του αρνητικού θορύβου, δηλ. να προσθέσει στο
αντικείμενο θορυβώδη μέρη του φόντου, συνήθως μικρές τρύπες.
Με την εφαρμογή ανοίγματος και κλεισίματος προκύπτουν τα ακόλουθα φίλτρα: (1) άνοιγμα
ακολουθούμενο από κλείσιμο, (2) κλείσιμο ακολουθούμενο από άνοιγμα, (3) άνοιγμα ακολουθούμενο από
κλείσιμο και μετά άνοιγμα και (4) κλείσιμο ακολουθούμενο από άνοιγμα και μετά κλείσιμο.
Στη βιβλιογραφία έχουν αποσπασματικά προταθεί τεχνικές σχεδίασης μορφολογικών φίλτρων, όπως
τα φίλτρα συντεταγμένης λογικής (coordinate logical filter) (Mertzios & Tsirikolias, 1998) και τα φίλτρα
αμοιβάδας (amoeba filter) (Lerallut κ.ά., 2007). Συγκεκριμένα, η πρώτη κατηγορία φίλτρων αποτελεί μία
εναλλακτική μορφή μορφολογικών φίλτρων που μπορούν να υπολογιστούν γρήγορα, ενώ η δεύτερη
κατηγορία φίλτρων χαρακτηρίζεται από την ευέλικτη χρήση δομικών στοιχείων μεταβλητού μεγέθους.

8.3.3 Επεκτάσεις
Τεχνικές ΜΜ έχουν επεκταθεί και πέραν της επεξεργασίας εικόνων. Για παράδειγμα, το ανατροφοδοτούμενο
ΤΝΔ Hopfield (βλ. Κεφάλαιο 1) συχνά παρουσιάζεται ως μια τεχνική της ΜΜ.
Άλλες τεχνικές ΜΜ επιχειρούν να αντικαταστήσουν τη χρονοβόρα πράξη του πολλαπλασιασμού με
την πολύ ταχύτερη πράξη της διατομής (βλ. min) μεταξύ δύο αριθμών. Επιπλέον, κατ’ αντιστοιχία με την
έννοια γραμμικώς ανεξάρτητα διανύσματα έχει μελετηθεί η έννοια ανεξάρτητα στοιχεία πλέγματος, ώστε να
διευκολύνεται η μαθηματική ανάλυση και σχεδίαση σε εφαρμογές ΤΝΔ, επεξεργασίας σημάτων κ.ά. (Ritter
& Gader, 2006· Ritter & Urcid, 2003· Ritter & Wilson, 2000).

8.4 Συγκριτικά Σχόλια


Από τις τρεις μεθοδολογίες χρήσης μαθηματικών πλεγμάτων που παρουσιάστηκαν σ’ αυτό το κεφάλαιο, η
ΜΜ προς το παρόν έχει την μεγαλύτερη συνάφεια με την ΥΝ. Για παράδειγμα, έχουν προταθεί διάφορα ΤΝΔ
στο πλαίσιο της ΜΜ (Pessoa & Maragos, 2000· Sussner & Graña, 2003· Yang & Maragos, 1995).
Όπως επισημάνθηκε στην αρχή αυτού του κεφαλαίου, από τη μια μεριά, τόσο η Λογική
/Συλλογιστική, όσο και η Τυποποιημένη Ανάλυση Εννοιών βασίζονται στο σημασιολογικό ορισμό πλέγματος
και κάνουν χρήση κυρίως της δυαδικής σχέσης μερική διάταξη ενώ από την άλλη μεριά, η Μαθηματική
Μορφολογία βασίζεται στον αλγεβρικό ορισμό πλέγματος και κάνει χρήση κυρίως των δυαδικών πράξεων
συνένωση και διατομή.
Η χρήση της θεωρίας πλεγμάτων που προτείνεται στο κεφάλαιο 7 αυτού του βιβλίου δίνει έμφαση
στο σημασιολογικό ορισμό πλέγματος. Επιπλέον, σημαντικές διαφορές της χρήσης της θεωρίας πλεγμάτων
που προτείνεται σ’ αυτό το βιβλίο είναι οι εξής: 1) εδώ μπορούν επίσης να χρησιμοποιηθούν πλέγματα μη-
αριθμήσιμης πληθικότητας και 2) η χρήση συναρτήσεων θετικής τιμοδότησης εδώ είναι κρίσιμη.

8-7
Ερωτήσεις Κατανόησης και Ασκήσεις
v b
8.1) Δίνεται ο βαθμός διάταξης    a, b   , α[0,1], b(0,1]. Θέτουμε v(x)=x και ορίζουμε
v  a  b
   a, b  =1 αν α=b=0.
(α) Να δείξετε ότι o   είναι μια ασαφής συνεπαγωγή (με τον κλασικό ορισμό).
(β) Εξετάστε αν o   είναι μια ασαφής συνεπαγωγή σύμφωνα με τον ορισμό Fodor & Roubens.
(γ) Ποια από τα λογικά αξιώματα των ασαφών συνεπαγωγών ικανοποιεί o   ;
(δ) Αν o   δεν ικανοποιεί κάποιο (κάποια) από τα λογικά αξιώματα, τότε βρείτε για ποια
α,b[0,1] ισχύει η ισότητα.
8.2) Στη βιβλιογραφία παρουσιάζονται ασαφείς συνεπαγωγές που ικανοποιούν τα παρακάτω λογικά
αξιώματα (όπου I ασαφής συνεπαγωγή και α,b,c[0,1]):
1. I  a,   b, c      I  a, b  , I  a, c   .

 
2.  I  a, b  , I  n  a  , b   b .
3.   I  0.5, b  , I  0.5, b    b .
4. I  a, I  b, c    I    a, b  , c  .
b
Βρείτε ποια από τα παραπάνω λογικά αξιώματα ικανοποιεί ο βαθμός διάταξης    a, b   . Αν
ab
ο   δεν ικανοποιεί κάποιο/κάποια από αυτά, τότε βρείτε κατάλληλα α,b,c[0,1], ώστε να ισχύει η
ισότητα.
b
8.3) Δίνεται ο βαθμός διάταξης    a, b   , όπου α,b[0,1] και τον οποίο (χάριν απλότητας) θα
ab
συμβολίζουμε a  b     a, b  . Εξετάστε αν ο   ικανοποιεί τις ακόλουθες ιδιότητες:
1.  a  b   c =  a  c    b  c  .
2.  a  b   c   a  c    b  c  .
3.  a  b   c   a  c    b  c  .
4.  a  b   c   a  c    b  c  .
8.4) Δίνεται ο βαθμός διάταξης a  b     a, b  , α,b[0,1]. Να δείξετε ότι ισχύουν οι παρακάτω
σχέσεις:
 
1.   a1  a2   a3   ...  an  an , αν a1  ...  an και n περιττός,

 a  a   a   ...  a
1 2 3 n  1 , αν a1  ...  an και n άρτιος.
2.  a1  a2    a2  a3   ...   an1  an   1 , αν a1  ...  an .
8.5) Για τον βαθμό διάταξης   της Άσκησης 8.4 να δείξετε ότι ισχύουν οι παρακάτω σχέσεις:
1.    a,0   0 , αν   (0,1] .
2.    a,1  1 για κάθε a  0,1 .
3.    a, b   1 , αν a  b  0 ή b  1 .
4.      a, b  , c      a,   b, c   , α,b,c  0,1 .
5.   a,   a, b   =    a,   a, b   , αν a  b .
6.   a,   a, b    b , αν a  b .
7.    a, b   b για κάθε a, b  0,1 .

8-8
b
8.6) Έστω    a, b   , α,b[0,1] και η κλασική άρνηση x =1-x. Να δείξετε ότι ισχύουν οι
ab
παρακάτω σχέσεις:

1.    a, b       a, b  για κάθε a, b  0,1 .
2.    a, a   a για κάθε a  0,1 .
3.    a, a   a για κάθε a  0,1 .
4.    a, b   a , αν a  b .
v b
8.7) Δίνεται ο βαθμός διάταξης    a, b   , όπου v μια θετικότιμη συνάρτηση τιμοδότησης
v  a  b
v : R  R+0 . Αν στη θέση της v θέσουμε μια άλλη θετικότιμη συνάρτηση τιμοδότησης, θα αλλάξουν
οι σχέσεις =, ,  στις ιδιότητες του   στις Ασκήσεις 8.1 – 8.6; Δικαιολογήστε την απάντησή σας.
v a  b
8.8) Ένας άλλος βαθμός διάταξης που προτείνεται είναι ο    a, b   , αν a  (0,1], b [0,1]
va
και    a, b   1, αν α=b=0. Δικαιολογήστε γιατί ο   αναμένεται να ικανοποιεί τις ίδιες ιδιότητες
με τον   .
8.9) Να αναπτυχθεί κώδικας σε MATLAB που να υλοποιεί τις πράξεις της διαστολής, και διάβρωσης για
τυχαίο δομικό στοιχείο τετράγωνου σχήματος.
8.10) Να αναπτυχθεί κώδικας σε MATLAB που να υλοποιεί τις πράξεις του ανοίγματος, και κλεισίματος
για τυχαίο δομικό στοιχείο κυκλικού σχήματος.
8.11) Να αναπτυχθεί κώδικας σε MATLAB που να υλοποιεί τα τέσσερα μορφολογικά φίλτρα της
παραγράφου 8.3.2 για τυχαίο δομικό στοιχείο τετραγωνικού σχήματος. Να εφαρμόσετε τα
προκύπτοντα φίλτρα για την απομάκρυνση Γκαουσιανού θορύβου από μία τυχαία εικόνα. Ποια
είναι τα αποτελέσματα φιλτραρίσματος του κάθε φίλτρου;

Βιβλιογραφία
Belohlavek, R. (2000). Representation of concept lattices by birectional associative memories. Neural
Computation, 12(10), 2279-2290.
Birkhoff, G. (1967). Lattice Theory (Colloquium Publications 25). Providence, RI: American Mathematical
Society.
Birkhoff, G. & von Neumann, J. (1936). The logic of quantum mechanics. Annals of Mathematics, 37(4), 823-
843.
Bloch, I. & Maitre, H. (1995). Fuzzy mathematical morphologies: a comparative study. Pattern Recognition,
28(9), 1341-1387.
Bloch, I., Heijmans, H. & Ronse, C. (2007). Mathematical morphology. In M. Aiello, I. Pratt-Hartmann & J.
van Benthem (Eds.), Handbook of Spatial Logics (pp. 857-944). Heidelberg, Germany: Springer.
Caro-Contreras, D.E. & Mendez-Vazquez, A. (2013). Computing the concept lattice using dendritical neural
networks. In M. Ojeda-Aciego & J. Outrata (Eds.), CLA (pp. 131-152). University of La Rochelle,
France: Laboratory L3i.
Carpineto, C. & Romano, G. (1996). A lattice conceptual clustering system and its application to browsing
retrieval. Machine Learning, 24(2), 95-122.
Dougherty, E.R. & Sinha, D. (1995). Computational gray-scale mathematical morphology on lattices (a
comparator-based image algebra) part II: image operators. Real-Time Imaging, 1, 283-295.
Edmonds, E.A. (1980). Lattice fuzzy logics. Intl. J. Man-Machine Studies, 13(4), 455-465.
Formica, A. (2006). Ontology-based concept similarity in Formal Concept Analysis. Information Sciences,
176(18), 2624–2641.

8-9
Gaines, B.R. (1978). Fuzzy and probability uncertainty logics. Information and Control, 38, 154-169.
Ganter, B. & Wille, R. (1999). Formal Concept Analysis. Heidelberg, Germany: Springer.
Goguen, J.A. (1967). L-fuzzy sets. Journal of Mathematical Analysis and Applications, 18(1), 145-174.
Grätzer, G. (2003). General Lattice Theory. Basel, Switzerland: Birkhäuser Verlag AG.
Halmos, P. & Givant, S. (1998). Logic as Algebra (The Dolciani Mathematical Expositions 21). Washington,
D.C.: The Mathematical Association of America.
Lerallut, R., Decencière, É. & Meyer, F. (2007). Image filtering using morphological amoebas. Image and
Vision Computing, 25(4), 395-404.
Maragos, P. (2005). Lattice image processing: a unification of morphological and fuzzy algebraic systems. J.
Math. Imaging and Vision, 22(2-3), 333-353.
Matheron, G. (1975). Random Sets and Integral Geometry. New York, N.Y.: Wiley & Sons.
Mertzios, B.G. & Tsirikolias, K. (1998). Coordinate logic filters and their applications in image processing
and pattern recognition. Circuits, Systems, and Signal Processing, 17(4), 517-538.
Meyer, F. (1991). Un algorithme optimal pour la ligne de partage des eaux. 8ème Congrès de Reconnaissance
des formes et Intelligence Artificielle 2, Lyon, France, 847-857.
Nachtegael, M. & Kerre, E.E. (2001). Connections between binary, gray-scale and fuzzy mathematical
morphologies. Fuzzy Sets and Systems, 124(1), 73-85.
Pessoa, L.F.C. & Maragos, P. (2000). Neural networks with hybrid morphological /rank /linear nodes: a
unifying framework with applications to handwritten character recognition. Pattern Recognition, 33(6),
945-960.
Priss, U. (2000). Lattice-based information retrieval. Knowledge Organization, 27(3), 132-142.
Ritter, G.X. & Gader, P.D. (2006). Fixed Points of Lattice Transforms and Lattice Associative Memories. In
P. Hawkes (Ed.), Advances in Imaging and Electron Physics, 144 (pp. 165-242). Amsterdam, The
Netherlands: Elsevier.
Ritter, G.X. & Urcid, G. (2003). Lattice algebra approach to single-neuron computation. IEEE Transactions on
Neural Networks, 14(2), 282-295.
Ritter, G.X. & Wilson, J.N. (2000). Handbook of Computer Vision Algorithms in Image Algebra (2nd ed.).
Boca Raton, FL: CRC Press.
Rota. G.C. (1997). The many lives of lattice theory. Notices of the American Mathematical Society, 44(11),
1440-1445.
Serra, J. (1982). Image Analysis and Mathematical Morphology. London, U.K.: Academic Press.
Sussner, P. & Graña, M. (Eds.). (2003). Special Issue on: Morphological Neural Networks. J. Math. Imaging
and Vision, 19(2), 79-80.
Xu, Y., Ruan, D., Qin, K. & Liu, J. (2003). Lattice-Valued Logic (Studies in Fuzziness and Soft Computing
132). Heidelberg, Germany: Springer.
Yang, P.-F. & Maragos, P. (1995). Min-max classifiers: learnability, design and application. Pattern
Recognition, 28(6), 879-899.

8-10
Κεφάλαιο 9: Αριθμοί Διαστημάτων
Αυτό το κεφάλαιο βασίζεται στην ειδική θεωρία του κεφαλαίου 7 για να παρουσιάσει μια δημοφιλή ιεραρχία
πλεγμάτων, η οποία εδώ αναπτύσσεται προοδευτικά με αφετηρία την αλυσίδα (R,) των πραγματικών
αριθμών. Επιπλέον, παρουσιάζονται κάποια καινοτόμα μαθηματικά εργαλεία και δίνονται νέες προοπτικές
στην ΥΝ. Είναι ενδιαφέρον να ανακαλέσουμε κάποια γεγονότα σχετικά με το σύνολο R στη συνέχεια.
Το σύνολο R των πραγματικών αριθμών προκύπτει ως αποτέλεσμα μετρήσεων (measurements)
(Kaburlasos, 2006). Συγκεκριμένα, κάποιο ενδιαφέρον μέγεθος μετριέται συγκρίνοντάς το επαναληπτικά με
ένα ομοειδές πρότυπο μέγεθος, το οποίο καλείται «μέτρο», καθώς και με υποδιαιρέσεις του τελευταίου. Το
πηλίκο και το υπόλοιπο μιας μέτρησης μαζί ορίζουν έναν πραγματικό αριθμό.
Το σύνολο R μελετήθηκε κατά τη διάρκεια περίπου 2.500 ετών από την εποχή των πρωτοπόρων
Πυθαγορείων φιλοσόφων (6ος αι. π.Χ.), οι οποίοι διακήρυτταν ότι οι (φυσικοί) αριθμοί είναι η ουσία των
πάντων. Συγκεκριμένα, οι Πυθαγόρειοι θεωρούσαν ότι η αρμονία στο σύμπαν περιγράφεται με αριθμούς και
οποιοσδήποτε αριθμός μπορούσε να αναπαρασταθεί ως κλάσμα δύο φυσικών αριθμών. Δηλαδή οι
Πυθαγόρειοι θεωρούσαν μόνον τους αριθμούς που σήμερα ονομάζουμε ρητούς (rational).
Λίγους αιώνες μετά την εμφάνισή της, υπό το «βάρος» της ανακάλυψης κάποιων μη-ρητών (βλ.
άρρητων (irrational)) αριθμών, η Σχολή των Πυθαγόρειων κατέρρευσε. Γύρω στις αρχές του 20ου αιώνα
αποδείχθηκε ότι το πλήθος των άρρητων αριθμών είναι μη-αριθμήσιμο, δηλ. οι άρρητοι αριθμοί είναι
περισσότεροι από τους ρητούς. Το σύνολο όλων των αριθμών ρητών και άρρητων μαζί, ονομάστηκε σύνολο
των πραγματικών αριθμών (συμβολικά R). Διάφορες ιδιότητες του συνόλου R μελετήθηκαν. Μια
ενδιαφέρουσα ιδιότητα, στο πλαίσιο αυτού του βιβλίου, είναι ότι το σύνολο R των πραγματικών αριθμών
είναι ολικώς διατεταγμένο. Σ’ αυτό το κεφάλαιο θα βασιστούμε στην ολική διάταξη του συνόλου R για να
παρουσιάσουμε μια δημοφιλή ιεραρχία πλεγμάτων.

9.1 Μια Δημοφιλής Ιεραρχία Πλεγμάτων


Αυτή η ενότητα παρουσιάζει μία δημοφιλή ιεραρχία πλεγμάτων σε έξι επίπεδα. Ένα επιπλέον
επίπεδο σκιαγραφείται ως επέκταση των προαναφερθέντων έξι επιπέδων.

9.1.1 Επίπεδο-0: Το Πλέγμα (R,) των Πραγματικών Αριθμών


Η αλυσίδα (R,) των πραγματικών αριθμών δεν είναι πλήρες πλέγμα (Davey & Priestley, 1990). Ωστόσο,
μπορεί να μετατραπεί σε πλήρες πλέγμα με την εισαγωγή ενός ελάχιστου στοιχείου o   και ενός μέγιστου

στοιχείου i   , οπότε προκύπτει το πλήρες πλέγμα R  R  {, },  . 
Έστω ένα πλήρες πλέγμα (L=[o,i],) πραγματικών αριθμών, με ελάχιστο και μέγιστο στοιχείο το
o R και i R αντίστοιχα, όπου o<i. Το μέγιστο κάτω φράγμα δύο αριθμών x και y είναι ο μικρότερος από
τους δύο, συμβολικά xy, ενώ το ελάχιστο άνω φράγμα δύο αριθμών είναι ο μεγαλύτερος από τους δύο,
συμβολικά xy. Ως συνάρτηση θετικής τιμοδότησης v: L R 0 στο πλέγμα (L,) θα θεωρήσουμε μια γνησίως
αύξουσα συνάρτηση τέτοια, ώστε να ικανοποιούνται οι δύο λογικές απαιτήσεις v(o)=0 και v(i)<+. Επιπλέον,
ως συνάρτηση δυϊκού ισομορφισμού : LL στο πλέγμα (L,) θα θεωρήσουμε μια γνησίως φθίνουσα
συνάρτηση τέτοια, ώστε (o)=i, καθώς και (i)=o. Για παράδειγμα, πρώτον, στο πλήρες πλέγμα (L=[-
1
,+],) μπορούμε να θεωρήσουμε τη σιγμοειδή συνάρτηση v( x)  και τη γραμμική συνάρτηση (x)
1  e x
= -x. Δεύτερον, στο πλήρες πλέγμα (L=[0,1],) μπορούμε να θεωρήσουμε τις συναρτήσεις v(x) = x και (x) =
1-x. Γενικά, παραμετρικές συναρτήσεις (.) και v(.) εισάγουν ρυθμίσιμες μη-γραμμικότητες, των οποίων οι
παράμετροι μπορούν να εκτιμηθούν βέλτιστα με διάφορες τεχνικές, π.χ. με εξελικτικό υπολογισμό κ.λπ.
Σε κάθε περίπτωση, δοθείσης μιας συνάρτησης v: L R 0 θετικής τιμοδότησης, έπεται μια μετρική
συνάρτηση d: LL R 0 , η οποία δίνεται από τον τύπο d(x,y)= v(xy) – v(xy).

9.1.2 Επίπεδο-1: Το Πλέγμα (Ι1,⊑) των Διαστημάτων Τύπου-1 (Τ1)


Ο υπολογισμός με διαστήματα έχει μακρά ιστορία σε πρακτικές χειρισμού της αβεβαιότητας κατά τους
υπολογισμούς (Alefeld & Herzberger, 1983· Moore, 1979· Tanaka & Lee 1998). Σ’ αυτό το κεφάλαιο

9-1
περιγράφεται μια διαφορετική προσέγγιση, στο πλαίσιο της θεωρίας διάταξης, με έμφαση στη σημασιολογία
και στην κοινή λογική, παρά στην άλγεβρα.
Θεωρούμε το μερικώς διατεταγμένο πλέγμα (Ι1,⊑) των διαστημάτων Τ1 σε κάποιο πλήρες πλέγμα
(L=[o,i],) πραγματικών αριθμών. Το μέγιστο κάτω φράγμα δύο διαστημάτων Τ1 [a,b] και [c,e] δίνεται από τη
σχέση [a,b]⊓[c,e]= [ac,be], εάν acbe και [a,b]⊓[c,e]= = [i,o], εάν ac>be. Ενώ, το ελάχιστο άνω
φράγμα δύο διαστημάτων Τ1 [a,b] και [c,e] δίνεται από τη σχέση [a,b]⊔[c,e]= [ac,be]. Υπενθυμίζεται ότι
το κενό σύνολο  στο πλέγμα (L=[o,i],) αναπαρίσταται ως [i,o].
Δοθέντων (α) μιας συνάρτησης v: L R 0 θετικής τιμοδότησης και (β) μιας συνάρτησης : LL
δυϊκού ισομορφισμού στο πλέγμα (L,), όπως έχει παρουσιαστεί λεπτομερώς στο Επίπεδο-0, έπεται μια
συνάρτηση v1: LL R 0 θετικής τιμοδότησης στο πλέγμα (LL,) των γενικευμένων διαστημάτων, η οποία
δίδεται από τον τύπο v1([a,b])= v((a))+v(b). Συνεπώς, μπορεί να οριστεί τόσο μια μετρική συνάρτηση d1(.,.),
όσο και δύο συναρτήσεις βαθμού διάταξης ⊓(.,.) και ⊔(.,.) στο πλέγμα (LL,). Οι προαναφερθείσες
συναρτήσεις ισχύουν ως τέτοιες στο υποπλέγμα (Ι1,⊑), το οποίο είναι εμφυτευμένο στο υπερπλέγμα
(LL,). Συγκεκριμένα, οι ακόλουθες τρεις συναρτήσεις είναι διαθέσιμες στο (Ι1,⊑).
Μια μετρική συνάρτηση d1: Ι1Ι1 R 0 στο πλέγμα (I1,⊑) υπολογίζεται ως ακολούθως:

d1([a,b],[c,e])= [v((ac))-v((ac))] + [v(be)-v(be)] = d(θ(a),θ(c)) + d(b,e) (9.1)

Δύο βαθμοί διάταξης ⊓: I1I1[0,1] και ⊔: I1I1[0,1] στο πλέγμα (Ι1,⊑) υπολογίζονται ως
ακολούθως:
 1, x

 ( x  [a, b], y  [c, e])   v1 ( x y ) v((a  c))  v(b  e) (9.2)
 v ( x)  v((a))  v(b)
, x
 1
 1, x y 

 ( x  [a, b], y  [c, e])   v1 ( y ) v((c))  v(e) (9.3)
 v ( x y )  v((a  c))  v(b  e) , x y
 1

Ένα διάστημα Τ1 πλην του κενού συνόλου, εδώ θα ονομάζεται συνηθισμένο διάστημα Τ1. Το μδσυν
όλων των συνηθισμένων διαστημάτων Τ1 θα συμβολίζεται με (I1p,). Η συνάρτηση δ1: I1p R 0 , η οποία
υπολογίζεται ως δ1([a,b])= v1([a,b])= v((a))+v(b), είναι μια συνάρτηση μεγέθους στο μδσυν (I1p,).
Συγκεκριμένα, η αναφερθείσα στο Κεφάλαιο 7 συνάρτηση μεγέθους δ1([a,b])= v(b)-v(a) προκύπτει όπως
εξηγείται στη συνέχεια.
Οι συναρτήσεις (.) και v(.) μπορούν να επιλεγούν με διάφορους τρόπους. Για παράδειγμα, αν
επιλέξουμε (x)= -x και v(.),ώστε v(x) = -v(-x), προκύπτει η συνάρτηση θετικής τιμοδότησης v1([a,b]) = v(b)-
v(a) = δ1([a,b]). Συνεπώς, έπεται η μετρική d1([a,b],[c,e])= [v(ac)-v(ac)] + [v(be)-v(be)]. Ειδικότερα, για
v(x)= x προκύπτει η L1 (Hamming) μετρική d1([a,b],[c,e])= |a-c| + |b-e|.

9.1.3 Επίπεδο-2: Το Πλέγμα (Ι2,⊑) των Διαστημάτων Τύπου-2 (Τ2)


Ένα διάστημα Τύπου-2 (Τ2) (type-2 (T2) interval) ορίζεται ως ένα διάστημα διαστημάτων Τ1. Για
παράδειγμα, ένα διάστημα Τ2 είναι το [[a1,a2],[b1,b2]], όπου [a1,a2] και [b1,b2] είναι διαστήματα Τ1, δηλ.
[a1,a2], [b1,b2](Ι1,⊑) με [a1,a2]⊑[b1,b2].

9-2
Έστω (Ι2,⊑) το μερικώς διατεταγμένο πλέγμα των διαστημάτων Τ2 που προκύπτουν σε ένα
συγκεκριμένο πλέγμα (Ι1,⊑) διαστημάτων Τ1. Το μέγιστο κάτω φράγμα δύο διαστημάτων Τ2, έστω
[[a1,a2],[b1,b2]] και [[c1,c2],[e1,e2]], δίνεται από τη σχέση [[a1,a2],[b1,b2]]⊓ [[c1,c2],[e1,e2]]=
[[a1c1,a2c2],[b1e1,b2e2]], εάν [a1c1,a2c2]⊑ [b1e1,b2e2] και [[a1,a2],[b1,b2]]⊓ [[c1,c2],[e1,e2]]= =
[[o,i],[i,o]], εάν [a1c1,a2c2]⋢ [b1e1,b2e2]. Ενώ το αντίστοιχο ελάχιστο άνω φράγμα δίνεται από τη σχέση
[[a1,a2],[b1,b2]]⊔ [[c1,c2],[e1,e2]]= [[a1c1,a2c2],[b1e1,b2e2]]. Υπενθυμίζεται ότι το κενό σύνολο  στο
πλέγμα (Ι2,⊑) αναπαρίσταται ως [[o,i],[i,o]].
Από το Επίπεδο-1 ανακαλέστε τη συνάρτηση v1: LL R 0 θετικής τιμοδότησης στο πλέγμα
(LL,), η οποία δίνεται από τον τύπο v1([a,b])= v((a))+v(b). Επιπλέον, η συνάρτηση 1: LLLL, η
οποία δίνεται από τον τύπο 1([a,b])= [b,a], είναι δυϊκού ισομορφισμού στο πλέγμα (LL,) των
γενικευμένων διαστημάτων, όπως ζητείται να αποδειχθεί σε ερώτηση κατανόησης στο τέλος αυτού το
κεφαλαίου. Σύμφωνα με τα προηγούμενα έπεται μια συνάρτηση v2: LLLL R 0 θετικής τιμοδότησης, στο
πλήρες πλέγμα (LLLL, ) των γενικευμένων διαστημάτων, η οποία δίδεται από τον τύπο
v2([[a1,a2],[b1,b2]])= v1(1([a1,a2]))+v1([b1,b2])= v(a1)+v((a2))+v((b1))+v(b2). Συνεπώς, μπορεί να οριστεί
τόσο μια μετρική συνάρτηση d2(.,.), όσο και δύο συναρτήσεις βαθμού διάταξης ⊓(.,.) και ⊔(.,.) στο πλέγμα
(LLLL, ). Οι προαναφερθείσες συναρτήσεις ισχύουν ως τέτοιες στο υποπλέγμα (Ι2,⊑), το οποίο
είναι εμφυτευμένο στο υπερπλέγμα (LLLL, ). Συγκεκριμένα, οι ακόλουθες τρεις συναρτήσεις
είναι διαθέσιμες στο (Ι2,⊑).
Μια μετρική συνάρτηση d2: Ι2Ι2 R 0 στο πλέγμα (I2,⊑) υπολογίζεται ως ακολούθως:

d2([[a1,a2],[b1,b2]],[[c1,c2],[e1,e2]])= d(a1,c1)+d((a2),(c2))+d((b1),(e1))+d(b2,e2) (9.4)

Δύο βαθμοί διάταξης ⊓: I2I2[0,1] και ⊔: I2I2[0,1] στο πλέγμα (Ι2,⊑) υπολογίζονται ως
ακολούθως:

 ([[a1 , a2 ],[b1 , b2 ]],[[c1 , c2 ],[e1, e2 ]]) 

 1, b1  b2
 0, b1  b2 , b1  d1  b2  d 2

 0, b1  b2 , b1  d1  b2  d 2 , [a1  c1 , a2  c2 ] [b1  e1 , b2  e2 ] (9.5)
 v ([[a , a ],[b , b ]] [[c , c ],[e , e ]])
 2 1 2 1 2 1 2 1 2
, διαφορετικά
 v2 ([[a1 , a2 ],[b1 , b2 ]])


 1, b1  b2

 ([[a1 , a2 ],[b1 , b2 ]],[[c1 , c2 ],[e1 , e2 ]])   0, b1  b2 , e1  e2 (9.6)
 v2 ([[c1 , c2 ],[e1 , e2 ]])
 , διαφορετικά
 v2 ([[a1 , a2 ],[b1 , b2 ]] [[c1 , c2 ],[e1 , e2 ]])

Ένα διάστημα Τ2 πλην του κενού συνόλου, εδώ θα ονομάζεται συνηθισμένο διάστημα Τ2. Το μδσυν
όλων των συνηθισμένων διαστημάτων Τ2 θα συμβολίζεται με (I2p,).
Το μέγεθος ενός συνηθισμένου διαστήματος Τ2, έστω [[a1,a2],[b1,b2]], είναι μια συνάρτηση δ2:

I2p R 0 , η οποία υπολογίζεται ως δ2([[a1,a2],[b1,b2]])= v1([b1,b2])-v1([a1,a2])= v((b1))+v(b2)- v((a1))-v(a2).

9-3
9.1.4 Επίπεδο-3: Το Πλέγμα (F1,≼) των Αριθμών Διαστημάτων Τύπου-1 (ΑΔ Τ1)
Στο κεφάλαιο 2 προαναφέρθηκε το θεώρημα της ταυτοποίησης, σύμφωνα με το οποίο ένα ασαφές σύνολο
μπορεί να αναπαρασταθεί ισοδύναμα είτε με τη συνάρτηση συμμετοχής του ή με το σύνολο των -διατομών
του. Το θεώρημα της ταυτοποίησης εδώ χρησιμοποιείται ως ακολούθως. Κατ’ αρχάς, εγκαταλείπεται η
ερμηνεία της εφικτότητας μιας (ασαφούς) συνάρτησης συμμετοχής ασαφών αριθμών. Κατόπιν, θεωρείται η
αντίστοιχη αναπαράσταση με -διατομές. Τελικά, προκύπτει ένας αριθμός διαστημάτων (ΑΔ), όπως
εξηγείται λεπτομερώς παρακάτω. Πρώτα, όμως, ορίζουμε έναν γενικότερο τύπο αριθμού στη συνέχεια.
Ένας γενικευμένος αριθμός διαστημάτων (ΓΑΔ) (generalized intervals’ number (GIN)) ορίζεται
ως μια συνάρτηση f: [0,1]( R  R ,), όπου ( R  R ,) είναι πλέγμα γενικευμένων διαστημάτων.
Έστω G το σύνολο των ΓΑΔ. Έπεται ότι το (G,⊑) είναι πλήρες πλέγμα, ως (μη-αριθμήσιμο)
Καρτεσιανό γινόμενο πλήρων πλεγμάτων ( R  R ,). Στη συνέχεια, το ενδιαφέρον στρέφεται στο
υποπλέγμα των αριθμών διαστημάτων (ΑΔ).
Ο αριθμός διαστημάτων (ΑΔ) Τύπου-1 (Τ1) (intervals’ number (IN) type-1 (T1)), ΑΔ για
συντομία, ορίζεται ως μια συνάρτηση F: [0,1]I1, που ικανοποιεί τις ακόλουθες δύο σχέσεις 1)
h1  h2  Fh1 Fh2 και 2) X  [0,1] : Fh  F X .
hX
Το σύνολο F1 των ΑΔ (Τ1) είναι μερικώς διατεταγμένο, πλήρες πλέγμα, το οποίο συμβολίζεται ως
(F1,≼). Ένας ΑΔ ερμηνεύεται ως κόκκος πληροφορίας (Kaburlasos & Papadakis, 2006). Το σύνολο F1 των ΑΔ
έχει μελετηθεί σε μια σειρά από εργασίες. Συγκεκριμένα, έχει αποδειχθεί ότι το σύνολο F1 είναι μετρικό
πλέγμα (Kaburlasos, 2004) με πληθικότητα ίση με την πληθικότητα 1 του συνόλου R των πραγματικών
αριθμών (Kaburlasos & Kehagias, 2006)· με άλλα λόγια, υπάρχουν τόσοι ΑΔ, όσοι και πραγματικοί αριθμοί.
Επιπλέον, το σύνολο F1 είναι κώνος σε έναν γραμμικό χώρο (Papadakis & Kaburlasos, 2010).
Ένας ΑΔ μπορεί, ισοδύναμα, να αναπαρασταθεί είτε με ένα σύνολο διαστημάτων Fh, h[0,1] (αυτή
είναι η αναπαράσταση-διαστημάτων (interval-representation)), είτε με μια συνάρτηση
F(x)=  {h : x  Fh } (αυτή είναι η αναπαράσταση-συνάρτησης-συμμετοχής (membership-function-
h[0,1]

representation)), όπως φαίνεται στο Σχήμα 9.1. Η διατομή (⋏) και η συνένωση (⋎) στο πλέγμα (F1,≼)
δίνονται ως (F⋎G)h = Fh⊔Gh και (F⋏G)h = Fh⊓Gh, αντίστοιχα. Για παράδειγμα, το Σχήμα 9.2 δείχνει τον
υπολογισμό της συνένωσης (⋎) και της διατομής (⋏) δύο ΑΔ F και G, αντίστοιχα, χρησιμοποιώντας
αναπαραστάσεις συνάρτησης-συμμετοχής.
Ως στήριγμα ή, εναλλακτικά, φορέα ενός ΑΔ ορίζουμε το ελάχιστο άνω φράγμα διάστημα  Fh .
h(0,1]

Τυπικά τα ΑΔ που χρησιμοποιούνται στην πράξη έχουν συνεχείς συναρτήσεις συμμετοχής, συνεπώς ισχύει η
ισότητα  Fh  F0 , δηλ. το στήριγμα ενός FF1 είναι η «βάση» του για h=0.
h(0,1]

Για ΑΔ F,GF1 έχει αποδειχθεί η επόμενη ισοδυναμία (Kaburlasos & Kehagias, 2014):

F ≼ G  (h[0,1]: Fh⊑Gh)  (xL: F(x)G(x))


Ως ύψος ενός ΑΔ E, συμβολικά hgt(E), ορίζεται το ελάχιστο άνω φράγμα () όλων των αντίστοιχων
βαθμών συμμετοχής, δηλ. hgt ( E )   E ( x) . Για παράδειγμα, στο Σχήμα 9.1(α) είναι hgt(E)= 1, ενώ στο
x[ o ,i ]

Σχήμα 9.2(γ) είναι hgt(F⋏G)= h1.


Στη συνέχεια ορίζονται δύο βαθμοί διάταξης ⋏: F1F1[0,1] και ⋎: F1F1[0,1], στη βάση των
βαθμών διάταξης ⊓: I1I1[0,1] και ⊔: I1I1[0,1], αντίστοιχα.
1
⋏(E,F)= 
0
( Eh , Fh )dh (9.7)

1
⋎(E,F)= 
0
( Eh , Fh )dh (9.8)

9-4
E
1
E(x)

0
1 2 3 4 5 6 7 8 9 10

(α)

E
1
h

0
1 2 3 4 5 6 7 8 9 10
x

(β)

Σχήμα 9.1 Οι δύο ισοδύναμες αναπαραστάσεις ενός ΑΔ. (α) Η αναπαράσταση-συνάρτησης-συμμετοχής. (β) Η
αναπαράσταση-διαστημάτων.

h
F G
1

h1

1 2 4 5 6 8 9 10 x
a (α)
h h
F⋎G
1 1
F⋏G
h1

1 2 4 5 6 8 10 x 1 2 4 5 6 8 9 10 x
a (β) (γ)

Σχήμα 9.2 Υπολογισμός της συνένωσης (⋎) και της διατομής (⋏) στο πλέγμα (F1,≼) με τη χρήση αναπαραστάσεων
συνάρτησης-συμμετοχής. (α) Δύο ΑΔ Τ1 F και G. (β) Η συνένωση F⋎G. (γ) Η διατομή F⋏G.

9-5
Ένα μαθηματικό αποτέλεσμα με σημαντικές προεκτάσεις παρουσιάζεται στη συνέχεια, με αναφορά
στο Σχήμα 9.3 (Kaburlasos & Kehagias, 2014):

1
F(x=t) = ⋏(T,F) = 
0
(Th , Fh )dh , (9.9)

όπου FF1 και T= [t,t], h[0,1] είναι ένας τετριμμένος ΑΔ, ο οποίος αναπαριστάνει έναν πραγματικό
αριθμό. Συγκεκριμένα, η Εξ.(9.9) συσχετίζει τις δύο διαφορετικές αλλά ισοδύναμες αναπαραστάσεις ενός
ΑΔ, την αναπαράσταση-συνάρτησης-συμμετοχής και την αναπαράσταση-διαστημάτων, μέσω του βαθμού
διάταξης ⋏: F1F1[0,1], στην περίπτωση που το πρώτο όρισμα της συνάρτησης ⋏(.,.) είναι ένας
τετριμμένος ΑΔ T= [t,t], h[0,1], ενώ το δεύτερο όρισμα της συνάρτησης ⋏(.,.) είναι ένας οποιοσδήποτε
ΑΔ FF1 με συνάρτηση συμμετοχής F(x). Τότε ο βαθμός διάταξης ⋏(T,F) ισούται με την τιμή της
συνάρτησης F(x) για x=t. Επιπλέον, η χρήση μιας συνάρτησης βαθμού διάταξης συνεπάγεται τα ακόλουθα
τρία πλεονεκτήματα:
Πρώτον, η χρήση είτε της συνάρτησης ⋏(T,F) είτε της συνάρτησης ⋎(T,F), συνεπάγεται τη
δυνατότητα χρήσης μη-τετριμμένων ΑΔ Τ προς αναπαράσταση της αβεβαιότητας/αμφιβολίας· δεύτερον, η
χρήση της συνάρτησης βαθμού διάταξης ⋎(T,F) έχει το επιπλέον πλεονέκτημα ότι είναι μη-μηδενική πέραν
του στηρίγματος F0 του ΑΔ F· τρίτον, και οι δύο συναρτήσεις ⋏(.,.) και ⋎(.,.) είναι παραμετρικές, συνεπώς
μπορούν να βελτιστοποιηθούν με εκτίμηση των παραμέτρων τους. Σε όλες τις (τρεις) προαναφερθείσες
περιπτώσεις, με τη χρήση μιας συνάρτησης (σ) βαθμού διάταξης, λαμβάνονται «αποφάσεις αρχών
(principled decision-making)» υπό την έννοια ότι ικανοποιούνται οι ιδιότητες C1 και C2 στον ορισμό του
βαθμού διάταξης.
Το μαθηματικό αποτέλεσμα της Εξ.(9.9) θεωρείται κρίσιμο, διότι σε συνδυασμό με τους βαθμούς
διάταξης (.,.) και (.,.) της ενότητας 9.1.6, θεμελιώνει τη χρήση οποιασδήποτε συνάρτησης f: RNR στο
πλαίσιο της διευρυμένης ΥΝ στη βάση της επιστήμης της Λογικής και συγκεκριμένα στη βάση της
Συλλογιστικής Ασαφών Πλεγμάτων (ΣΑΠ). Σημειωτέον ότι αν η συνάρτηση f: RNR δεν είναι κυρτή, τότε
μπορεί να προσεγγιστεί ικανοποιητικά με την υπέρθεση κυρτών συναρτήσεων, π.χ. συναρτήσεων Gauss ή,
ακόμα γενικότερα, κυρτών συναρτήσεων οποιουδήποτε σχήματος.

h
T F
1

hF

h1

U1 t U2 x

Σχήμα 9.3 Ένας οποισδήποτε ΑΔ FF1 και ένας τετριμμένος ΑΔ T= [t,t], h[0,1] προς επεξήγηση της Εξ.(9.9) F(x=t)
1
= ⋏(T,F) = 
0
(Th , Fh )dh .

9-6
Υποθέτοντας ότι το ακόλουθο ολοκλήρωμα υπάρχει, μια μετρική συνάρτηση D1: F1F1 R 0 μεταξύ
ΑΔ Τ1 υπολογίζεται ως ακολούθως:
1
D1(F,G)=  d1 ( Fh , Gh )dh , (9.10)
0

όπου η ολοκληρωτέα συνάρτηση d1: Ι1Ι1 R 0 δίνεται από την Εξ.(9.1).


To μέγεθος ενός ΑΔ Τ1, έστω F, με ύψος hgt(F), είναι μια συνάρτηση Δ1: F1 R 0 , η οποία
υπολογίζεται ως ακολούθως:
hgt ( F )
1 ( F )   1 ( Fh ) p(h)dh , (9.11)
0

όπου δ1: I1p R 0 είναι μια συνάρτηση μεγέθους ενός συνηθισμένου διαστήματος Τ1 και p(h) είναι μια
συνάρτηση πυκνότητας πιθανότητας (probability density) ορισμένη στο διάστημα Ω= [0,1], η οποία εδώ
έχει το ρόλο μιας συνάρτησης βάρους (weight) μια ειδική περίπτωση προκύπτει για p(h)= 1, h[0,1].
Σημειώστε ότι, συνήθως, το ύψος ενός ΑΔ Τ1 ισούται με 1, δηλ. hgt(F)= 1.

9.1.5 Επίπεδο-4: Το Πλέγμα (F2,≼) των Αριθμών Διαστημάτων Τύπου-2 (ΑΔ Τ2)
Ένας Αριθμός Διαστημάτων (ΑΔ) Τύπου-2 (Τ2) (intervals’ number (IN) type-2 (T2)), ή ΑΔ T2 για
συντομία, ορίζεται ως ένα διάστημα ΑΔ Τ1. Δηλαδή, ένας ΑΔ T2 εξ ορισμού ισούται με [U,W]≐ {XF1: U ≼
X ≼ W}, όπου το U καλείται κάτω (lower) ΑΔ, ενώ το W καλείται άνω (upper) ΑΔ (του ΑΔ Τ2 [U,W]).
Το σύνολο των ΑΔ Τ2 είναι μερικώς διατεταγμένο, πλήρες πλέγμα, το οποίο συμβολίζεται ως (F2,≼).
Ένας ΑΔ Τ2 ερμηνεύεται ως κόκκος πληροφορίας (Kaburlasos & Papadakis, 2006).
Ένας ΑΔ Τ2 μπορεί, ισοδύναμα, να αναπαρασταθεί είτε με ένα σύνολο διαστημάτων [U,W]h, h[0,1]
(αυτή είναι η αναπαράσταση-διαστημάτων), είτε με δύο συναρτήσεις U(x)=  {h : x U h } και W(x)=
h[0,1]

 {h : x Wh } (αυτή είναι η αναπαράσταση-συναρτήσεων-συμμετοχής). Το Σχήμα 9.4 δείχνει τις δύο


h[0,1]

διαφορετικές, αλλά ισοδύναμες, αναπαραστάσεις ενός ΑΔ Τ2. Η διατομή (⋏) και η συνένωση (⋎) στο πλέγμα
(F2,≼) δίνονται ως (F⋏G)h = Fh⊓Gh και (F⋎G)h = Fh⊔Gh αντίστοιχα, για h[0,1]. Για παράδειγμα, ο
υπολογισμός της συνένωσης (⋎) και της διατομής (⋏) στο πλέγμα (F2,≼) παρουσιάζονται στο Σχήμα 9.5 με
αναπαραστάσεις συναρτήσεων-συμμετοχής. Συγκεκριμένα, το Σχήμα 9.5(α) δείχνει δύο ΑΔ Τ2 [f,F] και
[g,G], όπου f,F,g,GF1, ώστε f≼F και g≼G. Η συνένωση [f,F]⋎[g,G] = [f⋏g,F⋎G] φαίνεται στο Σχήμα 9.5(β),
όπου (f⋏g)h =  για κάθε h(h1,1]. To Σχήμα 9.5(γ) δείχνει τη διατομή [f,F]⋏[g,G] = [f⋎g,F⋏G], όπου (f⋎g)h
=  για κάθε h(h3,1], καθώς και (F⋏G)h =  για κάθε h(h4,1].
Μπορούμε να ορίσουμε δύο συναρτήσεις βαθμού διάταξης ⋏: F2F2[0,1] και ⋎: F2F2[0,1]
χρησιμοποιώντας τις εξισώσεις Εξ.(9.7) και Εξ.(9.8) στη βάση συναρτήσεων βαθμού διάταξης ⊓:
I2I2[0,1] και ⊔: I2I2[0,1]. Οι τελευταίες δίνονται από τις εξισώσεις Εξ.(9.5) και Εξ.(9.6) αντίστοιχα.
Mια μετρική συνάρτηση D2: F2F2 R 0 μεταξύ ΑΔ Τ2 υπολογίζεται ως ακολούθως:
1
D2(F,G)=  d 2 ( Fh , Gh )dh (9.12)
0

όπου η ολοκληρωτέα συνάρτηση d2: Ι2Ι2 R 0 δίνεται από την Εξ.(9.4).


To μέγεθος ενός ΑΔ Τ2, έστω F= [U,W], είναι μια συνάρτηση Δ2: F2 R 0 , η οποία υπολογίζεται ως:
Δ2(F) = Δ1(W) – Δ1(U), (9.13)
όπου η συνάρτηση Δ1: F1 R 0 υπολογίζει το μέγεθος ενός ΑΔ Τ1 με χρήση της Εξ.(9.11).

9-7
F
1

0.6471

0
0 2 4 6 8 10
(α)

F
1

0.6471

0
0 2 4 6 8 10

(β)

Σχήμα 9.4 Οι δύο ισοδύναμες αναπαραστάσεις ενός ΑΔ Τ2. (α) Η αναπαράσταση-συναρτήσεων-συμμετοχής και (β) Η
αναπαράσταση-διαστημάτων.

h F G
1

h4
h3
h2 f
h1 g

1 2 4 5 6 8 9 10 x
(α)

F⋎G
1 1

F⋏G
h4
h3 f⋎g
f⋏g h2
h1

1 2 4 5 6 8 10 x 1 2 4 5 6 8 9 10 x
(β) (γ)

Σχήμα 9.5 Υπολογισμός της συνένωσης (⋎) και της διατομής (⋏) στο πλέγμα (F2,≼) με τη χρήση αναπαραστάσεων
συναρτήσεων-συμμετοχής. (α) Δύο ΑΔ Τ2 [f,F] και [g,G], όπου f,F,g,GF1, ώστε f≼F και g≼G. (β) Η συνένωση
[f,F] ⋎[g,G] = [f⋏g,F⋎G]. (γ) Η διατομή [f,F] ⋏[g,G] = [f⋎g,F⋏G].

9-8
9.1.6 Επίπεδο-5: Πλέγματα Ν-άδων Αριθμών Διαστημάτων Τ1/Τ2
Θεωρήστε το Καρτεσιανό γινόμενο G= G1…GN, όπου κάθε ένα από τα πλέγματα (Gi,≼), i{1,…,N}
ισούται με (F1,≼). Δοθέντων δύο συναρτήσεων iv: Li R 0 και i: LiLi στο αντίστοιχο πλέγμα (Li,)
πραγματικών αριθμών, όπως περιγράφεται στο Επίπεδο-0, έπεται μια συνάρτηση iv1([a,b])= iv(i(a))+ iv(b)
θετικής τιμοδότησης στο πλέγμα (LiLi,) των γενικευμένων διαστημάτων και, τελικά, έπονται μετρικές
συναρτήσεις καθώς και συναρτήσεις βαθμού διάταξης στο πλέγμα (G,⊑), όπως περιγράφεται παρακάτω.
Συγκεκριμένα, μπορούμε να ορίσουμε συναρτήσεις βαθμού διάταξης με δύο διαφορετικούς τρόπους στο
πλέγμα (G,⊑), όπως εξηγείται στη συνέχεια.
Πρώτον, για κάθε h[0,1] θεωρούμε N-διάστατα ορθογώνια παραλληλεπίπεδα στο πλήρες πλέγμα
(I1 , ) . Έτσι προκύπτουν (Kaburlasos & Papadakis, 2009):
N

N
1  i v1  ( Ei )h 
⊔(F,E) =  N
i 1
dh , και (9.14)
0
 v1  ( Fi
i
Ei ) h 
i 1

N
1  i v1  ( Fi Ei ) h 
⊓(F,E) =  i 1
N
dh . (9.15)
0
 v1  ( Fi )h 
i

i 1

Δεύτερον, θεωρούμε ξεχωριστά την κάθε διάσταση στο πλέγμα ( F1N ,⊑). Συνεπώς, σε κάθε διάσταση
i{1,…,N} μπορεί να οριστεί ένας βαθμός διάταξης i: F1F1[0,1] σύμφωνα είτε με την Εξ.(9.7), είτε με
την Εξ.(9.8). Τελικά, ένας βαθμός διάταξης c: FΝFΝ[0,1] στο πλέγμα (FΝ,⊑) μπορεί να οριστεί με τον
κυρτό συνδυασμό c(F= (F1,...,FN), E= (E1,...,EN))= 11(F1,E1)+…+NN(FN,EN), όπου 1,…,N  0, ώστε
1+…+N = 1. Δύο άλλοι βαθμοί διάταξης δίνονται από τους τύπους (α) (F= (F1,...,FN), E= (E1,...,EN))=
N
min i ( Fi , Ei ) και (β) (F= (F1,...,FN), E= (E1,...,EN))=
i{1,..., N }
 i ( Fi , Ei ) , αντίστοιχα (Kaburlasos &
i 1
Kehagias, 2014). Με άλλα λόγια, ο βαθμός διάταξης (F= (F1,...,FN), E= (E1,...,EN)) ισούται με τον ελάχιστο
των βαθμών διάταξης ι(Fi,Ei), i{1,...,N}, ενώ ο βαθμός διάταξης (F= (F1,...,FN), E= (E1,...,EN)) ισούται
με το γινόμενο των βαθμών διάταξης ι(Fi,Ei), i{1,...,N}.
Επιπλέον, μετρικές συναρτήσεις D: F1N  R 0 στο πλέγμα ( F1N ,⊑) υπολογίζονται ως ακολούθως.

1/p
D(F= (F1,...,FN), E= (E1,...,EN)) =  D1 ( F1 , E1 )     D1 ( FN , EN )  
p p
, (9.16)
 
όπου pR, ενώ η μετρική D1: F1F1 R 0 υπολογίζεται με την Εξ.(9.10).
Το μέγεθος ενός Ν-διάστατου ΑΔ Τ1 A= (A1,…,AN) υπολογίζεται από τον κυρτό συνδυασμό

Δ(A) = p1Δ1(A1)+…+pNΔ1(AN) (9.17)

ως μια ειδική εφαρμογή του γενικού ορισμού της συνάρτησης μεγέθους σε μδσυν ( P, )   ( Pi , i) (βλ. στο
i

Παράρτημα του Κεφάλαιου 7) με Ω= {1,…,Ν}. Επιπλέον, σημειώστε ότι η συνάρτηση 1 :F1  R0 στην
Εξ.(9.17) υπολογίζεται, σύμφωνα με την Εξ.(9.11), ως μια άλλη ειδική εφαρμογή του προαναφερθέντος
γενικού ορισμού της συνάρτησης μεγέθους με Ω= [0,1].
Όλες οι συναρτήσεις σ’ αυτήν την ενότητα επεκτείνονται εύκολα σε Ν-διάστατα ΑΔ Τ2.

9-9
9.1.7 Περαιτέρω Επεκτάσεις
Στην προαναφερθείσα ιεραρχία μπορούμε να εισάγουμε τουλάχιστον ένα επιπλέον επίπεδο γενικεύοντας
κάποιον ΑΔ Τ1/Τ2 όπως περιγράφεται στη συνέχεια. Συγκεκριμένα, ένας ΑΔ Τ1/Τ2 έχει δισδιάστατη (2-Δ)
αναπαράσταση στο επίπεδο, η οποία μπορεί να γενικευτεί στις τρεις διαστάσεις (3-Δ), όπως εξηγείται στη
συνέχεια (Kaburlasos & Papakostas, 2015).
Ένας 3-Δ ΑΔ Τ1 (αντίστοιχα, Τ2) ορίζεται ως μια συνάρτηση F: [0,1]F, όπου F= F1 (αντίστοιχα,
F= F2), η οποία ικανοποιεί την σχέση z1  z2  Fz1 Fz2 . Με άλλα λόγια, ένας 3-Δ ΑΔ Τ1 (αντίστοιχα, Τ2) F
έχει μια τρισδιάστατη αναπαράσταση Fz, έτσι ώστε για σταθερό z= z0 η συνάρτηση Fz0 , η οποία ονομάζεται
ζ-Φέτα (zSlice), είναι ένας 2-Δ ΑΔ Τ1 (αντίστοιχα, Τ2). Για παράδειγμα, το Σχήμα 9.6(α) δείχνει έναν 3-Δ
ΑΔ Τ2 Fz, z[0,1], ο οποίος τέμνεται από το επίπεδο z= 0.5. Η ζ-Φέτα F0.5 είναι ένας 2-Δ ΑΤ Τ2, ο οποίος
παρουσιάζεται στο Σχήμα 9.6(β).
Έστω ότι Fg συμβολίζει είτε το σύνολο των 3-Δ ΑΔ Τ1, είτε το σύνολο των 3-Δ ΑΔ Τ2. Σε κάθε
περίπτωση η δυάδα (Fg,≼) είναι πλέγμα με διάταξη E ⊑ F  Ez ≼ Fz, για κάθε z[0,1]. Μια συνάρτηση  F g :
FgFg[0,1] βαθμού διάταξης στο πλέγμα (Fg,≼) δίνεται ως:
1 1
 F g ( E , F )    I  ( Ez )h , ( Fz )h  dhdz , (9.18)
0 0
όπου η συνάρτηση I(.,.) δίνεται από μια εκ των εξισώσεων (9.2), (9.3), (9.5), (9.6).

1
h axis

0.6471
z axis

0.5
1

0
0.6471
0

6
h axis
8 0
0 0 2 4 6 8 10
10
x axis
x axis

(α) (β)

Σχήμα 9.6 (α) Ένας τρισδιάστατος (3-Δ) ΑΔ Τ2, έστω F. (β) H ζ-Φέτα F0.5 (του 3-Δ ΑΔ Τ2 F) είναι ο 2-Δ ΑΔ Τ2 του
σχήματος.

9.2 Αριθμοί Διαστημάτων


Αυτή η ενότητα εστιάζει στους Αριθμούς Διαστημάτων Τύπου-1, ή ΑΔ (Τ1) για συντομία.

9.2.1 Ερμηνείες ΑΔ
Διάφοροι συσχετισμοί έχουν προταθεί στη βιβλιογραφία μεταξύ (κατανομής) εφικτότητας (possibility
(distribution)) και (κατανομής) πιθανότητας (probability (distribution)) (Ralescu & Ralescu, 1984·
Wonneberger, 1994). Σ’ αυτό το βιβλίο ένας ΑΔ αποτελεί ένα «μαθηματικό αντικείμενο» που μπορεί να
ερμηνευτεί με δύο, τουλάχιστον, διαφορετικούς τρόπους. Συγκεκριμένα, πρώτον, ένας ΑΔ μπορεί να
ερμηνευτεί ως ασαφής αριθμός, ο οποίος αναπαριστά μια κατανομή εφικτότητας και δεύτερον, ένας ΑΔ
μπορεί να ερμηνευτεί ως κατανομή πιθανότητας, όπως εξηγείται στη συνέχεια.

9-10
Έστω μια κατανομή πιθανότητας, σύμφωνα με την οποία επιλέγουμε τον πληθυσμό των δειγμάτων
(βλ. πραγματικών αριθμών) που φαίνονται στο Σχήμα 9.7(α). Έστω Μ= 5.96 η τιμή του διάμεσου (median)
του δείγματος, δηλ. εκείνης της τιμής που χωρίζει το σύνολο των δειγμάτων σε δυο ισάριθμα υποσύνολα. Το
Σχήμα 9.7(β) δείχνει την αντίστοιχη, γνησίως αύξουσα συνάρτηση αθροιστικής κατανομής (cumulative
distribution function) c(.) με c(5.96)= 0.5. Το Σχήμα 9.7(γ) δείχνει τον υπολογισμό ενός ΑΔ E με τον εξής
τρόπο: Για κάθε x  Μ= 5.96 υπολογίζεται η συνάρτηση 2c(x), ενώ για κάθε x > Μ= 5.96 υπολογίζεται η
συνάρτηση 2(1-c(x)). Ο προαναφερθείς αλγόριθμος ονομάζεται «CALCIN» και υπολογίζει τον ΑΔ E που
φαίνεται στο Σχήμα 9.7(γ) με αναπαράσταση-συνάρτησης-συμμετοχής E(x), η οποία ερμηνεύεται ως μια
κατανομή πιθανότητας. Συγκεκριμένα, αν F είναι ένας ΑΔ, ο οποίος υπολογίστηκε με τον αλγόριθμο
CALCIN, τότε το διάστημα F(h) περιλαμβάνει το 100(1-h)% της κατανομής, ενώ το υπόλοιπο 100h%
κατανέμεται εξίσου κάτω- και επάνω- από το F(h) (Kaburlasos, 2004· Kaburlasos, 2006· Kaburlasos &
Pachidis, 2014· Kaburlasos & Papadakis, 2006· Papadakis & Kaburlasos, 2010).

1 distr. function 1

c
0.5

0 0
0 2 4 5.96 8 10 0 2 4 5.96 8 10

(α) (β)

E
1
2(1-c)
E(x)

2c

0
0 2 4 5.96 8 10

(γ)

Σχήμα 9.7 (α) Μια κατανομή δειγμάτων (βλ. πραγματικών αριθμών) στο διάστημα [0, 10], με τιμή διάμεσου M= 5.96.
(β) Η αντίστοιχη συνάρτηση αθροιστικής κατανομής c(.). (γ) Υπολογισμός του ΑΔ E από τη συνάρτηση κατανομής c(.)
σύμφωνα με τον αλγόριθμο CALCIN.

Ιδιαίτερο ενδιαφέρον έχει ένας ΑΔ της μορφής [a,b], για κάθε h[0,1], ο οποίος αναπαριστά το
διάστημα [a,b] πραγματικών αριθμών. Έτσι, στις Ν διαστάσεις προκύπτει ο χώρος των ορθογώνιων
παραλληλεπίπεδων (Kaburlasos, 2006), ο οποίος έχει τραβήξει το ερευνητικό ενδιαφέρον (Dietterich κ.ά.,
1997· Long & Tan, 1998· Salzberg, 1991· Samet, 1988) χάρη στην απλότητα και την αποτελεσματικότητά
του σε υπολογιστικές εφαρμογές. Σημειώστε, επίσης, ότι η συνάρτηση βαθμός διάταξης είχε αρχικά
παρουσιαστεί με το όνομα μέτρο εγκλεισμού (inclusion measure), διότι χρησιμοποιούνταν μόνο με
ορθογώνια παραλληλεπίπεδα αντί για Ν-διάστατους ΑΔ. Αργότερα επεκτάθηκε σε γενικά πλέγματα, οπότε το
αρχικό όνομα (βλ. μέτρο εγκλεισμού) άλλαξε σε βαθμός διάταξης.

9-11
9.2.2 Αναπαράσταση ΑΔ
Από πρακτική άποψη, ένας ΑΔ F αναπαρίσταται στη μνήμη του υπολογιστή με ένα L2 πίνακα [a1 b1; a2
b2;…; aL bL] πραγματικών αριθμών, όπου L είναι ο προκαθορισμένος από το χρήστη, αριθμός επιπέδων h1,
h2,…, hL, ώστε 0<h1h2…hL=1. Στην πράξη συνήθως χρησιμοποιούμε L=16 ή L=32 επίπεδα ανά ίσα
διαστήματα στο διάστημα [0,1]. Σημειώστε ότι ένας αριθμός 16 ή 32 επιπέδων έχει επίσης προταθεί σε
εφαρμογές ασαφών συστημάτων συμπερασμού που βασίζονται σε -διατομές ασαφών αριθμών (Kaburlasos &
Kehagias, 2014· Uehara & Fujise, 1993· Uehara & Hirota, 1998).
Σε συνέχεια των παραπάνω παραδοχών, ένας 2-Δ ΑΔ Τ2, έστω [U,W], αναπαρίσταται με έναν L4
πίνακα, διότι για κάθε ένα από τα “L” επίπεδα κατά μήκος του άξονα h αποθηκεύουμε δύο διαστήματα: Ένα
διάστημα για τον κάτω ΑΔ U και ένα διάστημα για τον άνω ΑΔ W. Τέλος, ένας 3-Δ ΑΔ Τ2 αναπαρίσταται με
έναν L4L πίνακα, διότι για κάθε ένα από τα “L” επίπεδα κατά μήκος του άξονα z αποθηκεύουμε έναν 2-Δ
ΑΔ Τ2.

9.2.3 Υπολογισμοί με ΑΔ
Διάφορες αριθμητικές ασαφών αριθμών έχουν προταθεί στη βιβλιογραφία, κάποιες από τις οποίες βασίζονται
σε αριθμητικές διαστημάτων (interval arithmetic) (Kaufmann & Gupta, 1985· Moore & Lodwick, 2003).
Σ’ αυτήν την ενότητα παρουσιάζεται μια νέα αριθμητική στο χώρο των ΑΔ, η οποία βασίζεται σε μια νέα
αριθμητική διαστημάτων με λιγότερους αλγεβρικούς περιορισμούς για μεγαλύτερη υπολογιστική ευελιξία.
Έστω το πλήρες πλέγμα (L=[-,+], ). Το πλέγμα (LL, ) των γενικευμένων διαστημάτων είναι
ένας γραμμικός χώρος (linear space) (Papadakis & Kaburlasos, 2010), διότι μπορεί να οριστεί μια πράξη
πρόσθεσης, καθώς και μια πράξη πολλαπλασιασμού, όπως εξηγείται στη συνέχεια.
Η πράξη της πρόσθεσης μεταξύ γενικευμένων διαστημάτων ορίζεται ως:

[a,b] + [c,e] = [a+c, b+e],

ενώ η πράξη του πολλαπλασιασμού ενός γενικευμένου διαστήματος και ενός πραγματικού αριθμού ορίζεται
ως:
k[a,b] = [ka, kb].

Η πρόσθεση και ο πολλαπλασιασμός μπορούν να επεκταθούν στο σύνολο G των ΓΑΔ.


Συγκεκριμένα, αν F,HG, τότε η πρόσθεση ορίζεται ως F+H = Fh+Hh, όπου h[0,1], ενώ ο
πολλαπλασιασμός ενός ΓΑΔ επί έναν πραγματικό αριθμό k ορίζεται ως kF = kFh, όπου h[0,1]. Έπεται ότι το
πλέγμα (G,⊑) των ΓΑΔ είναι ένας γραμμικός χώρος.
Είναι ενδιαφέρον ότι [a,b],[c,e]I1 συνεπάγεται ότι [a+c, b+e]I1. Ωστόσο, δοθέντος ενός
διαστήματος Τ1 [a,b]I1 και ενός πραγματικού αριθμού kR, δεν υπάρχει εγγύηση ότι το γινόμενο k[a,b] θα
είναι ένα διάστημα Τ1. Συγκεκριμένα, για αρνητικό αριθμό k<0, το γινόμενο k[a,b] δεν είναι διάστημα Τ1
διότι ka > kb.
Στο προαναφερθέν πλαίσιο έχει δειχθεί ότι το σύνολο των διαστημάτων Τ1 είναι ένας κώνος στο
γραμμικό χώρο των γενικευμένων διαστημάτων. Υπενθυμίζεται ότι εξ ορισμού κώνος (cone) καλείται ένα
υποσύνολο C γραμμικού χώρου, αν και μόνον αν για x1,x2C και για μη-αρνητικούς αριθμούς 1,2  0 ο
γραμμικός συνδυασμός (1x1+2x2) ανήκει στο C. Με βάση τα παραπάνω συνεπάγεται ότι το σύνολο των
διαστημάτων Τ1 είναι κώνος στο γραμμικό χώρο των γενικευμένων διαστημάτων Τ1.
Επεκτάσεις μπορούν να γίνουν και στο χώρο F1 των ΑΔ. Συγκεκριμένα, η πρόσθεση δύο ΑΔ F και G
μπορεί να οριστεί ως (F + G) = Fh + Gh, όπου h[0,1], ενώ ο πολλαπλασιασμός ενός ΑΔ F επί έναν
πραγματικό αριθμό k μπορεί να οριστεί ως kF = kFh, όπου h[0,1]. Παρόμοια, όπως προηγουμένως, έπεται
ότι ο χώρος F1 των ΑΔ είναι κώνος στο γραμμικό χώρο των ΓΑΔ (Papadakis & Kaburlasos, 2010).
Σημειωτέον, ότι η σχέση μερικής διάταξης των ΑΔ έχει ήδη μελετηθεί στη βάση της αναπαράστασης-
συναρτήσεων-συμμετοχής (Zhang & Hirota, 1997), όπου ορίζονται ασαφείς αριθμητικές πράξεις μεταξύ ΑΔ.
Αυτό το βιβλίο προτείνει την ανάλυση των ΑΔ στη βάση της αναπαράστασης-διαστημάτων, ενώ οι
αριθμητικές πράξεις ορίζονται μέσα σε ένα γραμμικό χώρο ακολουθώντας καλώς ορισμένες αλγεβρικές
πρακτικές (Luxemburg & Zaanen, 1971· Vulikh, 1967).

9-12
Μπορούμε να εισάγουμε έναν μη-γραμμικό μετασχηματισμό (Kaburlasos κ.ά., 2013) στο χώρο των
διαστημάτων Τ1 θεωρώντας μια γνησίως αύξουσα πραγματική συνάρτηση f: RR. Συγκεκριμένα, ένα
διάστημα Τ1 [a,b] μετασχηματίζεται στο διάστημα Τ1 [f(a), f(b)]. Επεκτάσεις μπορούν να γίνουν και στο
χώρο F1 των ΑΔ, όπου, δοθείσης μιας γνησίως αύξουσας πραγματικής συνάρτησης f: RR, ένας ΑΔ
μετασχηματίζεται σε έναν άλλον ΑΔ ως ακολούθως [f(F)]h = f(Fh), h[0,1]. Για παράδειγμα, το Σχήμα 9.8(α)
απεικονίζει μια γνησίως αύξουσα συνάρτηση, αυτή είναι η σιγμοειδής συνάρτηση f(x) = (1-e-x)/(1+e-x), η
οποία μετασχηματίζει τους ΑΔ X1, X2 και X3 του Σχήματος 9.8(α) στους Y1= f(X1), Y2= f(X2) και Y3=
f(X3), αντίστοιχα, του Σχήματος 9.8(β).

1.5

X1 X2 X3
1

0.5

-0.5

f(x)
-1

-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8
(α)

Y1 Y2 Y3
1

0.8

0.6

0.4

0.2

0
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

(β)

Σχήμα 9.8 (α) Η σιγμοειδής συνάρτηση f(x) = (1-e-x)/(1+e-x) και τρεις ΑΔ X1, X2 και X3. (β) Το πεδίο ορισμού [0,1] των
εικόνων Y1= f(X1), Y2= f(X2) και Y3= f(X3) εξ ορισμού ισούται με το πεδίο τιμών [0,1] της σιγμοειδούς f(x) = (1-e-
x
)/(1+e-x).

Όταν επιλέξουμε σε μια συγκεκριμένη εφαρμογή να ερμηνεύσουμε κάθε ΑΔ ως μια κατανομή


πιθανότητας, τότε όλοι οι προαναφερθέντες (μη-γραμμικοί) μετασχηματισμοί και πράξεις μεταξύ ΑΔ
μπορούν να τελούνται μεταξύ πληθυσμών μετρήσεων μέσω αλγόριθμων παλινδρόμησης, όπως εξηγείται
παρακάτω.
Το επόμενο υπολογιστικό παράδειγμα ερμηνεύει γεωμετρικά στο επίπεδο την ιδιότητα της Συνέπειας
(C2) (βλ. στον ορισμό του βαθμού διάταξης) στο Καρτεσιανό γινόμενο ([0,1],)([0,1],), όπως φαίνεται στο
Σχήμα 9.9 (α) και (β), με ίδιες συναρτήσεις v(x)= x και θ(x)= 1-x ανά βασικό πλέγμα ([0,1],). Επιπλέον, το
Σχήμα 9.9 (α) και (β) δείχνει δύο «κουτιά» u= [0.5,0.6][0.3,0.4] και w= [0.4,0.9][0.2,0.8] με u⊑w.
Σημειώστε ότι το Σχήμα 9.9(α), πέραν των u και w, δείχνει το «κουτί» x= [0.15,0.2][0.15,0.2], το οποίο
κείται εκτός των u και w. Ενώ, εκτός από τα u και w, το Σχήμα 9.9(β) δείχνει το «κουτί» x=
[0.85,0.9][0.55,0.6], το οποίο κείται εκτός του u, αλλά εντός του w.

9-13
1 1
0.8 0.8
w w
x
0.4 0.4
u u
0.3 x 0.3
0.2 0.2

0 0.2 0.4 0.5 0.6 0.9 1 0 0.2 0.4 0.5 0.6 0.9 1
(α) (β)

Σχήμα 9.9 (α) και (β): Η ιδιότητα της Συνέπειας «u⊑w    x, u     x, w » εγγυάται ότι όταν ένα κουτί u είναι εντός
ενός άλλου w, τότε κάθε κουτί x (ή x) περιέχεται, με την έννοια ενός βαθμού διάταξης, περισσότερο στο w παρά στο u.

Είναι εύκολη η επαλήθευση των υπολογισμών x⊔u= [0.15,0.6][0.15,0.4] και x⊔w=


[0.15,0.9][0.15,0.8], καθώς και των υπολογισμών x⊔u= [0.5,0.9][0.3,0.6] και x⊔w= w. Στη συνέχεια,
V (u )
υπολογίζουμε βαθμούς διάταξης ⊔(.,.). Συγκεκριμένα προκύπτει ⊔(x,u)= =
V (x u)
v( ( 0.5))  v( 0.6)  v(( 0. 3))  v( 0. 4) 2.2 3 .1
=  0.8148 και ⊔(x,w)=  0.9118. Συνεπώς, επαληθεύεται
v( ( 0.15))  v( 0.6)  v( ( 0. 15))  v( 0. 4) 2.7 3.4
V (u )
η ανισότητα ⊔(x,u)⊔(x,w) στο Σχήμα 9.9(α). Επίσης, προκύπτει ⊔(x,u)= =
V ( x u )
v( (0.5))  v( 0.6)  v(( 0. 3))  v( 0. 4) 2.2
=  0.8148 και ⊔(x,w)= 1. Συνεπώς, επαληθεύεται η ανισότητα
v( (0.5))  v( 0.9)  v(( 0. 3))  v( 0. 6) 2.7
⊔(x,u)⊔(x,w) στο Σχήμα 9.9(β).
Σε συνέχεια των υπολογισμών, παρατηρήστε ότι σε κάποιες εφαρμογές είναι δυνατόν να
εμφανίζονται «απόντα δεδομένα (missing data)» ή/και «αδιάφορα δεδομένα (don’t care data)» σε κάποιο
βασικό πλέγμα. Συγκεκριμένα, λέγοντας «απόν δεδομένο» εννοούμε την απουσία μιας συγκεκριμένης τιμής
σε κάποιο βασικό πλέγμα, ενώ λέγοντας «αδιάφορο δεδομένο» εννοούμε την παρουσία όλων των δυνατών
τιμών σε κάποιο βασικό πλέγμα. Για έναν ουσιαστικό τρόπο χειρισμού των προαναφερθέντων δεδομένων
αναπαριστούμε (α) ένα «απόν δεδομένο» με το ελάχιστο στοιχείο [i,o], και (β) ένα «αδιάφορο δεδομένο» με
το μέγιστο στοιχείο [o,i] στο αντίστοιχο βασικό πλέγμα (L=[o,i],). Στη συνέχεια παρουσιάζεται ο χειρισμός
«απόντων δεδομένων» ή/και «αδιάφορων δεδομένων» επαληθεύοντας την ιδιότητα της Συνέπειας (C2).
Έστω το Καρτεσιανό γινόμενο ([0,1],)([0,1],) δύο βασικών πλεγμάτων ([0,1],) με v(x)= x και
θ(x)= 1-x ανά βασικό πλέγμα, όπως φαίνεται στο Σχήμα 9.10 (α) και (β). Επιπλέον, το Σχήμα 9.10 (α) και (β)
δείχνει δύο «κουτιά» u= [0.6,0.7][0.5,0.6] και w= [0.5,0.9][0.4,0.8] με u⊑w. Το Σχήμα 9.10(α) δείχνει το
δεδομένο xm= [0.3,0.3][1,0] με «απόν δεδομένο» στο δεύτερο βασικό πλέγμα, ενώ το Σχήμα 9.10(β) δείχνει
το δεδομένο xd= [0.3,0.3][0,1] με «αδιάφορο δεδομένο» στο δεύτερο βασικό πλέγμα.
Είναι εύκολη η επαλήθευση των υπολογισμών xm⊔u= [0.3,0.7][0.5,0.6], xm⊔w= [0.3,0.9][0.4,0.8],
xd⊔u= [0.3,0.7][0,1] και xd⊔w= [0.3,0.9][0,1]. Στη συνέχεια, υπολογίζουμε βαθμούς διάταξης ⊔(.,.).
V (u ) v( (0.6))  v(0.7)  v( (0.5))  v(0.6) 2.2
Συγκεκριμένα, προκύπτει ⊔(xm,u)= = =  0.8800 και
V ( xm u ) v( (0.3))  v(0.7)  v( (0.5))  v(0.6) 2.5
2 .8
⊔(xm,w)=  0.9333. Συνεπώς, επαληθεύεται η ανισότητα ⊔(xm,u)⊔(xm,w) στο Σχήμα 9.10(α). Επίσης,
3.0

9-14
V (u ) v( (0.6))  v(0.7)  v( (0.5))  v(0.6) 2.2 2 .8
προκύπτει ⊔(xd,u)= = =  0.6471 και ⊔(xd,w)= 
V ( xd u ) v( (0.3))  v(0.7)  v( (0))  v(1) 3.4 3.6
0.7778. Συνεπώς, επαληθεύεται η ανισότητα ⊔(xd,u)⊔(xd,w) στο Σχήμα 9.10(β).

1 1
xm w xd w
0.8 0.8
u u
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3

0 0.3 0.5 0.6 0.7 0.9 1 0 0.3 0.5 0.6 0.7 0.9 1
(α) (β)

Σχήμα 9.10 Η ιδιότητα της Συνέπειας «u⊑w    x, u     x, w » ισχύει με «απόντα δεδομένα» ή/και με «αδιάφορα
δεδομένα». (α) «απόν δεδομένο» κατά μήκος του κατακόρυφου άξονα, συγκεκριμένα είναι xm= [0.3,0.3] [1,0]. (β)
«Αδιάφορο δεδομένο» κατά μήκος του κατακόρυφου άξονα, συγκεκριμένα είναι xd= [0.3,0.3][0,1].

9.3 Αλγόριθμοι Εφαρμογής ΑΔ


Αλγόριθμοι που υπολογίζουν με ΑΔ έχουν ήδη προταθεί στη βιβλιογραφία είτε για μηχανική μάθηση, είτε για
παλινδρόμηση, όπως εξηγείται στη συνέχεια.

9.3.1 Αλγόριθμοι Μηχανικής Μάθησης


Θυμηθείτε ότι κάθε χρήση μιας συνάρτησης βαθμού διάταξης () ονομάζεται Συλλογιστική Ασαφών
Πλεγμάτων (ΣΑΠ) (Kaburlasos & Kehagias, 2014). Στη συνέχεια παρουσιάζονται τρεις αλγόριθμοι ΣΑΠ σε
ψευδο-κώδικα, όπου ο πρώτος αλγόριθμος είναι για ομαδοποίηση (Σχήμα 9.11), ο δεύτερος αλγόριθμος είναι
για ταξινόμηση (Σχήμα 9.12), ενώ ο τρίτος αλγόριθμος είναι για αναγνώριση (Σχήμα 9.13), όλοι στον χώρο
F1N των ΑΔ. Σημειώστε ότι οι προαναφερθέντες αλγόριθμοι αποτελούν γενικεύσεις αντίστοιχων αλγόριθμων
της Θεωρίας Προσαρμοστικού Συντονισμού (ΘΠΣ) από το Ν-διάστατο Ευκλείδειο χώρο RN στο χώρο F1N .
Η αναγνώριση προτύπων (Duda κ.ά., 2001) είναι μια περιοχή ενεργού ενδιαφέροντος στη
βιβλιογραφία. Παρατηρήστε ότι οι παραπάνω αλγόριθμοι ή/και παραλλαγές των προαναφερθέντων
αλγορίθμων έχουν ήδη χρησιμοποιηθεί εκτεταμένα σε προβλήματα αναγνώρισης προτύπων (Kaburlasos,
2004· Kaburlasos & Papadakis, 2009· Kaburlasos κ.ά., 2012). Μάλιστα, σημειώστε ότι κάποιες παραλλαγές
βασίζονται σε μια συνάρτηση μετρικής απόστασης, αντί να βασίζονται σε μια συνάρτηση βαθμού διάταξης.
Στη συνέχεια παρουσιάζουμε ένα κριτήριο επιλογής των συναρτήσεων v(.)και (.) στο Επίπεδο-0.
Μια από τις παλαιότερες εφαρμογές του αλγόριθμου ΣΑΠ για ταξινόμηση, όπου οι Ν-διάστατοι ΑΔ
W1 ,...,W|Ca | ήταν αποκλειστικά ορθογώνια παραλληλεπίπεδα και η είσοδος Xi ήταν αποκλειστικά σημείο (δηλ.
τετριμμένο ορθογώνιο παραλληλεπίπεδο) στο Ν-διάστατο Ευκλείδειο χώρο, οδήγησε στην επιλογή ενός
ζεύγους συναρτήσεων v(.)και (.), ώστε να ισχύει η συνθήκη v1([a,a])= v(θ(a))+v(a)= 1 σε κάθε βασικό
πλέγμα με βάση το ακόλουθο σκεπτικό. Ως αποτέλεσμα της προαναφερθείσας συνθήκης σε κάθε βασικό
πλέγμα προκύπτει v1([a,b])= v(θ(a))+v(b)= v(b)-[1-v(θ(a))]+1= [v(b)-v(a)]+1= δ1([a,b])+1. Με τη χρήση της
συνάρτησης θετικής τιμοδότησης V([a1,b1]…[aN,bN])= v1([a1,b1])+…+ v1([aN,bN]) για κάθε ορθογώνιο
V (Xi ) N
παραλληλεπίπεδο προκύπτει: ⊔(WJ⊑Xi)=  .
V (WJ X i ) N  (WJ X i )

9-15
Η γραμμή 16 στο Σχήμα 9.12 αφομοιώνει την είσοδο Xi επανυπολογίζοντας το WJ σύμφωνα με τη
σχέση WJ ≐ WJ⊔Xi, όταν ήδη έχει εκπληρωθεί η συνθήκη (WJ⊑Xi)  a . Η τελευταία συνεπάγεται
N N (1  a )
 a  (WJ X i )  . Με άλλα λόγια, ο υπολογισμός WJ ≐ WJ⊔Xi
N  (WJ X i ) a
πραγματοποιείται μόνο όταν το μέγεθος Δ(WJ⊔Xi) του ορθογωνίου παραλληλεπίπεδου WJ⊔Xi είναι μέχρι
N (1  a )
. Για τους παραπάνω λόγους ο αλγόριθμος ΣΑΠ για ταξινόμηση, ακόμη και όταν εφαρμόζεται στο
a
γενικότερο πλέγμα ( F1N ,⊑) ή στο πλέγμα ( F2N ,⊑), συχνά ελέγχει τη συνθήκη «Δ(WJ⊔Xi)   a » αντί της
συνθήκης «(WJ⊑Xi)  a » προκειμένου να προβεί στον υπολογισμό WJ ≐ WJ⊔Xi.
Ένα ζεύγος συναρτήσεων v(.) και (.), το οποίο ικανοποιεί τη συνθήκη v1([a,a])= v(θ(a))+v(a)= 1 στο
βασικό πλέγμα (L=[0,1],) είναι το v(x)= x και (x) = 1-x. Ένα άλλο τέτοιο ζεύγος, το οποίο ικανοποιεί τη
1
συνθήκη v1([a,a])= v(θ(a))+v(a)= 1 στο βασικό πλέγμα (L=[-,+],) είναι το v(x)=  ( x )
και (x) =
1 e
1
2-x. Σημειωτέον ότι η συνάρτηση v(x)= είναι γνωστή (α) στη στατιστική ανάλυση με το όνομα
1  e  ( x   )
λογιστική (logistic) συνάρτηση (Kleinbaum & Klein, 2002) και (β) στη βιβλιογραφία των ΤΝΔ με το όνομα
σιγμοειδής (sigmoid) συνάρτηση (Duda κ.ά., 2001). Η μαθηματική ανάλυση εδώ παρουσίασε ένα
πλεονέκτημα της προαναφερθείσας συνάρτησης v(.) στο χώρο των ΑΔ.

N
1: Έστω ένα σύνολο {W1 ,...,W|C| }  C  2F1 , έστω K = |C| η πληθικότητα του συνόλου C και έστω η σταθερά
επαγρύπνησης (vigilance parameter) ρ[0,1] η οποία ορίζεται από κάποιον χρήστη.
2: Από i = 1 έως i = ntrn κάνε
3: Θεώρησε την επόμενη είσοδο (ΑΔ) Xi F1N .
4: Έστω το σύνολο S ≐ C.
5: J = argmax[( X i W j )] .
j{1,...,| S |}
W j S

6: Όσο ισχύει (S  {}).KAI.((WJ⊑Xi) < ) κάνε


7: S ≐ S\{WJ}.
8: J = argmax[( X i W j )]
j{1,...,| S |}
W j S

9: Τέλος // Όσο ισχύει …


10: Εάν S  {} τότε
11: C ≐ C{Xi}.
12: K ≐ K+1.
13: αλλιώς
14: WJ ≐ WJ⊔Xi.
15: Τέλος // Εάν …
16: Τέλος // Από … έως …

Σχήμα 9.11 Αλγόριθμος ΣΑΠ για ομαδοποίηση.

9-16
N
1: Έστω ένα σύνολο {W1 ,...,W|Ca | }  Ca  2F1 , έστω K = |Ca| η πληθικότητα του συνόλου Ca, έστω η σταθερά
επαγρύπνησης a [0,1], η οποία ορίζεται από κάποιον χρήστη, έστω ε ένας πολύ μικρός θετικός αριθμός, έστω B=
{b1,…,bL} ένα σύνολο από «ετικέτες», και έστω μια συνάρτηση : F1N  B πάνω στο Ca.
2: Από i = 1 έως i = ntrn κάνε
3: Θεώρησε την επόμενη είσοδο (Xi,ℓ(Xi)) F1N  B .
4: Έστω το σύνολο S ≐ Ca.
5: J = argmax[( X i W j )] .
j{1,...,| S |}
W j S

6: Εάν ℓ(WJ)  ℓ(Xi) τότε a = (WJ⊑Xi) + ε.


7: Όσο ισχύει (S  {}).KAI.((WJ⊑Xi) < a ) κάνε
8: S ≐ S\{WJ}.
9: J = argmax[( X i W j )]
j{1,...,| S |}
W j S

10: Εάν ℓ(WJ)  ℓ(Xi) τότε a = (WJ⊑Xi) + ε.


11: Τέλος // Όσο ισχύει …
12: Εάν S  {} τότε
13: Ca ≐ Ca{Xi} και K≐ K+1.
14: Εάν ℓ(Xi)B τότε (B≐ B{ℓ(Xi)} και L≐ L+1).
15: αλλιώς
16: WJ ≐ WJ⊔Xi.
17: Τέλος // Εάν …
18: Τέλος // Από … έως …

Σχήμα 9.12 Αλγόριθμος ΣΑΠ για ταξινόμηση.

N
1: Έστω ένα σύνολο {W1 ,...,WK }  C  2F1 από ΑΔ, έστω |C| η πληθικότητα του συνόλου C, έστω ένα σύνολο B=
{b1,…,bL} από ετικέτες, και έστω μια απεικόνιση : F1N  B .
2: Από i = 1 έως i = ntst κάνε
3: Θεώρησε το επόμενο ζευγάρι εισόδου (Xi,bi) F1N  B προς αναγνώριση.
4: J = argmax[( X i W j )] .
j{1,...,|C |}
W j C

5: Το δεδομένο εισόδου Xi κατηγοριοποιείται στην κατηγορία ℓ(WJ).


6: Τέλος // Από … έως …
7: Υπολόγισε το ποσοστό των σωστών αναγνωρίσεων στο σύνολο των δεδομένων.

Σχήμα 9.13 Αλγόριθμος ΣΑΠ για αναγνώριση.

9-17
9.3.2 Αλγόριθμοι Παλινδρόμησης
Δύο ΑΔ μπορούν να προστεθούν μεταξύ τους. Επίσης, ένας ΑΔ μπορεί να πολλαπλασιαστεί με μη-αρνητικό
αριθμό ή/και να μετασχηματιστεί μη-γραμμικά με τη χρήση μιας (γνησίως) αύξουσας συνάρτησης. Με
εκτέλεση των προαναφερθέντων δύο πράξεων (βλ. πρόσθεση και πολλαπλασιασμός) προκύπτει ένας
αλγόριθμος παλινδρόμησης, ο οποίος απεικονίζει μη-γραμμικά μια Ν-άδα ΑΔ σε ένα ΑΔ. Για παράδειγμα,
θεωρήστε το ΤΝΔ στο Σχήμα 1.2 με βάρη που είναι μόνον θετικοί αριθμοί και εισόδους ΑΔ. Σύμφωνα με τα
προηγούμενα, το ΤΝΔ στο Σχήμα 1.2 μπορεί να υλοποιήσει μια συνάρτηση παλινδρόμησης f: F1N F1
(Kaburlasos κ.ά., 2013). Συνεπώς, η αρχιτεκτονική του Σχήματος 1.2 μπορεί να υλοποιήσει ένα νευρο-ασαφές
σύστημα, αν ένας ΑΔ ερμηνευτεί ως μια κατανομή εφικτότητας. Επεκτάσεις σε ΑΔ Τ2 (Mendel, 2013) είναι
κατευθείαν υλοποιήσιμες.
Περαιτέρω δυνατότητες προκύπτουν αν ένας ΑΔ ερμηνευτεί ως μια κατανομή πιθανότητας. Στην
τελευταία περίπτωση, η αρχιτεκτονική στο Σχήμα 1.2 μπορεί να υπολογίσει μια κατανομή (στην έξοδο του
ΤΝΔ) από Ν κατανομές (στην είσοδο του ΤΝΔ). Συνεπώς, αν ένας ΑΔ αναπαριστάνει μια (τεράστια)
κατανομή αριθμητικών δειγμάτων τότε ο χειρισμός ΑΔ συνεπάγεται τον χειρισμό τεράστιων δεδομένων
(Kaburlasos & Papakostas, 2015).

Ερωτήσεις Κατανόησης και Ασκήσεις


1
9.1) Για το ζεύγος συναρτήσεων v( x)   ( x )
και (x) = 2-x να υπολογιστεί η τιμή της
1 e
συνάρτησης v1([a,a])= v((a))+v(a) για ένα τετριμμένο διάστημα [a,a] στο ατομικό πλέγμα (I1,⊑)
των διαστημάτων Τ1 στο πλέγμα (L=[-,+],). Τι παρατηρείτε; Να επαναληφθεί η άσκηση για το
ζεύγος συναρτήσεων v(x)= x και (x) = 1-x στο πλέγμα (L=[0,1],).
9.2) Να αποδειχθεί (α) ότι η συνάρτηση θετικής τιμοδότησης v1(.) επαληθεύει τις δύο λογικές απαιτήσεις
v1(O=[i,o])=0 και v1(I=[o,i])<+ και (β) ότι η συνάρτηση θετικής τιμοδότησης v2(.) επαληθεύει τις
δύο λογικές απαιτήσεις v2(O= [[o,i],[i,o]])=0 και v2(I=[[i,o],[o,i]])<+.
9.3) Να αποδειχθεί ότι η συνάρτηση d1: Ι1Ι1 R 0 στο πλέγμα (I1,⊑) των διαστημάτων Τ1, η οποία
δίνεται από τον τύπο (9.1): d1([a,b],[c,e])= d((a),(c)) + d(b,e), είναι μετρική.
9.4) Θεωρήστε το πλέγμα (Ι2,⊑) των διαστημάτων Τ2 σε ένα πλήρες πλέγμα (L,) πραγματικών
αριθμών. Να δείξετε ότι μια μετρική συνάρτηση d2: Ι2Ι2 R 0 δίνεται από τον τύπο (9.4):
d2([[a1,a2],[b1,b2]],[[c1,c2],[e1,e2]])= d(a1,c1) + d((a2),(c2))+ d((b1),(e1))+ d(b2,e2).
9.5) Έστω ένα πλήρες πλέγμα (L,). Να δειχθεί ότι η συνάρτηση 1: LLLL, η οποία δίνεται από τον
τύπο 1([a,b])= [b,a], είναι δυϊκού ισομορφισμού στο πλέγμα (LL,) των γενικευμένων
διαστημάτων.
9.6) Θεωρήστε το σύνολο C των κύκλων στο επίπεδο με θετικές και με αρνητικές ακτίνες (Kaburlasos,
2006). Συγκεκριμένα, έστω ότι η περιφέρεια κύκλου με θετική ακτίνα απεικονίζεται στο επίπεδο με
συνεχή γραμμή, ενώ η περιφέρεια κύκλου με αρνητική ακτίνα απεικονίζεται στο επίπεδο με
διακεκομμένη γραμμή, όπως φαίνεται στο παρακάτω σχήμα. Το ζεύγος (C,⊑) προφανώς είναι
μδσυν, αλλά δεν είναι πλέγμα διότι για p,qC δεν υπάρχει ούτε μέγιστο κάτω φράγμα (p⊓q)C,
ούτε ελάχιστο άνω φράγμα (p⊔q)C.
Έστω το γνήσιο υποσύνολο CεC το οποίο περιλαμβάνει όλους τους κύκλους του επιπέδου,
τα κέντρα των οποίων βρίσκονται επάνω σε μια ευθεία (ε) όπως φαίνεται στο παρακάτω σχήμα.
Τότε το ζεύγος (Cε,⊑) είναι πλέγμα και σκιαγραφείται στην ακόλουθη, κατασκευαστική απόδειξη.

9-18
p⊔q

p⊔q (ε)

(ε)
p
p q

p⊓q q
p⊓q

(α) (β)

Απόδειξη: Έστω μια ευθεία (ε) με μια τυχαία αρχή και δύο κύκλοι p,qCε. Προς τη μία κατεύθυνση,
η (ορθή) προβολή ενός κύκλου cCε πάνω στην ευθεία (ε) είναι ένα ευθύγραμμο τμήμα [ac,bc]
τέτοιο, ώστε acbc, αν και μόνο αν ο κύκλος c έχει θετική ακτίνα ίση με (bc-ac)/2 και ac>bc, αν και
μόνο αν ο κύκλος c έχει αρνητική ακτίνα ίση με (bc-ac)/2. Προς την άλλη κατεύθυνση, δοθείσης της
προβολής [ac,bc] ενός κύκλου cCε, ο κύκλος c κατασκευάζεται με κέντρο το μέσον του
διαστήματος [ac,bc] και ακτίνα ίση με (bc-ac)/2. Συνεπώς, υπάρχει μια αμφιμονοσήμαντη αντιστοιχία
μεταξύ του συνόλου των κύκλων στο Cε και του συνόλου των γενικευμένων διαστημάτων στο
πλέγμα ([-,-][-,-],).
Δοθέντων των προβολών [ap,bp] και [aq,bq] δύο κύκλων p,qCε η διατομή υπολογίζεται ως
[ap,bp]⊓[aq,bq]= [apaq,bpbq] και η συνένωση υπολογίζεται ως [ap,bp]⊔[aq,bq]= [apaq,bpbq].
Ως συνάρτηση v: R R 0 θετικής τιμοδότησης μπορεί να οριστεί μια γνησίως αύξουσα
συνάρτηση πάνω στην «ευθεία των ακτίνων». Επίσης, ως συνάρτηση : RR δυϊκού
ισομορφισμού μπορεί να οριστεί μια γνησίως φθίνουσα συνάρτηση πάνω στην «ευθεία των
ακτίνων». Σημειωτέον ότι διαφορετικές συναρτήσεις v(.) και (.) μπορούν να οριστούν πάνω σε
διαφορετικές ευθείες. Ωστόσο, όταν ορίσουμε ίδιες συναρτήσεις v(.) και (.) πάνω σε κάθε ευθεία
του επιπέδου τότε το επίπεδο καλείται ισοτροπικό (isotropic).
Τα προηγούμενα μπορούν να επεκταθούν σε υπερ-σφαίρες στον χώρο RN.
Ερωτήσεις:
(α) Να υπολογίσετε μια μετρική ανάμεσα στον κύκλο με κέντρο το σημείο (1,1) και ακτίνα r= 1 και
στον κύκλο με κέντρο το σημείο (2,3) και ακτίνα R= -2.
(β) Δείξτε μια συνάρτηση v: CεCε R 0 θετικής τιμοδότησης που να ικανοποιεί τις δύο λογικές
απαιτήσεις v(O)=0 και v(I)<+.

9.7) Μια συνάρτηση v: L R 0 θετικής τιμοδότησης στο πλέγμα (L=[o,i],) τυπικά επιλέγεται έτσι, ώστε
να ικανοποιούνται οι δύο λογικές απαιτήσεις v(o)=0 και v(i)<+. Ένας τρόπος υπολογισμού της
x
συνάρτησης v(.) είναι η ολοκλήρωση v( x)   m(t )dt μιας συνάρτησης μάζας m: L R 0 , η οποία
o

δίδει ένα προκαθορισμένο βάρος m(x)0 σε κάθε xL.


Να υπολογιστεί:
(1) η συνάρτηση μάζας m1: R R 0 , η οποία υπολογίζει τη συνάρτηση θετικής τιμοδότησης v1(x)=
1/[1+e-λ(x-μ)] και (2) η συνάρτηση μάζας m2: [0,1][0,1], η οποία υπολογίζει τη συνάρτηση θετικής
τιμοδότησης v2(x)= x.

9-19
0.5 x  0.5, αν 1  x  3
9.8) Έστω δύο ΑΔ F1 και F2 με συναρτήσεις βαθμού συμμετοχής f1  x    και
 x  4, αν 3  x  4
  x  6   1, αν 5  x  6
 2

f2  x    , αντίστοιχα. Θεωρήστε τις ακόλουθες δύο γραμμικές


0.5 x  4,
 αν 6  x  8
συναρτήσεις (x)= -x και v(x)= x.

(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των ΑΔ F1 και F2.
(β) Να υπολογίσετε τη μετρική απόσταση D1(F1,F2).
(γ) Να υπολογίσετε τους βαθμούς διάταξης ⋏(F1,F2) και ⋎(F1,F2).
(δ) Επαναλάβετε τα παραπάνω ερωτήματα με τις συναρτήσεις (x)= -ex και v(x)= 1/e-x/2.
 x  1, αν 1  x  2
9.9) Έστω δύο ΑΔ F1 και F2 με συναρτήσεις βαθμού συμμετοχής f1  x   
0.5 x  2, αν 2  x  4
  x  7   1, αν 6  x  8
 2

και f2  x    , αντίστοιχα. Θεωρείστε τις δύο γραμμικές



 0, αλλιώς
συναρτήσεις (x)= -2x και v(x)= x+1.
(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των ΑΔ F1 και F2.
(β) Να υπολογίσετε την μετρική απόσταση D1(F1,F2).

(γ) Να υπολογίσετε τους βαθμούς διάταξης ⋏(F1,F2) και ⋎(F1,F2).

(δ) Επαναλάβετε τα παραπάνω ερωτήματα με τις συναρτήσεις (x)= ln(1/x) και v(x)= 1/(1+e-x).
9.10) Έστω δύο ΑΔ F1 και F2 με συναρτήσεις βαθμού συμμετοχής
  x  2   1, αν 1  x  3
  x  10 x  24, αν 4  x  6
2 2
f1  x    και f2  x    ,

 0, αλλιώς  0, αλλιώς
αντίστοιχα. Θεωρείστε τις δύο γραμμικές συναρτήσεις (x)= -x και v(x)= 2x+1.
(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των ΑΔ F1 και F2.
(β) Να υπολογίσετε την μετρική απόσταση D1(F1,F2).

(γ) Να υπολογίσετε τους βαθμούς διάταξης ⋏(F1,F2) και ⋎(F1,F2).

(δ) Επαναλάβετε τα παραπάνω ερωτήματα με τις συναρτήσεις (x)= e-x και v(x)= ln(x).
9.11) Έστω δύο τραπεζοειδείς ΑΔ F1 και F2 με συναρτήσεις βαθμού συμμετοχής
 x  1, αν 1  x  2  x  6, αν 6  x  7
 
f1  x    1, αν 2  x  3 και f 2  x    1, αν 7  x  10 , αντίστοιχα.
0.5 x  2.5, αν 3  x  5 0.5 x  6, αν 10  x  12
 
Θεωρείστε τις δύο γραμμικές συναρτήσεις (x)= -2x+1 και v(x)= x+1.
(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των ΑΔ F1 και F2.
(β) Να υπολογίσετε την μετρική απόσταση D1(F1,F2).

(γ) Να υπολογίσετε τους βαθμούς διάταξης ⋏(F1,F2) και ⋎(F1,F2).


(δ) Επαναλάβετε τα παραπάνω ερωτήματα με τις συναρτήσεις (x)= e-x και v(x)= ln(x).

9-20
9.12) Έστω ένας τριγωνικός ΑΔ F1 και ένας τραπεζοειδής ΑΔ F2. Η συνάρτηση βαθμού συμμετοχής του
 2 x  1, αν 0.5  x  1

F1 είναι f1  x    1 5 , ενώ η συνάρτηση βαθμού συμμετοχής του F2 είναι
  x  , αν 1  x  5
 4 4
 0.5 x  3, αν 6  x8

f 2  x    1, αν 8  x  10 . Θεωρήστε τις συναρτήσεις (x)= -2x+1 και v(x)= ex.
  x  11, αν 10  x  11

(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των δύο ΑΔ F1 και F2.
(β) Να υπολογίσετε τη μετρική απόσταση D1(F1,F2).
(γ) Να υπολογίσετε τους βαθμούς διάταξης ⋏(F1,F2) και ⋎(F1,F2).

9.13) Δίδονται οι ΑΔ F1, F2, F3 και F4 με συναρτήσεις βαθμού συμμετοχής


 2 1  2 10
 3 x  3 , αν 0.5  x  2  3 x  3 , αν 5  x  6.5
f1  x    , f2  x    ,
 2 x  7 , αν 2  x  3.5  2 x  16 , αν 6.5  x  8
 3 3  3 3
 1 9
 0.5 x, αν 0  x  2  2 x  4 , αν 4.5  x  6.5
f3  x    και f 4  x    , αντίστοιχα. Θεωρήστε
0.5 x  2, αν 2  x  4  1 x  17 , αν 6.5  x  8.5
 2 4
τις δύο γραμμικές συναρτήσεις (x)= -2x και v(x)= 3x+2.

(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των ΑΔ F1, F2, F3 και F4.
(β) Να υπολογίσετε τις μετρικές αποστάσεις D1(F1,F2) και D1(F3,F4).
(γ) Να υπολογίσετε τους βαθμούς διάταξης ⋎(F1,F2) και ⋎(F3,F4).
(δ) Συγκρίνετε και σχολιάστε τα αποτελέσματα του (β) ερωτήματος, καθώς και τα αποτελέσματα
του (γ) ερωτήματος.

9.14) Δίδονται οι ΑΔ F1, F2, F3 και F4 με συναρτήσεις βαθμού συμμετοχής


 2 1  2 10
 3 x  3 , αν 0.5  x  2  3 x  3 , αν 5  x  6.5
f1  x    , f2  x    ,
 2 x  7 , αν 2  x  3.5  2 x  16 , αν 6.5  x  8
 3 3  3 3
 1 9
 0.5 x, αν 0  x  2  2 x  4 , αν 4.5  x  6.5
f3  x    και f 4  x    , αντίστοιχα. Θεωρήστε
0.5 x  2, αν 2  x  4  1 x  17 , αν 6.5  x  8.5
 2 4
τις δύο μη-γραμμικές συναρτήσεις (x)= e και v(x)= e2x+1.
-x/2

(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των ΑΔ F1, F2, F3 και F4.
(β) Να υπολογίσετε τις μετρικές αποστάσεις D1(F1,F2) και D1(F3,F4).
(γ) Να υπολογίσετε τους βαθμούς διάταξης ⋎(F1,F2) και ⋎(F3,F4).
(δ) Συγκρίνετε και σχολιάστε τα αποτελέσματα του (β) ερωτήματος, καθώς και τα αποτελέσματα
του (γ) ερωτήματος.

9-21
9.15) Να υπολογιστεί η μετρική απόσταση D1(F,E) μεταξύ των δύο παραβολικών ασαφών αριθμών F =
F(h) = [ah,bh], h[0,1] και E = E(h) = [ch,dh], h[0,1] που φαίνονται στο παρακάτω σχήμα, με
( x)   x και v( x)  x .

F E
1

0 2 4 6 9 12 x

9.16) Να υπολογιστεί η μετρική απόσταση D1(F,E) μεταξύ των δύο τριγωνικών ασαφών αριθμών F =
F(h) = [ah,bh], h(0,1] και E = E(h) = [ch,dh], h(0,1] του παρακάτω σχήματος, με ( x)   x και
v( x)  x .

F E
1

1 3 4 6 x

9.17) Έστω D1(F,E) η μετρική απόσταση μεταξύ των δύο τριγωνικών ασαφών αριθμών F = F(h) = [ah,bh],
h[0,1] και E = E(h) = [ch,dh], h[0,1] του παρακάτω σχήματος, με ( x)   x και
 x, x  k
v( x)   .
kx x  k
Να υπολογιστεί η θέση “k > 0” της κορυφής του Ε, ώστε D1(F,E) = 21.5.

F E
1

0 2 5 k-1 k k+2 x

ΤΥΠΟΛΟΓΙΟ
1 1
  ah  bdh  a ln ah  b  C0
2 (ah  b)3
  ah  bdh 
3a
 C0

9-22
Βιβλιογραφία Κεφαλαίου
Alefeld, G. & Herzberger, J. (1983). Introduction to Interval Computation. New York, NY: Academic Press.
Davey, B.A. & Priestley, H.A. (1990). Introduction to Lattices and Order. Cambridge, UK: Cambridge
University Press.
Dietterich, T.G., Lathrop, R.H. & Lozano-Perez, T. (1997). Solving the multiple-instance problem with axis-
parallel rectangles. Artificial Intelligence, 89(1-2), 31-71.
Duda, R.O., Hart, P.E. & Stork, D.G. (2001). Pattern Classification. 2nd ed. New York, N.Y.: John Wiley &
Sons, Inc..
Kaburlasos, V.G. (2004). FINs: lattice theoretic tools for improving prediction of sugar production from
populations of measurements. IEEE Transactions on Systems, Man and Cybernetics – Part B, 34(2), 1017-
1030.
Kaburlasos, V.G. (2006). Towards a Unified Modeling and Knowledge-Representation Based on Lattice
Theory. Heidelberg, Germany: Springer, series: Studies in Computational Intelligence, 27.
Kaburlasos, V.G. & Kehagias, A. (2006). Novel fuzzy inference system (FIS) analysis and design based on
lattice theory. part I: working principles. International Journal of General Systems, 35(1), 45-67.
Kaburlasos, V.G. & Kehagias, A. (2014). Fuzzy inference system (FIS) extensions based on lattice theory.
IEEE Transactions on Fuzzy Systems, 22(3), 531-546.
Kaburlasos, V.G. & Pachidis, T. (2014). A Lattice-Computing ensemble for reasoning based on formal fusion
of disparate data types, and an industrial dispensing application. Information Fusion, 16, 68-83.
Kaburlasos, V.G. & Papadakis, S.E. (2006). Granular self-organizing map (grSOM) for structure identification.
Neural Networks, 19(5), 623-643.
Kaburlasos, V.G. & Papadakis, S.E. (2009). A granular extension of the fuzzy-ARTMAP (FAM) neural
classifier based on fuzzy lattice reasoning (FLR). Neurocomputing, 72(10-12), 2067-2078.
Kaburlasos, V.G. & Papakostas, G.A. (2015). Learning distributions of image features by interactive fuzzy
lattice reasoning (FLR) in pattern recognition applications. IEEE Computational Intelligence Magazine,
10(3), 42-51.
Kaburlasos, V.G., Papadakis, S.E. & Amanatiadis, A. (2012). Binary image 2D shape learning and recognition
based on lattice computing (LC) techniques. Journal of Mathematical Imaging and Vision, 42(2-3), 118-
133.
Kaburlasos, V.G., Papakostas, G.A., Pachidis, T. & Athinellis, A. (2013). Intervals’ numbers (INs) interpolation
/extrapolation. In Proceedings of the IEEE International Conference on Fuzzy Systems (FUZZ-IEEE
2013), Hyderabad, India, 7-10 July.
Kaufmann, A. & Gupta, M.M. (1985). Introduction to Fuzzy Arithmetic  Theory and Applications. New
York, NY: Van Nostrand Reinhold.
Kleinbaum, D.G. & Klein, M. (2002). Logistic Regression  A Self-Learning Text. (2nd ed.) (Statistics for
Biology and Health). New York, NY: Springer Science.
Long, P.M. & Tan, L. (1998). PAC learning axis-aligned rectangles with respect to product distributions from
multiple-instance examples. Machine Learning, 30(1), 7-21.
Luxemburg, W.A.J. & Zaanen, A.C. (1971). Riesz Spaces. Amsterdam, The Netherlands: North-Holland.
Mendel, J.M., Hagras, H. & John, R.I. (Eds.) (2013). Special issue on: Type-2 fuzzy sets and systems. IEEE
Transactions on Fuzzy Systems, 21(3), 397-398.
Moore, R.E. (1979). Methods and Applications of Interval Analysis. Philadelphia, PA: SIAM Studies in
Applied Mathematics.
Moore, R. & Lodwick, W. (2003). Interval analysis and fuzzy set theory. Fuzzy Sets and Systems, 135(1), 5-9.
Papadakis, S.E. & Kaburlasos, V.G. (2010). Piecewise-linear approximation of nonlinear models based on
probabilistically/possibilistically interpreted Intervals’ Numbers (INs). Information Sciences, 180(24),
5060-5076.
Ralescu, A.L. & Ralescu, D.A. (1984). Probability and fuzziness. Information Sciences, 34(2), 85-92.
Salzberg, S. (1991). A nearest hyperrectangle learning method. Machine Learning, 6(3), 251-276.
Samet, H. (1988). Hierarchical representations of collections of small rectangles. ACM Computing Surveys,
20(4), 271-309.
Tanaka, H. & Lee, H. (1998). Interval regression analysis by quadratic programming approach. IEEE
Transactions on Fuzzy Systems, 6(4), 473-481.

9-23
Uehara, K. & Fujise, M. (1993). Fuzzy inference based on families of -level sets. IEEE Transactions on
Fuzzy Systems, 1(2), 111-124.
Uehara, K. & Hirota, K. (1998). Parallel and multistage fuzzy inference based on families of -level sets.
Information Sciences, 106(1-2), 159-195.
Vulikh, B.Z. (1967). Introduction to the Theory of Partially Ordered Vector Spaces. Gronigen, The
Netherlands: Wolters-Noordhoff Scientific Publications.
Wonneberger, S. (1994). Generalization of an invertible mapping between probability and possibility. Fuzzy
Sets and Systems, 64(2), 229-240.
Zhang, K. & Hirota, K. (1997). On fuzzy number lattice (R,). Fuzzy Sets and Systems, 92(1), 113-122.

9-24
Παράρτημα Α:
Εισαγωγή στην Χρήση MATLAB και Υπολογιστικά Παραδείγματα
Η λέξη MATLAB είναι ακρώνυμο των λέξεων MATrix (πίνακας) LABoratory (εργαστήριο). Δύο
χαρακτηριστικά γνωρίσματα του MATLAB είναι ο εύκολος χειρισμός πινάκων με αριθμούς, καθώς και η
εύκολη σχεδίαση γραφημάτων. Σήμερα το MATLAB είναι παγκοσμίως αναγνωρισμένο και χρησιμοποιείται
για ανάλυση και σχεδίαση γραμμικών και μη-γραμμικών συστημάτων. Τυπικά, σε κάποιο πεδίο εφαρμογών
(όπως ασαφή συστήματα, νευρωνικά δίκτυα κ.λπ.) αναπτύσσεται ένα εργαλειοθήκη (toolbox) του
MATLAB. Στη συνέχεια παρουσιάζεται μια σύντομη εισαγωγή στο υπολογιστικό περιβάλλον MATLAB.

Α Εισαγωγή στη Χρήση MATLAB


Α.1 Βασικές Αρχές του MATLAB

Α.1.1 Είσοδος δεδομένων από το πληκτρολόγιο


 Εισαγωγή διανύσματος:
 Α=[1 2 3 4]
 Α=[1,2,3,4];

 Εισαγωγή πίνακα:
 Α=[1 2 3 4;5 6 7 8]
 Α=[1 2 3 4];

 Ανάστροφος πίνακα/διανύσματος:
 Α=Α'

Α.1.2 Είσοδος δεδομένων από εξωτερικά αρχεία


 Για φόρτωμα ενός ASCII αρχείου:
 load IN.DAT

 Για αποθήκευση των μεταβλητών VarName1 VarName2 VarName3  στο αρχείο Filename.
 save Filename VarName1 VarName2 VarName3 

 Για αποθήκευση της μεταβλητής VarName σε ASCII μορφή στο αρχείο Filename.Extension.
 save Filename.Extension VarName -ascii

Α.1.3 Χρήσιμες εντολές


 Μορφοποίηση των μεταβλητών:
 format short
 format long

 Για βοήθεια από το ίδιο το MATLAB τύπωσε “help”.

 Οι γνωστές εντολές “dir”, “cd” υπάρχουν και στο MATLAB .

 Η εντολή “clear” σβήνει όλες τις μεταβλητές.

 Η εντολή “clc” καθαρίζει μόνο την οθόνη.

Α-1
Α.2 Χειρισμός Διανυσμάτων και Πινάκων
Α.2.1 Στοιχεία ενός πίνακα
Ένα από τα σημαντικότερα χαρακτηριστικά του MATLAB είναι ο μη-καθορισμός των διαστάσεων ενός
πίνακα εκ των προτέρων.

 Αναφερόμαστε σε ένα στοιχείο κάποιου πίνακα χρησιμοποιώντας τους κατάλληλους δείκτες


 A(i,j)

 Για να σβήσουμε ένα στοιχείο κάποιου πίνακα


 x(4)=[]

 Για να βρούμε το μέγεθος κάποιου πίνακα


 size(A)

 Για να βρούμε το μήκος κάποιου διανύσματος


 length(A)

 Για να βρούμε ποιες μεταβλητές υπάρχουν στο χώρο εργασίας


 who

 Για να βρούμε το μέγεθος των μεταβλητών του χώρου εργασίας


 whos

Α.2.2 Αναπαράσταση διαστήματος


 Ένα διάστημα μπορεί να οριστεί περιγραφικά, αν ορίσουμε την αρχή του, το τέλος του, καθώς και
το βήμα σάρωσης του, π.χ.:
 x=0:0.01:5;
 x=0:pi/4:pi

 Ένα διάστημα μπορεί επίσης να οριστεί, αν ορίσουμε την αρχή του, το τέλος του, καθώς και το
πλήθος των σημείων του
 k=linspace(-pi,pi,4)

 Για λογαριθμική κλίμακα μεταξύ των άκρων ενός διαστήματος χρησιμοποιούμε την εντολή
 k=logspace(p1, p2, #points)

όπου τα p1 και p2 είναι δυνάμεις (εκθέτες) του 10, π.χ. η εντολή logspace(1, 2) αντιστοιχεί στο
διάστημα [101, 102].

Α.2.3 Πράξεις με πίνακες


 Αναφερόμαστε σε τμήματα ενός πίνακα με διανύσματα πίνακα
 B=A(1:3,1:3)

 Εάν “a” και “k” είναι n-διάστατα διανύσματα και τα στοιχεία του “k” είναι 0 και 1 τότε το a(k) δίνει
μόνο τα στοιχεία του “a” που βρίσκονται στην ίδια θέση με τα 1 του διανύσματος “k”.

 a=[2 4 45 22];
 k=[0 1 0 1];
 a(find(k))
ans=
4 22

Α-2
Α.2.4 Ειδικοί πίνακες
 Μοναδιαίος πίνακας:
 eye(4)
 eye(3,4)

 Πίνακας με μηδενικά:
 zeros(3)

 Πίνακας με μονάδες:
 ones(1,5)

 Διαγώνιος πίνακα (2 χρήσεις):


 A=diag([1 2 3 4])
 diag(A)

Α.2.5 Σειρές χαρακτήρων


Μπορούμε να βάλουμε ένα σύνολο λέξεων σε ένα δισδιάστατο πίνακα ως εξής
 A=str2mat('today','it will','rain')

Α.3 Βαθμωτές Πράξεις


Διάφορες συναρτήσεις που ορίζονται στο MATLAB:
 ans το αποτέλεσμα μιας πράξης όταν δεν ορίζεται μια μεταβλητή.
 eps η ακρίβεια των υπολογισμών.
 computer ο τύπος του Η/Υ.
 pi ο αριθμός π.
 i, j ο μιγαδικός αριθμός  1 .
 Inf το άπειρο.
 NaN ο «μη-αριθμός», π.χ. 0/0.
 clock το ρολόι του Η/Υ.
 cputime ο χρόνος που πέρασε για την κεντρική μονάδα επεξεργασίας.
 date η ημερομηνία.
 realmax ο πιο μεγάλος αριθμός.
 realmin ο πιο μικρός αριθμός.
 nargin ο αριθμός των ορισμάτων εισόδου μιας συνάρτησης.
 nargout ο αριθμός των ορισμάτων εξόδου μιας συνάρτησης.

Α.3.1 Αριθμητικές πράξεις


 Οι γνωστές αριθμητικές πράξεις γίνονται με τη χρήση των τελεστών + , - , * , / .

 Το γινόμενο ενός βαθμωτού “a” με ένα διάνυσμα “x” βρίσκεται με την πράξη “a*x”.

 Το εσωτερικό γινόμενο δύο διανυσμάτων στήλης “x” και “y” βρίσκεται με την πράξη “x’*y”.

 Το γινόμενο δύο διανυσμάτων “x” και “y” στοιχείο-προς-στοιχείο με αποτέλεσμα και πάλι διάνυσμα
βρίσκεται με την πράξη “x.*y”.
 Παρόμοια ορίζεται η διαίρεση “x./y” και η ύψωση σε δύναμη “x.^y”.

Α-3
Α.3.2 Διάφορες συναρτήσεις
 Στρογγυλοποίηση:
- round στρογγυλοποίηση προς τον πλησιέστερο ακέραιο.
- fix στρογγυλοποίηση προς το μηδέν.
- floor στρογγυλοποίηση προς τον μικρότερο ακέραιο.
- ceil στρογγυλοποίηση προς τον μεγαλύτερο ακέραιο.

 Προσέγγιση με ρητούς αριθμούς:


- rem υπόλοιπο της διαίρεσης με ακεραίους.
- rat ανάπτυξη σε ρητούς αριθμούς.
- rats προσέγγιση με ρητούς αριθμούς.

 Παραγοντοποίηση με ακέραιους:
- gcd μέγιστος κοινός διαιρέτης.
- lcm ελάχιστο κοινό πολλαπλάσιο.

 Μιγαδική αριθμητική:
- real το πραγματικό μέρος ενός μιγαδικού αριθμού.
- imag το φανταστικό μέρος ενός μιγαδικού αριθμού.
- conj συζυγής ενός μιγαδικού αριθμού.
- abs το μέτρο ενός μιγαδικού αριθμού.
- angle το όρισμα ενός μιγαδικού αριθμού.

 Από Καρτεσιανές συντεταγμένες σε πολικές (ή σε κυλινδρικές): cart2pol.


 Από πολικές (ή σε κυλινδρικές) συντεταγμένες σε Καρτεσιανές: pol2cart.
 Από Καρτεσιανές συντεταγμένες σε σφαιρικές: cart2sph.
 Από σφαιρικές συντεταγμένες σε Καρτεσιανές: sph2cart.

Α.3.3 Παραδείγματα
 Στοιχειώδεις συναρτήσεις
 x=(1:0.1:5)';
 y=log(x);
 [x y]

 Συναρτήσεις συναρτήσεων
Να υπολογιστεί ένας πίνακας τιμών της συνάρτησης e3tsin(5t)
 t=linspace(-2,2,45)';
 y=exp(3*t).*sin(5*pi*t);
 [t y]

 Ρητές συναρτήσεις
3s2 +5s+7
Πίνακας τιμών της συνάρτησης f(s)= με s=j και [10-2, 102].
s3 +5s2 +7s+12
 omega=logspace(-2,2);
 s=j*omega;
 x1=3*s.^2+5*s+7;
 x2=s.^3+5*s.^2+7*s+12;
 x=x1./x2;
 x=abs(x);
 [s x]

Α-4
Α.3.4 Λογικοί και σχεσιακοί τελεστές
 Οι γνωστοί σχεσιακοί τελεστές , =, , =, ==, ~=.
 Οι γνωστοί λογικοί τελεστές &, |, xor, ~.

Παράδειγμα
 A=[1 2 3 4;5 6 7 8];
 P=(rem(A,2)==0)

ans =
0 1 0 1
0 1 0 1

Α.4 Πράξεις με Πίνακες


Οι προηγούμενες βαθμωτές συναρτήσεις είναι άμεσα διαθέσιμες και με πίνακες. Π.χ. για τον πίνακα
 1 3  e1 e3 
A=  η εντολή “C=exp(A)” υπολογίζει τον πίνακα C =  4 2
.
 4 2 e e 

Α.4.1 Ανάστροφος ενός πίνακα


 Β=Α'
(στην πραγματικότητα ο τελεστής “ ' ” δίνει τον ανάστροφο συζυγή).

Α.4.2 Αλγεβρικές πράξεις


 Οι τελεστές +, -, * ορίζονται και για πίνακες.
 Ο αντίστροφος ενός πίνακα υπολογίζεται με την εντολή “inv(A)” ή με την εντολή “A^(-1)”.

Α.4.3 Συναρτήσεις με πίνακες


 Η εντολή “max(x) (min(x))” υπολογίζει το μέγιστο (ελάχιστο) ενός διανύσματος. Όταν αυτές οι
εντολές χρησιμοποιούνται με πίνακες, δίνουν ένα διάνυσμα με τα μέγιστα (ελάχιστα) κάθε στήλης
του πίνακα. Το μέγιστο ενός πίνακα βρίσκεται με την εντολή “max(max(A))”.
 Η εντολή “sort(x)” ταξινομεί ένα διάνυσμα σε αύξουσα σειρά. Η εντολή “[y,ind]=sort(x)”
επιστρέφει τους δείκτες “ind” του ταξινομημένου διανύσματος “y”.
 Η εντολή “sum(x)” υπολογίζει το άθροισμα και η εντολή “mean(x)” δίνει το μέσο όρο των
στοιχείων ενός διανύσματος.
 Η εντολή “rank(A)” υπολογίζει την τάξη ενός πίνακα.
 Η εντολή “det(A)” υπολογίζει την ορίζουσα ενός πίνακα.
 Η εντολή “poly(A)” υπολογίζει τους συντελεστές του χαρακτηριστικού πολυωνύμου p(λ) του
πίνακα Α, όπου p(λ)=|λI-A|.
 Η εντολή “trace(A)” υπολογίζει το ίχνος ενός πίνακα “Α” (δηλ. το άθροισμα των στοιχείων της
κύριας διαγωνίου του πίνακα “Α”).
 Η εντολή “norm(X)” υπολογίζει τη νόρμα ενός πίνακα.

An
 Η εντολή “expm(A)” υπολογίζει το e A   n! .
n0

Α-5
Παράδειγμα
1 2
 
5 1
Να ταξινομηθούν τα στοιχεία του πίνακα R =  ως προς την πρώτη στήλη αλλά χωρίς να χαθεί η
3 3
 
2 4
συσχέτιση με τα στοιχεία της δεύτερης στήλης.
1 1
 
2 2
Προσέξτε ότι η εντολή “A=sort(R)” έχει ως αποτέλεσμα A =  , οπότε χάνεται η
3 3
 
5 4
συσχέτιση με τα στοιχεία της δεύτερης στήλης. Ακολουθούν οι σωστές εντολές

 [S,i1]=sort(R);
 A=R(i1(:,1),:);

1 2
 
2 4
που έχουν ως αποτέλεσμα A =  .
3 3
 
5 1

Α.4.4 Λογικές πράξεις


 Η εντολή “any(x)”, όπου το x είναι ένα διάνυσμα με 0 και 1, επιστρέφει 1 αν τουλάχιστον ένα από
τα στοιχεία του x είναι 1.
 Η εντολή “all(x)”, όπου το x είναι ένα διάνυσμα με 0 και 1, επιστρέφει 1 αν όλα τα στοιχεία του x
είναι 1.

Οι προηγούμενες εντολές ισχύουν κατά στήλη και για πίνακες, π.χ. η εντολή “all(all(A0.5))”
επιστρέφει 1 εάν όλα τα στοιχεία του πίνακα Α είναι μικρότερα του 0.5.

 Η εντολή “find” επιστρέφει τους δείκτες των μη-μηδενικών στοιχείων του ορίσματός της.

Παράδειγμα
Οι εντολές
 t=0:0.005:20;
 y=sin(t);
 i=find(abs(y-0.5)0.05);

επιστρέφουν τους δείκτες εκείνων των στοιχείων του διανύσματος “y” που απέχουν λιγότερο από 0.05 από
τον αριθμό 0.5 (πρακτικά αυτό σημαίνει ότι μπορούμε να υπολογίσουμε τις τιμές της ανεξάρτητης
μεταβλητής “t” των οποίων οι αντίστοιχες τιμές του “y” είναι 0.5).

Α.5 Πολυώνυμα
Ένα πολυώνυμο ορίζεται ως ένα διάνυσμα με φθίνουσα σειρά των συντελεστών του, π.χ. το πολυώνυμο
p(s)=s3+4s2+2s+5 ορίζεται ως “p=[1 4 2 5]”, ενώ το s3+1 ορίζεται ως “[1 0 0 1]”.

Α-6
Α.5.1 Βασικές πράξεις
 Η εντολή “poly(A)” υπολογίζει τους συντελεστές του χαρακτηριστικού πολυωνύμου p(λ) του
πίνακα Α, όπου p(λ)=|λI-A|.
 Η εντολή “poly” χρησιμοποιείται επίσης για να υπολογίσει ένα πολυώνυμο από τις ρίζες του, π.χ. το
πολυώνυμο με ρίζες τις 1, -2, j, και -j, υπολογίζεται με την εντολή “poly([1,-2,j,-j])” και
δίνεται από το διάνυσμα “[1 1 -1 1 -2]”.
 Η εντολή “conv” υπολογίζει το γινόμενο δύο πολυωνύμων, π.χ. με “a=[1 2 3]” και “b=[4 5
6]” η εντολή “c=conv(a,b)” δίνει c=[4 13 28 27 18].
 Οι ρίζες ενός πολυωνύμου υπολογίζονται με την εντολή “roots(p)”.
 Η εντολή “polyder(p)” επιστρέφει την πρώτη παράγωγο dp(s)/ds του πολυωνύμου p.
b ( s)
 Για να αναπτύξουμε ένα ρητό πολυώνυμο σε μερικά κλάσματα όπως φαίνεται παρακάτω
a ( s)
b( s ) r1 r2 rn
    k ( s)
a ( s) s  p1 s  p2 s  pn

χρησιμοποιούμε την εντολή “[r,p,k]=residue(b,a)”.

Α.5.2 Παρεμβολή
Δοθείσης μιας ανεξάρτητης μεταβλητής στο διάνυσμα “x” και των τιμών που πρόκειται να παρεμβληθούν
στο διάνυσμα “y” η εντολή “p=polyfit(x,y,n)” επιστρέφει ένα πολυώνυμο n-στου βαθμού που
παρεμβάλει τα ζεύγη (xi,yi) με τη μέθοδο των ελαχίστων τετραγώνων.
Παρεμβολή μπορεί να γίνει επίσης με τις εντολές “spline”, “interpft”, “interp1”,
“interp2”.

Α.6 Γραφικά
Α.6.1 Δισδιάστατα γραφικά

Παράδειγμα
 t=0:0.05:4*pi;
 y=sin(t);
 plot(t,y)

Α.6.2 Πολλαπλά γραφικά

Παράδειγμα
 t1=(0:0.1:3)’;
 y1=sin(t1);
 t2=(1:0.1:4)’;
 y2=cos(t2);
 plot(t1,y1,t2,y2)

Α.6.3 Η κλίμακα των αξόνων


 Η εντολή “axis([xmin xmax ymin ymax])” ορίζει τα άκρα των αξόνων x και y κατά τη
σχεδίαση.
 Η εντολή “axis(‘square’)” επιβάλλει μια τετράγωνη περιοχή σχεδίασης.
 Η εντολή “axis(‘equal’)” επιβάλλει ίσες μονάδες στους δύο άξονες σχεδίασης x και y.
 Η εντολή “grid” σχεδιάζει ένα δικτύωμα επάνω στην περιοχή σχεδίασης.

Α-7
Α.6.5 Τρισδιάστατα γραφικά

Παράδειγμα: Συναρτήσεις δύο Μεταβλητών


 x=0:0.1:4;
 y=-2:0.1:1;
 [X,Y]=meshgrid(x,y);
 Z=sin(X).*cos(Y);
 mesh(X,Y,Z);

Η εντολή “view(az,el)” ορίζει τη θέση παρατηρητή, όπου az και el είναι οι γωνίες παρατήρησης
azimuth και elevation, όπως φαίνονται στο Σχήμα Α.1. Αρχικά είναι az==-37.5o και el=φ=30o.

z
y

x

Σχήμα Α.1 Οι γωνίες azimuth (θ) και elevation (φ).

Α.7 Προγραμματισμός στο MATLAB


Α.7.1 Βασικές δομές
Η επιλογή στο MATLAB καθορίζεται ως εξής

if συνθήκη,
(σύνολο εντολών 1)
elseif συνθήκη,
(σύνολο εντολών 2)
else
(σύνολο εντολών 3)


end

Η επανάληψη στο MATLAB καθορίζεται με δύο τρόπους

1. for i=1:n,
(σύνολο εντολών)
end
2. while συνθήκη
(σύνολο εντολών)
end

Α-8
Α.7.2 Αρχεία γραφής

Παράδειγμα
% An M-file to compute the Fibonacci numbers
f=[1 1]; i=1;
while f(i)+f(i+1)1000
f(i+2)=f(i)+f(i+1);
i=i+1;
end
plot(f)

Α.7.3 Συναρτήσεις
Μια συνάρτηση δημιουργείται όπως ένα αρχείο γραφής (script file), αλλά αρχίζει πάντοτε με την εξής σειρά

function [output variables]=FunctionName(input variables)

Παράδειγμα
function t = trace(a)
% TRACE Sum of diagonal elements,
% TRACE(A) is the sum of the diagonal elements of A,
% which is also the sum of the eigenvalues of A.

t =sum(diag(a));

Α.8 Αριθμητική Ανάλυση


Θεωρήστε τη συνάρτηση
1 1
humps( x)    6 της οποίας το αρχείο είναι
( x  0.3)  0.01 ( x  0.9) 2  0.04
2

function y = humps(x)
y=1./((x-0.3).^2+0.01) + 1./((x-0.9).^2+0.04) - 6;

και της οποίας το γράφημα λαμβάνεται με τις εντολές


x=-1:0.01:2;
plot(x,humps(x))

Α.8.1 Απειροστική ανάλυση


 Η εντολή “diff” υπολογίζει τη διαφορά μεταξύ διαδοχικών στοιχείων ενός διανύσματος, π.χ.
“diff(x)=[x(2)-x(1), x(3)-x(2),  ,x(n)-x(n-1)]”.
 Η εντολή “Dy=diff(y)./diff(x)” υπολογίζει την πρώτη παράγωγο.
 Η εντολή “s=quad(‘humps’,0,1)” υπολογίζει το ολοκλήρωμα της humps μεταξύ 0 και 1.
(υπολογίστηκε να είναι quad(‘humps’,0,1)=29.858).

Α.8.2 Μη-γραμμικές εξισώσεις και βελτιστοποίηση


Η εντολή “fzero(‘FunctionName’,x0)” υπολογίζει το πραγματικό (μη μιγαδικό) μηδενικό της
συνάρτησης ‘FunctionName’ κοντύτερα στο x0.

Παράδειγμα
 xz1=fzero(‘humps’,0)
 xz2=fzero(‘humps’,1)
(Το xz1 ισούται με -0.131, και το xz2 ισούται με 1.299)

Α-9
Ο υπολογισμός του τοπικού ελαχίστου μιας συνάρτησης με μία μεταβλητή γίνεται με την εντολή
“x=fminbnd(‘FunctionName’,x1,x2)”.

Παράδειγμα: (υπολογισμός του αριθμού )


 pic= fminbnd (‘cos’,3,4)

Στη συνέχεια παρουσιάζονται συγκεκριμένα υπολογιστικά παραδείγματα σε MATLAB.

Β Υπολογιστικά Παραδείγματα
Αυτή η ενότητα παρουσιάζει παραδείγματα λογισμικού εφαρμογών σε MATLAB.

Β.1 Λογισμικό Κεφαλαίου 1


Όπως έχει ήδη αναφερθεί στο Κεφάλαιο 1, ένα νευρωνικό δίκτυο υλοποιεί μία συνάρτηση y  f  x  . Στην
παράγραφο αυτή θα παρουσιαστούν δύο κώδικες (βλ. λογισμικό) εφαρμογής των προσωτροφοδοτούμενων
νευρωνικών δικτύων. Συγκεκριμένα, ο «Κώδικας 1» σε MATLAB, υλοποιεί ένα νευρωνικό δίκτυο για την
προσέγγιση της μαθηματικής συνάρτησης του ημιτόνου y = sin(x). Στην περίπτωση αυτή το νευρωνικό δίκτυο
έχει μία είσοδο, μία έξοδο, ένα κρυφό στρώμα, ενώ ο αριθμός (50) των νευρώνων του κρυφού στρώματος
αποφασίζεται μετά από δοκιμές.
Ο «Κώδικας 2» σε MATLAB, υλοποιεί ένα προσωτροφοδοτούμενο νευρωνικό δίκτυο για την
ταξινόμηση τριών ειδών λουλουδιών (Fisher, 1936), η οποία (ταξινόμηση) αποτελεί μία τυπική εφαρμογή
αναγνώρισης προτύπων. Συγκεκριμένα, για την ταξινόμηση των λουλουδιών χρησιμοποιούνται τέσσερα
χαρακτηριστικά, τα οποία περιλαμβάνουν το μήκος και το πλάτος των φύλλων καθώς και το μήκος και το
πλάτος των πετάλων, ενώ το σύνολο των δεδομένων περιλαμβάνει 50 δείγματα από κάθε είδος λουλουδιού,
δηλαδή συνολικά περιλαμβάνει 150 δείγματα. Σε αυτή την περίπτωση το νευρωνικό δίκτυο έχει τέσσερις
εισόδους (το πλήθος των χαρακτηριστικών), τρεις εξόδους (ο αριθμός των ειδών λουλουδιών), δύο κρυφά
στρώματα με αριθμό νευρώνων (20 έκαστο) που επιλέγεται μετά από δοκιμές.
Σημειώστε ότι ενώ, από τη μια μεριά ο αριθμός εισόδων και εξόδων του νευρωνικού δικτύου
προκύπτει άμεσα από το προς επίλυση πρόβλημα, από την άλλη μεριά ο αριθμός των κρυφών στρωμάτων,
καθώς και ο αριθμός των νευρώνων του κάθε στρώματος επιλέγονται μετά από δοκιμές, διότι μέχρι στιγμής
δεν υπάρχει κάποιο αδιαμφισβήτητο κριτήριο επιλογής αυτών.

Α-10
Κώδικας 1 Εφαρμογή προσέγγισης μίας συνάρτησης

%% Αρχικοποίηση του περιβάλλοντος MATLAB


clear all;
close all;
clc;

%% Κατασκευή των δεδομένων εκπαίδευσης (training data)


x_train = 0:pi/16:2*pi;
y_train = sin(x_train);
plot(x_train, y_train);%Προβολή των δεδομένων εκπαίδευσης

%% Κατασκευή των δεδομένων δοκιμής (testing data)


x_test = 0:pi/7:2*pi;
y_test = sin(x_test);

%% Κατασκευή ενός feedforward νευρωνικού δικτύου (1 κρυφό στρώμα 10


νευρώνων)
net = newff(x_train,y_train,10);

%% Εκπαίδευση του νευρωνικού δικτύου


net = train(net,x_train,y_train);

%% Υπολογισμός των εξόδων του νευρωνικού δικτύου, με εισόδους τα δεδομένα


%δοκιμής
y_net = net(x_test);

%% Προβολή της εξόδου του νευρωνικού δικτύου σε σύγκριση με την επιθυμητή


%έξοδο
figure;
plot(x_test,y_test,x_test,y_net,'--r');
legend('Training Sine','Simulated Sine');

Α-11
Κώδικας 2 Εφαρμογή αναγνώρισης προτύπων
%% Αρχικοποίηση του περιβάλλοντος MATLAB
clear all;
close all;
clc;

%% Εισαγωγή δεδομένων iris data


load fisheriris

%% Κατασκευή των προτύπων


y = zeros(3,length(species));
y(1,1:50) = 1;
y(2,51:100) = 1;
y(3,101:150)= 1;

%% Κατασκευή δεδομένων εκπαίδευσης (70%) και δοκιμής (30%)


inds = randperm(size(meas,1));
x_train = meas(inds(1:105),1:4)';
y_train = y(:,inds(1:105));
x_test = meas(inds(106:end),1:4)';
y_test = y(:,inds(106:end));

%% Κατασκευή ενός feedforward νευρωνικού δικτύου (2 κρυφά στρώματα των 20


νευρώνων)
net = newff(x_train,y_train,[20 20]);

%% Εκπαίδευση του νευρωνικού δικτύου


net = train(net,x_train,y_train);

%% Υπολογισμός των εξόδων του νευρωνικού δικτύου, με εισόδους τα δεδομένα


%δοκιμής
y_net = net(x_test);

%% Υπολογισμός της απόδοσης ταξινόμησης


[vals1,y_labels] = max(y_test);
[vals2,y_net_labels] = max(y_net);
cp = classperf(y_labels, y_net_labels);

%% Εκτύπωση της ποσοστιαίας ακρίβειας ταξινόμησης


disp(['Classification Rate(%) = ' num2str(cp.CorrectRate*100)]);

Α-12
Β.2 Λογισμικό Κεφαλαίου 2
Στην παράγραφο αυτή παρουσιάζονται οι υλοποιήσεις δύο διαφορετικών τύπων ασαφών μοντέλων.
Συγκεκριμένα, το πρώτο ασαφές μοντέλο είναι τύπου Mamdani, υλοποιείται με τον «Κώδικα 3» σε
MATLAB και ρυθμίζει την ταχύτητα περιστροφής ενός ανεμιστήρα στο θάλαμο εντατικής παρακολούθησης
ενός νοσοκομείου, ώστε η θερμοκρασία και η σχετική υγρασία του θαλάμου να διατηρούνται σε επίπεδα
σύμφωνα με τις υποδείξεις των γιατρών. Υπάρχει αισθητήρας θερμοκρασίας που μετράει τη θερμοκρασία
από 0 C έως 50 C, καθώς και αισθητήρας που μετράει τη σχετική υγρασία από 20% έως 100%. Η ταχύτητα
περιστροφής του ανεμιστήρα κυμαίνεται από 120 έως 1200 RPM (Rotations Per Minute). Οι γιατροί έχουν
ορίσει τις παρακάτω 5 προδιαγραφές:

Θερμοκρασία Σχετική υγρασία Επιθυμητή ταχύτητα


περιστροφής ανεμιστήρα
1 8 20 300
2 15 40 400
3 21 50 600
4 32 70 1000
5 41 90 900

Πίνακας Α.1 Μετρήσεις θερμοκρασίας και σχετικής υγρασίας.

Το δεύτερο ασαφές μοντέλο είναι τύπου Sugeno, υλοποιείται με τον «Κώδικα 4» σε MATLAB και
ρυθμίζει την παραγόμενη χημική ουσία PAC σε μια βιομηχανική διαδικασία καθαρισμού νερού με βάση δύο
μετρήσιμες μεταβλητές εισόδου: 1) το PH του νερού και 2) η αλκαλικότητα AL του νερού, οι οποίες
καθορίζουν την ποσότητα της χημικής ουσίας PAC που θα χρησιμοποιηθεί για τον καθαρισμό μιας
ποσότητας νερού. Έστω x1 η μετρούμενη αριθμητική τιμή του PH, x2 η μετρούμενη αριθμητική τιμή του AL
και y η (υπολογισμένη) αριθμητική τιμή της PAC που πρέπει να χρησιμοποιηθεί για τον καθαρισμό μιας
ποσότητας νερού. Θα χρησιμοποιηθούν οι παρακάτω τρεις κανόνες:

Κ1. Εάν PH είναι «κανονικό» και AL είναι «χαμηλό», τότε y= 2x1+x2+1.


Κ2. Εάν PH είναι «υψηλό» και AL είναι «μέτριο», τότε y= x1+2x2+3.
Κ3. Εάν PH είναι «χαμηλό» και AL είναι «μέτριο», τότε y= 2x1+3x2-1.

Σημειώστε ότι οι τιμές «κανονικό», «υψηλό», «χαμηλό» και «μέτριο», τις οποίες λαμβάνουν οι
ασαφείς μεταβλητές PH και AL, είναι ασαφείς αριθμοί με τριγωνικές συναρτήσεις συμμετοχής. Επιπλέον,
σημειώστε ότι τα πεδία τιμών των μεταβλητών PH, AL και PAC είναι [6,8], [40,60] και [50,200] αντίστοιχα.

Α-13
Κώδικας 3 Εφαρμογή ασαφούς μοντέλου τύπου Mamdani
%% Αρχικοποίηση του περιβάλλοντος MATLAB
clear all;
close all;
clc;

%% Δημιουργία ασαφούς μοντέλου τύπου Mamdani


model = newfis('MamModel','mamdani');

%% Ορισμός εισόδων, εξόδων του συστήματος


model = addvar(model,'input','temp',[0 50]);
model = addvar(model,'input','hum',[20 100]);
model = addvar(model,'output','speed',[120 1200]);

%% Ορισμός των συναρτήσεων συμμετοχής


model = addmf(model,'input',1,'low','gaussmf',[7.5 0]);
model = addmf(model,'input',1,'medium','gaussmf',[7.5 25]);
model = addmf(model,'input',1,'high','gaussmf',[7.5 50]);
model = addmf(model,'input',2,'low','gaussmf',[10 20]);
model = addmf(model,'input',2,'medium','gaussmf',[10 60]);
model = addmf(model,'input',2,'high','gaussmf',[10 100]);
model = addmf(model,'output',1,'low','gaussmf',[120 120]);
model = addmf(model,'output',1,'medium','gaussmf',[120 660]);
model = addmf(model,'output',1,'high','gaussmf',[120 1200]);

% Προβολή των συναρτήσεων συμμετοχής


subplot(1,3,1);plotmf(model,'input',1);
subplot(1,3,2);plotmf(model,'input',2);
subplot(1,3,3);plotmf(model,'output',1);

%% Ορισμός των κανόνων


rule1 = [1 1 1 1 1];
rule2 = [2 2 2 1 1];
rule3 = [2 2 3 1 1];
rule4 = [3 3 3 1 1];
ruleList = [rule1;rule2;rule3;rule4];
model = addrule(model,ruleList);

%Προβολή των κανόνων


showrule(model)

%% Προβολή του συστήματος


figure;
plotfis(model);

%% Λειτουργία του συστήματος


inputs = [8 20];
outputs = evalfis(inputs, model)

Α-14
Κώδικας 4 Εφαρμογή ασαφούς μοντέλου τύπου Sugeno
%% Αρχικοποίηση του περιβάλλοντος MATLAB
clear all;
close all;
clc;

%% Δημιουργία ασαφούς μοντέλου τύπου Mamdani


model = newfis('SugModel','sugeno');

%% Ορισμός εισόδων, εξόδων του συστήματος


model = addvar(model,'input','PH',[6 8]);
model = addvar(model,'input','AL',[40 60]);
model = addvar(model,'output','PAC',[50 200]);

%% Ορισμός των συναρτήσεων συμμετοχής


model = addmf(model,'input',1,'low','trimf',[4.2 6 6.8]);
model = addmf(model,'input',1,'medium','trimf',[6.2 7 7.8]);
model = addmf(model,'input',1,'high','trimf',[7.2 8 9.8]);
model = addmf(model,'input',2,'low','trimf',[32 40 48]);
model = addmf(model,'input',2,'medium','trimf',[42 50 58]);
model = addmf(model,'input',2,'high','trimf',[52 60 68]);
model = addmf(model,'output',1,'low','linear',[2 1 1]);
model = addmf(model,'output',1,'medium','linear',[1 2 3]);
model = addmf(model,'output',1,'high','linear',[2 3 -1]);

% Προβολή των συναρτήσεων συμετοχής


subplot(1,2,1);plotmf(model,'input',1);
subplot(1,2,2);plotmf(model,'input',2);

%% Ορισμός των κανόνων


rule1 = [2 1 1 1 1];
rule2 = [3 2 2 1 1];
rule3 = [1 2 3 1 1];
ruleList = [rule1;rule2;rule3];
model = addrule(model,ruleList);

%Προβολή των κανόνων


showrule(model)

%% Προβολή του συστήματος


figure;
plotfis(model);

%% Λειτουργία του συστήματος


inputs = [7 40];
outputs = evalfis(inputs, model)

Α-15
Β.3 Λογισμικό Κεφαλαίου 3
Για τη μελέτη της συμπεριφοράς αλγορίθμων βελτιστοποίησης αναπτύχθηκαν δύο κώδικες βελτιστοποίησης
της ακόλουθης συνάρτησης Rastrigin δύο μεταβλητών ( n  2 ):

 
n
f x   10  n   xi2  10  cos2    xi   5.12  xi  5.12
i 1

Ολικό ελάχιστο : xi  0 f x  0

Η συνάρτηση Rastrigin (βλ. Σχήμα Α.2) παρουσιάζει πολλαπλά τοπικά ελάχιστα, ενώ το ολικό
ελάχιστο είναι f (x)  0 για x  0 .

Σχήμα Α.2 Η συνάρτηση Rastrigin δύο μεταβλητών.

Για τη βελτιστοποίηση (βλ. εύρεση ελάχιστου) της συνάρτησης Rastrigin, εφαρμόζεται πρώτον, ένας
Γενετικός Αλγόριθμος (ΓΑ), ο οποίος υλοποιείται με τον «Κώδικα 5» σε MATLAB και δεύτερον, η μέθοδος
Βελτιστοποίησης με Σμήνος Σωματιδίων (ΒΣΣ), η οποία υλοποιείται με τον «Κώδικα 6» σε MATLAB.
Σημειώστε ότι ο «Κώδικας 6» διατίθεται δωρεάν (Mostapha Kalami Heris, 2015).

Α-16
Κώδικας 5 Εφαρμογή βελτιστοποίησης (βλ. εύρεση ελαχίστου) της συνάρτησης
Rastrigin με τη χρήση Γενετικού Αλγόριθμου (ΓΑ)
%% Αρχικοποίηση του περιβάλλοντος MATLAB
clear all;
close all;
clc;

%% Ρυθμίσεις του προβλήματος


nVar = 2; %Πλήθος αγνώστων
LB = -5.12*ones(1,nVar); %Ελάχιστη τιμή των αγνώστων
UB = 5.12*ones(1,nVar); %Μέγιστη τιμή των αγνώστων
CostFunction = @(x)rastriginsfcn(x); %Συνάρτηση κόστους/αντικειμενική

%% Ρυθμίσεις του Γενετικού Αλγορίθμου


nPop = 50; %Μέγεθος πληθυσμού
MaxIt = 50; %Αριθμός γενεών
options =
gaoptimset('PopulationSize',nPop,'PopInitRange',[LB;UB],'EliteCount',2,'C
rossoverFraction',0.8,'Generations',MaxIt,'PlotFcns',{@gaplotbestf});

%% Εκτέλεση του Γενετικού Αλγόριθμου


[x, fval, exitflag, output] =
ga(CostFunction,nVar,[],[],[],[],LB,UB,[],options);

%% Προβολή βέλτιστης λύσης


disp(['Minimum = ' num2str(fval) ' for x1=' num2str(x(1)) ' x2='
num2str(x(2))]);

Α-17
Κώδικας 6 Εφαρμογή βελτιστοποίησης (βλ. εύρεση ελαχίστου) της συνάρτησης
Rastrigin με τη χρήση Βελτιστοποίησης Σμήνους Σωματιδίων (ΒΣΣ)
% Copyright (c) 2015, Yarpiz (www.yarpiz.com)
% All rights reserved. Please read the "license.txt" for license terms.
%
% Project Code: YPEA102
% Project Title: Implementation of Particle Swarm Optimization in MATLAB
% Publisher: Yarpiz (www.yarpiz.com)
%
% Developer: S. Mostapha Kalami Heris (Member of Yarpiz Team)
%
% Contact Info: sm.kalami@gmail.com, info@yarpiz.com
%

clc;
clear;
close all;

%% Problem Definition

CostFunction=@(x) rastrigin(x); % Cost Function

nVar=2; % Number of Decision Variables

VarSize=[1 nVar]; % Size of Decision Variables Matrix

VarMin=-5.12; % Lower Bound of Variables


VarMax= 5.12; % Upper Bound of Variables

%% PSO Parameters

MaxIt=50; % Maximum Number of Iterations

nPop=50; % Population Size (Swarm Size)

% PSO Parameters
w=1; % Inertia Weight
wdamp=0.99; % Inertia Weight Damping Ratio
c1=1.5; % Personal Learning Coefficient
c2=2.0; % Global Learning Coefficient

% If you would like to use Constriction Coefficients for PSO,


% uncomment the following block and comment the above set of parameters.

% % Constriction Coefficients
% phi1=2.05;
% phi2=2.05;
% phi=phi1+phi2;
% chi=2/(phi-2+sqrt(phi^2-4*phi));
% w=chi; % Inertia Weight

Α-18
% wdamp=1; % Inertia Weight Damping Ratio
% c1=chi*phi1; % Personal Learning Coefficient
% c2=chi*phi2; % Global Learning Coefficient

% Velocity Limits
VelMax=0.1*(VarMax-VarMin);
VelMin=-VelMax;

%% Initialization

empty_particle.Position=[];
empty_particle.Cost=[];
empty_particle.Velocity=[];
empty_particle.Best.Position=[];
empty_particle.Best.Cost=[];

particle=repmat(empty_particle,nPop,1);

GlobalBest.Cost=inf;

for i=1:nPop

% Initialize Position
particle(i).Position=unifrnd(VarMin,VarMax,VarSize);

% Initialize Velocity
particle(i).Velocity=zeros(VarSize);

% Evaluation
particle(i).Cost=CostFunction(particle(i).Position);

% Update Personal Best


particle(i).Best.Position=particle(i).Position;
particle(i).Best.Cost=particle(i).Cost;

% Update Global Best


if particle(i).Best.Cost<GlobalBest.Cost

GlobalBest=particle(i).Best;
end
end

BestCost=zeros(MaxIt,1);

%% PSO Main Loop

for it=1:MaxIt

for i=1:nPop

% Update Velocity
particle(i).Velocity = w*particle(i).Velocity ...
+c1*rand(VarSize).*(particle(i).Best.Position-
particle(i).Position) ...
+c2*rand(VarSize).*(GlobalBest.Position-
particle(i).Position);

Α-19
% Apply Velocity Limits
particle(i).Velocity = max(particle(i).Velocity,VelMin);
particle(i).Velocity = min(particle(i).Velocity,VelMax);

% Update Position
particle(i).Position = particle(i).Position +
particle(i).Velocity;

% Velocity Mirror Effect


IsOutside=(particle(i).Position<VarMin |
particle(i).Position>VarMax);
particle(i).Velocity(IsOutside)=-particle(i).Velocity(IsOutside);

% Apply Position Limits


particle(i).Position = max(particle(i).Position,VarMin);
particle(i).Position = min(particle(i).Position,VarMax);

% Evaluation
particle(i).Cost = CostFunction(particle(i).Position);

% Update Personal Best


if particle(i).Cost<particle(i).Best.Cost

particle(i).Best.Position=particle(i).Position;
particle(i).Best.Cost=particle(i).Cost;

% Update Global Best


if particle(i).Best.Cost<GlobalBest.Cost

GlobalBest=particle(i).Best;
end
end
end

BestCost(it)=GlobalBest.Cost;

disp(['Iteration ' num2str(it)': Best Cost= 'num2str(BestCost(it))]);

w=w*wdamp;

end

BestSol = GlobalBest;

%% Results
figure;
%plot(BestCost,'LineWidth',2);
semilogy(BestCost,'LineWidth',2);
xlabel('Iteration');
ylabel('Best Cost');
grid on;
disp(['Minimum = ' num2str(GlobalBest.Cost) ' for x1='
num2str(GlobalBest.Position(1)) ' x2=' num2str(GlobalBest.Position(1))]);

Α-20
Β.4 Λογισμικό Κεφαλαίου 9
Στη συνέχεια παρουσιάζεται ο «Κώδικας 7» σε MATLAB για τον υπολογισμό ενός ΑΔ από μια κατανομή
(αριθμητικών) δειγμάτων. Συγκεκριμένα, ακριβώς κάτω από το σχόλιο “Preprocessing: Load the data” γίνεται
η φόρτωση των (αριθμητικών) δειγμάτων από το αρχείο “area20050301_7a.txt” στη μεταβλητή (διάνυσμα)
“population1”. Κατόπιν υπολογίζεται πρώτον, ένας ΑΔ σε μορφή αναπαράστασης-συνάρτησης-συμμετοχής
με τη ρουτίνα “fin(population)” και αποθηκεύεται στις μεταβλητές “pts1” (τετμημένες) και “val1”
(τεταγμένες) και δεύτερον, ο προαναφερθείς ΑΔ σε μορφή αναπαράστασης-διαστημάτων με την ρουτίνα
“in(pts1,val1,L)” σε L=32 διαστήματα για ισαπέχουσες τιμές στο διάστημα τετμημένων [0,1].
Το λογισμικό ακριβώς κάτω από το σχόλιο “plot a population as a histogram” στον «Κώδικα 7»
τυπώνει το (μη-κυρτό) ιστόγραμμα που φαίνεται στο Σχήμα Α.3(α). Το λογισμικό ακριβώς κάτω από το
σχόλιο “plot a population as a IN membership function” στον «Κώδικα 7» τυπώνει τον ΑΔ που φαίνεται στο
Σχήμα Α.3(β), ο οποίος έχει αναπαράσταση-συνάρτησης-συμμετοχής πάντα κυρτή εκ κατασκευής. Τέλος, το
λογισμικό ακριβώς κάτω από το σχόλιο “plot a population as a IN set of a-cuts” στον «Κώδικα 7» τυπώνει
στο Σχήμα Α.3(γ) τον προαναφερθέντα ΑΔ σε μορφή αναπαράστασης-διαστημάτων.
Ο «Κώδικας 8» σε MATLAB υπολογίζει έναν ΑΔ από αριθμητικά δείγματα, τα οποία βρίσκονται
αποθηκευμένα στο διάστημα “x”. Συγκεκριμένα, υπολογίζεται ένας ΑΔ σε μορφή αναπαράστασης-
συνάρτησης-συμμετοχής με τις τετμημένες να τοποθετούνται στο διάστημα “pts” και τις τεταγμένες να
τοποθετούνται στο διάστημα “val”. Σημειώστε ότι o «Κώδικας 8» υλοποιεί μια μορφή του αλγόριθμου
CALCIN.
Ο «Κώδικας 9» σε MATLAB υπολογίζει έναν ΑΔ από μορφή αναπαράστασης-συνάρτησης-
συμμετοχής με τετμημένες αποθηκευμένες στο διάνυσμα “pts” και τεταγμένες αποθηκευμένες στο διάνυσμα
“val” σε μορφή αναπαράστασης-διαστημάτων σε L διαστήματα (α-διατομές) για ισαπέχουσες τιμές στο
διάστημα τετμημένων [0,1].

Κώδικας 7 Υπολογισμός ενός ΑΔ από μια κατανομή (αριθμητικών) δειγμάτων


clear all
clc

%Preprocessing: Load the data


load area20050301_7a.txt
population1= area20050301_7a;
step= 2;
width= 50;
[pts1, val1] = fin(population1);
L= 32;
[level, acuts1]= in(pts1, val1, L);

whitebg('w')
figure(1)

%plot a population as a histogram


CDF= [];
for i = 0:1:width/step,
CDF= [CDF; sum(pts1<i*step)];
end
CDF;
dif= diff(CDF);
ppdf= (dif/max(CDF));

subplot(3,1,1);
x= step:step:width;

Α-21
bar(x-step/2,ppdf,0.8,'w');
grid;
axis([0 width 0 0.25]);
set(gca,'XTick',[0:step:width]);
set(gca,'YTick',0:0.05:0.25);

%plot a population as a IN membership function


subplot(3,1,2);
plot(pts1,val1,'k-');
grid;
axis([0 width 0 1.2]);
set(gca,'XTick',[0:step:width]);
set(gca,'YTick',0:0.2:1);

%plot a population as a IN set of a-cuts


subplot(3,1,3);
for i = 1:1:L,
plot([acuts1(i,1) acuts1(i,2)],[level(i) level(i)],'k-');
hold on;
% grid;
end
grid;
axis([0 width 0 1.2]);
set(gca,'XTick',[0:step:width]);
set(gca,'YTick',0:0.2:1);

0.25
0.2
0.15
(α)
0.1
0.05
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50

1
0.8
0.6 (β)
0.4
0.2
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50

1
0.8
0.6 (γ)
0.4
0.2
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50

Σχήμα A.3 (α) Το (μη-κυρτό) ιστόγραμμα μιας κατανομής δειγμάτων. (β) Αναπαράσταση-συνάρτησης-συμμετοχής (πάντα
κυρτή, εκ κατασκευής) ενός ΑΔ, ο οποίος υπολογίστηκε από την παραπάνω κατανομή σύμφωνα με τον αλγόριθμο CALCIN.
(γ) Αναπαράσταση-διαστημάτων του προαναφερθέντος ΑΔ.

Α-22
Κώδικας 8 Μια υλοποίηση του αλγόριθμου CALCIN για τον υπολογισμό ενός
ΑΔ από μια κατανομή (αριθμητικών) δειγμάτων
function [pts, val] = fin(x)
%[pts, val] = fin(x) computes a FIN out of a (real number) data
population vector 'x'
%Column vector 'pts' returns the (FIN's) domain points
%Column vector 'val' returns the values on the domain points

epsilon= 0.000001; %used to produce nearby copies of identical numbers

% The following lines "arrange" such that there are no identical points
in vector 'x' by adding a small positive (real) number where appropriate
%
x= sort(x);
if min(abs(diff(x))) == 0, %condition for identifying identical numbers
for i=1:length(x),
j= i+1;
while (j <= length(x))&(x(i) == x(j)),
x(j)= x(i) + epsilon;
j= j+1;
end %while
end %for
end %if

% Next, the FIN which corresponds to vector 'x' is calculated


pts= [median(x)];
x_left= x(find(x<median(x)));
x_right= x(find(x>median(x)));
data=[x_left; x_right];

while length( data(1,:) ) ~= 1,


[M,N]= size(data);
rslt= [];
for i=1:M,
x= data(i,:);
pts= [pts; median(x)];
x_left= x(find(x<median(x)));
x_right= x(find(x>median(x)));
rslt=[rslt; x_left; x_right];
end
data= rslt;
end

pts= [pts; data];


pts= sort(pts);
step= power(2, -(log2(length(pts)+1)-1) );
val= [];
for i= 1:ceil(length(pts)/2),
val= [val; i*step];
end
flipped= flipud(val);
val= [val; flipped(2:length(flipped),:)];

Α-23
Κώδικας 9 Υπολογισμός ενός ΑΔ σε μορφή αναπαράστασης-διαστημάτων από
τον (ίδιο) ΑΔ σε μορφή αναπαράστασης-συνάρτησης-συμμετοχής
function [level, acuts] = in(pts, val, L)
% [level, acuts] = in(pts, val, L) computes a IN in terms of its acuts
([ah, bh]) per level
% Column vector 'pts' includes the x-
values of a FIN membership function
% Column vector 'val' includes the y-
values of a FIN membership function
% Integer number 'L' is the number of a-
cut levels

epsilon = 0.000001;

%preprocess so as to create the desired a-cut levels


dmy= linspace(0,1,1+L)';
level= dmy(2:1:1+L);

%if necessary, we augment vectors pts and val at both ends, so as


%the corresponding IN starts from zero
if val(1)> 0
dmy1= pts(1) - (pts(2)-pts(1))*val(1)/(val(2)-val(1));
n= length(pts);
dmy2= pts(n) + (pts(n)-pts(n-1))*val(n)/(val(n-1)-val(n));

pts= [dmy1; pts; dmy2];


val= [0; val; 0];
end

%it follows the main loop that computes a-cuts, one at a loop
acuts = [];
for i = 1:1:L,
indices= find(level(i)-epsilon <= val);
minIndex= min(indices);
maxIndex= max(indices);

ah= pts(minIndex) - (pts(minIndex)-pts(minIndex-1))*(val(minIndex)-


level(i))/(val(minIndex)-val(minIndex-1));
bh= pts(maxIndex) + (pts(maxIndex+1)-pts(maxIndex))*(val(maxIndex)-
level(i))/(val(maxIndex)-val(maxIndex+1));
acuts= [acuts; ah bh];
end

Α-24
Από την ανάλυση στο Επίπεδο-1, αναφορικά με το πλέγμα (Ι1,⊑) των διαστημάτων Τ1 γνωρίζουμε
ότι μια μετρική (συνάρτηση) δίδεται από την Εξ.(9.1): d1([a,b],[c,e])= [v((ac))-v((ac))] + [v(be)-v(be)]
= d(θ(a),θ(c)) + d(b,e). Μια επιλογή του ζεύγους συναρτήσεων θ(.) και v(.) είναι θ(x)= -x και v(.), ώστε v(x)=
-v(-x), οπότε προκύπτει η L1 (Hamming) μετρική d1([a,b],[c,e])= |a-c| + |b-e|. Συνεπώς, η απόσταση μεταξύ
των τετριμμένων διαστημάτων [a,a] και [b,b], τα οποία αναπαριστάνουν τους αριθμούς a και b, υπολογίζεται
να είναι d1([a,a],[b,b])= |a-b| + |a-b|= 2|a-b|. Προκειμένου η συνάρτηση d1(.,.) να υπολογίζει την
(αναμενόμενη) απόσταση |a-b| μεταξύ των αριθμών a και b, μπορούμε να εισαγάγουμε το συντελεστή 0.5
στην Εξ.(9.1). Προφανώς η χρήση της εξίσωσης d1([a,b],[c,e])= 0.5[d(θ(a),θ(c))+d(b,e)] μπορεί να γενικευτεί
για μη-τετριμμένα διαστήματα [a,b] και [c,e], καθώς και για συναρτήσεις θ(x) ≠ -x και v(x) ≠ -v(-x).
Έστω τα ακόλουθα τρία ζεύγη ΑΔ: E1 και E2 , F1 και F2 , G1 και G2 με συναρτήσεις βαθμού
συμμετοχής σχήματος ισοσκελών τριγώνων όπως φαίνεται στο Σχήμα Α.4. Συγκεκριμένα, η συνάρτηση του
 x  2, αν 2  x  3  x  7, αν 7  x  8
 
ΑΔ E1 είναι e1  x    x  4, αν 3  x  4 , του ΑΔ E2 είναι e2  x    x  9, αν 8  x  9 , του ΑΔ F1
 0, διαφορετικά  0, διαφορετικά
 
 0.5 x  0.5, αν 1  x  3  0.5 x  3, αν 6  x  8
 
είναι f1  x   0.5 x  2.5, αν 3  x  5 , του ΑΔ F2 είναι f 2  x   0.5 x  5, αν 8  x  10 , του ΑΔ G1
 0, διαφορετικά  0, διαφορετικά
 
 0.334 x, αν 0  x  3  0.334 x  1.667 αν 5  x  8
 
είναι g1  x   0.334 x  2, αν 3  x  6 , και του ΑΔ G2 είναι g 2  x   0.334 x  3.667 αν 8  x  11 .
 0, διαφορετικά  0, διαφορετικά
 

1 E1 E2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 ( ) 6 7 8 9 10 11

1 F1 F2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 () 6 7 8 9 10 11

1 G1 G2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9 10 11
()

Σχήμα A.4 ΑΔ με συναρτήσεις βαθμού συμμετοχής σχήματος ισοσκελών τριγώνων.

Α-25
Για ( E1 )h = [ah , bh ] και ( E2 )h = [ch , dh ] υπολογίστηκαν ah  h  2 , bh  4  h , ch  h  7 ,
dh  9  h . Για ( F1 )h = [ah , bh ] και ( F2 )h = [ch , dh ] υπολογίστηκαν ah  2h  1 , bh  5  2h , ch  2h  6 ,
dh  10  2h . Για (G1 )h = [ah , bh ] και (G2 )h = [ch , dh ] υπολογίστηκαν ah  3h , bh  6  3h , ch  3h  5 ,
dh  11  3h .

Στη συνέχεια υπολογίζονται μετρικές αποστάσεις καθώς και βαθμοί διάταξης για διάφορες επιλογές
των συναρτήσεων (.) και v(.).
Πρώτον, στο πλήρες πλέγμα (L  [0,11], ) έστω ότι επιλέγουμε τις συναρτήσεις ( x)  11  x και
v( x)  x . Επαληθεύουμε ότι για τη συνάρτηση θ(.) ισχύουν οι δύο απαιτήσεις (o  0)  11  i και
(i  11)  0  o , ενώ για τη συνάρτηση v(.) αντίστοιχα ισχύουν οι δύο απαιτήσεις v(o  0)  0 και
v(i  11)  11   . Συνεπώς, για τους ΑΔ E1 και E2 προκύπτουν:

1
D1 ( E1 , E2 )  0.5* 10dh  5 .
0

13  2h
1
 ( E1 , E2 )   18  2h dh =  ( E2 , E1 ) .
0

Για τον υπολογισμό του προηγούμενου ολοκληρώματος με MATLAB δημιουργούμε αρχείο ASCII
με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= y= (13 - 2*h)./(18 - 2*h)

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:

ans =
0.7055

Εξαιτίας της μη-επικάλυψης των ΑΔ E1 και E2 προκύπτει  ( E1 , E2 )  0   ( E2 , E1 ) .

Για τους ΑΔ F1 και F2 προκύπτουν:

1
D1 ( F1 , F2 )  0.5* 10dh  5
0

15  4h
1
 ( F1 , F2 )   20  4h dh   ( F2 , F1 )
0

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= (15 - 4*h)./(20 - 4*h)

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.7211

Α-26
Εξαιτίας της μη-επικάλυψης των ΑΔ F1 και F2 προκύπτει  ( F1 , F2 )  0   ( F2 , F1 ) .

Για τους ΑΔ G1 και G2 προκύπτουν:

1
D1 (G1 , G2 )  0.5* 10dh  5
0

17  6h
1
 (G1 , G2 )   22  6h dh =  (G2 , G1 )
0
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= (17 - 6*h)./(22 - 6*h)

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.7346
12  6h
1/ 6
 (G1 , G2 )   dh   (G2 , G1 ) .
0
17  6h
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= (12 - 6*h)./(17 - 6*h)

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1/6)” και
παίρνουμε το εξής αποτέλεσμα:
ans =
0.1161

Δεύτερον, στο πλήρες πλέγμα (R, ) έστω ότι επιλέγουμε τις συναρτήσεις ( x)   x και
v( x)  1/ (1  e( x 3) ) , όπου η τελευταία (σιγμοειδής) συνάρτηση δείχνεται στο Σχήμα Α.5. Επαληθεύουμε ότι
για τη συνάρτηση θ(.) ισχύουν οι δύο απαιτήσεις (o  )    i και (i  )    o , ενώ για την
συνάρτηση v(.) αντίστοιχα ισχύουν οι δύο απαιτήσεις v(o  )  0 και v(i  )  1   . Συνεπώς, για
τους ΑΔ E1 και E2 προκύπτουν:

0.9

0.7

0.5

0.3

0.1

-5 -3 -1 1 3 5 7 9 11

1
Σχήμα A.5 Η γνησίως αύξουσα (σιγμοειδής) συνάρτηση v( x)  .
1  e ( x 3)

Α-27
1
 1 1 1 1 
D1 ( E1 , E2 )  0.5*   h 5
 h 10
 h 6
  dh
0 1 e 1 e 1 e 1  eh 1 

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= 0.5*(1./(1+exp(h+5)) - 1./(1+exp(h+10)) + 1./(1+exp(h-6)) - 1./(1+exp(h-1)))

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμαQ

ans =
0.1899
1 1
1 h 10

 ( E1 , E2 )   1  e 1  e h 6 dh
1 1
0
h 5

1 e 1  e h 6

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= (1./(1+exp(h+10)) + 1./(1+exp(h-6)))./(1./(1+exp(h+5)) + 1./(1+exp(h-6)))

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:

ans =
0.9958
1 1
1 h5

 ( E2 , E1 )   1  e 1  e h 1 dh
1 1
0
h 5

1 e 1  e h 6

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= (1./(1+exp(h+5)) + 1./(1+exp(h-1)))./(1./(1+exp(h+5)) + 1./(1+exp(h-6)))

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:

ans =
0.6242

Εξαιτίας της μη-επικάλυψης των ΑΔ E1 και E2 προκύπτει  ( E1 , E2 )  0   ( E2 , E1 ) .

Για τους ΑΔ F1 και F2 προκύπτουν:


1
 1 1 1 1 
D1 ( F1 , F2 )  0.5*   2h4
 2 h 9
 2 h 7
 2h2 
dh
0 1 e 1 e 1 e 1 e 

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

Α-28
function y = func(h)
y= 0.5*(1./(1+exp(2*h+4)) - 1./(1+exp(2*h+9)) + 1./(1+exp(2*h-7)) - 1./(1+exp(2*h-2)))

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:

ans =
0.1440
1 1
1 2 h 9

 ( F1 , F2 )   1  e 1  e2 h 7 dh
1 1
0 
1  e 2 h  4 1  e 2 h 7

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= (1./(1+exp(2*h+9)) + 1./(1+exp(2*h-7)))./(1./(1+exp(2*h+4)) + 1./(1+exp(2*h-7)))

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:

ans =
0.9923
1 1
1 2h4

 ( F2 , F1 )   1  e 1  e 2 h 3 dh
1 1
0 
1  e 2 h  4 1  e 2 h 7

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= (1./(1+exp(2*h+4)) + 1./(1+exp(2*h-3)))./(1./(1+exp(2*h+4)) + 1./(1+exp(2*h-7)))

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:

ans =
0.8709

Εξαιτίας της μη-επικάλυψης των ΑΔ F1 και F2 προκύπτει  ( F1 , F2 )  0   ( F2 , F1 ) .

Για τους ΑΔ G1 και G2 προκύπτουν:

1
 1 1 1 1 
D1 (G1 , G2 )  0.5*   3h  3
 3 h 8
 3h 8
 3 h 3 
dh
0 1 e 1 e 1 e 1 e 

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= 0.5*(1./(1+exp(3*h+3)) - 1./(1+exp(3*h+8)) + 1./(1+exp(3*h-8)) - 1./(1+exp(3*h-3)))

Α-29
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:

ans =
0.1140
1 1
1 3 h 8

 (G1 , G2 )   1  e 1  e3h 8 dh
1 1
0
3h 3

1 e 1  e3h 8

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= (1./(1+exp(3*h+8)) + 1./(1+exp(3*h-8)))./(1./(1+exp(3*h+3)) + 1./(1+exp(3*h-8)))

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:

ans =
0.9851
1 1
1 3h 3

 (G2 , G1 )   1  e 1  e3h 3 dh
1 1
0
3h  3

1 e 1  e 3 h 8

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= (1./(1+exp(3*h+3)) + 1./(1+exp(3*h-3)))./(1./(1+exp(3*h+3)) + 1./(1+exp(3*h-8)))

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:

ans =
0.7885
1 1
1/6 3 h 8

1 e 1  e3h 3 dh
 (G1 , G2 )   1 1
0
3h  3

1 e 1  e3 h  3

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= (1./(1+exp(3*h+8)) + 1./(1+exp(3*h-3)))./(1./(1+exp(3*h+3)) + 1./(1+exp(3*h-3)))

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1/6)” και
παίρνουμε το εξής αποτέλεσμα:

ans =
0.1603

Α-30
1 1
1/6 3h 8

1 e 1  e3h 3 dh
 (G2 , G1 )   1 1
0
3h 8

1 e 1  e 3 h 8

Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:

function y = func(h)
y= (1./(1+exp(3*h+8)) + 1./(1+exp(3*h-3)))./(1./(1+exp(3*h+8)) + 1./(1+exp(3*h-8)))

Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1/6)” και
παίρνουμε το εξής αποτέλεσμα:

ans =
0.1566

Τα παραπάνω παραδείγματα έδειξαν ότι για δύο ΑΔ, έστω F και E, με συμμετρικές (βλ. ισοσκελείς)
συναρτήσεις συμμετοχής η απόσταση D1(F,E) δεν επηρεάζεται με τη μεταβολή του εύρους της βάσης, όταν
οι συναρτήσεις (.) και v(.) είναι γραμμικές. Σε διαφορετική περίπτωση τόσο η απόσταση D1(F,E), όσο και
βαθμός διάταξης σ(F,E) εξαρτώνται από τις συναρτήσεις (.) και v(.). Συνεπώς, οι συναρτήσεις (.) και v(.)
μπορούν να χρησιμεύσουν για τη ρύθμιση τόσο της απόστασης D1(F,E), όσο και του βαθμού διάταξης
σ(F,E).

Βιβλιογραφία
Fisher, R.A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2), 179-
188.
Mostapha Kalami Heris, S. (2015). Yarpiz. (www.yarpiz.com).

Α-31
Παράρτημα Β:
Στατιστική Αξιολόγηση Μοντέλων Υπολογιστικής Νοημοσύνης
Από την Εισαγωγή αυτού του βιβλίου γνωρίζουμε ότι, από τεχνική άποψη, μια τυπική μεθοδολογία ΥΝ
υλοποιεί μια συνάρτηση f: RNT, όπου το πεδίο ορισμού R είναι το σύνολο των πραγματικών αριθμών, ενώ
το πεδίο τιμών T μπορεί να είναι είτε T= RΜ (σε προβλήματα παλινδρόμησης), είτε ένα σύνολο από ετικέτες
(σε προβλήματα αναγνώρισης). Σε κάθε περίπτωση, υπάρχει ανάγκη αξιολόγησης ενός μοντέλου ΥΝ μέσω
της σύγκρισής του με ένα εναλλακτικό μοντέλο (Devijver & Kittler, 1982). Για το σκοπό αυτό έχει οριστεί
ένας αριθμός στατιστικών τεχνικών αξιολόγησης, κάποιες από τις οποίες παρουσιάζονται στη συνέχεια.
Η απλή αξιολόγηση (holdout validation) είναι η απλούστερη τεχνική αξιολόγησης, η οποία
περιλαμβάνει μόνο έναν υπολογιστικό κύκλο. Συγκεκριμένα, σε κάποιες περιπτώσεις ένα σύνολο δεδομένων
δίδεται διαμερισμένο σε ένα υποσύνολο δεδομένων εκπαίδευσης (training data set) και ένα υποσύνολο
δεδομένων εξέτασης (testing data set). Ενώ όταν δε δίδεται συγκεκριμένος διαμερισμός ενός συνόλου
δεδομένων, τότε χρησιμοποιείται ένας (τυχαίος) διαμερισμός, όπου τουλάχιστον το 70% των δεδομένων
επιλέγονται τυχαία και αποτελούν το υποσύνολο εκπαίδευσης, ενώ όλα τα υπόλοιπα δεδομένα αποτελούν το
υποσύνολο εξέτασης. Σε κάθε περίπτωση ο σκοπός είναι η εκπαίδευση ή, ισοδύναμα, η μάθηση, έτσι ώστε να
προκύψει μια αποδεκτή ικανότητα γενίκευσης. Η ικανότητα γενίκευσης ορίζεται είτε ως το ποσοστό επιτυχών
ταξινομήσεων σε προβλήματα αναγνώρισης, είτε ως το σφάλμα ελαχίστων τετραγώνων (ΣΕΤ) (least
squares error (LSE)) σε προβλήματα παλινδρόμησης, πάντα αναφορικά με το υποσύνολο εξέτασης, το
οποίο σε κάθε περίπτωση παρουσιάζεται μόνο μία φορά.
Το υποσύνολο εκπαίδευσης μπορεί και αυτό να διαμεριστεί σε δύο υποσύνολα εκ των οποίων το ένα
χρησιμοποιείται αποκλειστικά για εκτίμηση των παραμέτρων του μοντέλου, ενώ το άλλο (βλ. υποσύνολο
δεδομένων αξιολόγησης (validation data set)) χρησιμοποιείται για να περιοριστούν προβλήματα
αποστήθισης, τα οποία χαρακτηρίζονται από καλή εκμάθηση των δεδομένων εκπαίδευσης αλλά κακή
ικανότητα γενίκευσης στα δεδομένα εξέτασης. Σημειώστε ότι προβλήματα αποστήθισης τυπικά εμφανίζονται,
όταν το υποσύνολο εκπαίδευσης είναι μικρό ή/και όταν ο αριθμός παραμέτρων του μοντέλου είναι μεγάλος.
Προκειμένου να ποσοτικοποιηθεί η μεταβλητότητα (variability) της ικανότητας γενίκευσης ενός
μοντέλου, μια απλή αξιολόγηση μπορεί να επαναληφθεί πολλές φορές, όπως περιγράφεται στη συνέχεια.
Η σταυρωτή αξιολόγηση (cross validation) είναι μια τεχνική αξιολόγησης πολλών υπολογιστικών
κύκλων, η οποία αποτιμά την ικανότητα γενίκευσης ενός μοντέλου εφαρμόζοντας μια απλή αξιολόγηση ανά
υπολογιστικό κύκλο. Τελικά, η ικανότητα γενίκευσης μιας τεχνικής σταυρωτής αξιολόγησης ορίζεται ως
(σταθμισμένος) μέσος όρος της ικανότητας γενίκευσης κάθε απλής αξιολόγησης ανά υπολογιστικό κύκλο.
Δημοφιλείς τύποι σταυρωτής αξιολόγησης είναι οι ακόλουθοι.
H εξαντλητική (exhaustive) σταυρωτή αξιολόγηση αξιολογεί όλους τους δυνατούς διαμερισμούς
ενός συνόλου δεδομένων σε ένα υποσύνολο εκπαίδευσης και ένα υποσύνολο εξέτασης. Aξιολογεί πλήρως
ένα μοντέλο αναφορικά με ένα συγκεκριμένο σύνολο δεδομένων, αλλά τυπικά έχει μεγάλο «υπολογιστικό
κόστος» εξαιτίας των πολλών διαμερισμών που υπάρχουν για ένα σύνολο δεδομένων. Γι’ αυτόν τον λόγο
χρησιμοποιούνται μη-εξαντλητικές τεχνικές σταυρωτής αξιολόγησης, όπως περιγράφεται στη συνέχεια.
Η άσε-k-έξω (leave-k-out) σταυρωτή αξιολόγηση επιλέγει k (από συνολικά n) δεδομένα ως το
υποσύνολο εξέτασης, ενώ τα υπόλοιπα n-k δεδομένα αποτελούν το υποσύνολο εκπαίδευσης ενός
n n!
υπολογιστικού κύκλου. Συνολικά, επαναλαμβάνονται Ckn     υπολογιστικοί κύκλοι για
k  k !( n  k )!
όλους τους δυνατούς τρόπους που k δεδομένα μπορούν να επιλεγούν από n δεδομένα. Σημειώστε ότι για
μεγάλες τιμές του n ο συνολικός αριθμός Ckn των υπολογιστικών κύκλων γίνεται τόσο μεγάλος, ώστε δεν
είναι πρακτικά εφικτή η εκτέλεση όλων των υπολογισμών. Σ’ αυτήν την περίπτωση λέμε ότι το
«υπολογιστικό κόστος» είναι μεγάλο. Η άσε-1-έξω (leave-1-out) σταυρωτή αξιολόγηση είναι μια ειδική
περίπτωση της άσε-k-έξω σταυρωτής αξιολόγησης για k=1. Έπεται ότι C1n  n, συνεπώς το σύνολο των
υπολογισμών είναι εφικτό, διότι οι υπολογισμοί είναι σχετικά λίγοι. Σ’ αυτήν την περίπτωση λέμε ότι το
«υπολογιστικό κόστος» είναι μικρό.
Ακόμη και η άσε-k-έξω σταυρωτή αξιολόγηση, η οποία αξιολογεί μόνον εκείνους τους διαμερισμούς
που περιλαμβάνουν ακριβώς k δεδομένα στο υποσύνολο εξέτασης, μπορεί να έχει μεγάλο «υπολογιστικό
κόστος». Περαιτέρω απλοποιήσεις εφαρμόζονται προκειμένου να αποτιμάται γρήγορα (και αξιόπιστα) η

Β-1
ικανότητα γενίκευσης ενός μοντέλου. Συγκεκριμένα, θεωρούμε ότι η άσε-k-έξω σταυρωτή αξιολόγηση
υπολογίζει μια αξιόπιστη ικανότητα γενίκευσης, την οποία επιδιώκουμε να προσεγγίσουμε με μη-
εξαντλητικές τεχνικές σταυρωτής αξιολόγησης, μερικές από τις οποίες παρουσιάζονται στη συνέχεια.
Η k-πλή (k-fold) σταυρωτή αξιολόγηση διαμερίζει (τυχαία) το σύνολο δεδομένων σε k υποσύνολα
περίπου ίσης πληθικότητας το καθένα. Από τα προαναφερθέντα k υποσύνολα, ένα χρησιμοποιείται ως
υποσύνολο εξέτασης, ενώ η συνολοθεωρητική ένωση των υπόλοιπων k-1 υποσυνόλων χρησιμοποιείται ως
υποσύνολο εκπαίδευσης. Συνολικά εκτελούνται k υπολογιστικοί κύκλοι, έτσι ώστε με τη σειρά κάθε ένα από
τα k υποσύνολα να χρησιμοποιείται ως υποσύνολο εξέτασης. Το πλεονέκτημα αυτής της τεχνικής
αξιολόγησης, συγκριτικά με την τεχνική της επαναλαμβανόμενης αξιολόγησης τυχαίας δειγματοληψίας (βλ.
παρακάτω) είναι ότι κάθε δεδομένο εγγυημένα χρησιμοποιείται τόσο για εκπαίδευση, όσο και για εξέταση.
Μάλιστα για εξέταση χρησιμοποιείται ακριβώς μια φορά. Η παράμετρος k μπορεί να λάβει οποιαδήποτε
(θετική) ακέραια τιμή. H πλέον δημοφιλής επιλογή σε πρακτικές εφαρμογές (McLachlan κ.ά., 2004) είναι k =
10. Για k = 1 η k-πλή σταυρωτή αξιολόγηση ταυτίζεται με την άσε-1-έξω σταυρωτή αξιολόγηση.
H επαναλαμβανόμενη αξιολόγηση τυχαίας δειγματοληψίας (repeated random sub-sampling
validation) διαμερίζει τυχαία το σύνολο των δεδομένων σε ένα υποσύνολο εξέτασης προκαθορισμένης
πληθικότητας, έστω k, και σε ένα υποσύνολο εκπαίδευσης. Στη συνέχεια πραγματοποιείται μια απλή
αξιολόγηση και υπολογίζεται η ικανότητα γενίκευσης του μοντέλου. Ο προαναφερθείς υπολογιστικός κύκλος
επαναλαμβάνεται για προκαθορισμένες φορές. Ως τελικό αποτέλεσμα υπολογίζεται ο μέσος όρος των
(μερικών) αποτελεσμάτων του συνόλου των υπολογιστικών κύκλων. Από τη μια πλευρά το πλεονέκτημα
αυτής της τεχνικής συγκριτικά με την k-πλή σταυρωτή αξιολόγηση είναι ότι η αναλογία δεδομένων
εκπαίδευσης-εξέτασης δεν εξαρτάται από τον αριθμό των υπολογιστικών κύκλων. Από την άλλη πλευρά το
μειονέκτημα αυτής της τεχνικής είναι ότι κάποια δεδομένα μπορεί να μην επιλεγούν ποτέ για εξέταση, ενώ
κάποια άλλα μπορεί να επιλεγούν περισσότερες από μία φορές. Όταν ο αριθμός των υπολογιστικών κύκλων
αυξάνει, τότε το αποτέλεσμα αυτής της τεχνικής τείνει στο αποτέλεσμα της άσε-k-έξω σταυρωτής
αξιολόγησης.
Τεχνικές σταυρωτής αξιολόγησης μπορούν ακόμα να χρησιμοποιηθούν για εξαγωγή χαρακτηριστικών
σε ένα πρόβλημα, όπως περιγράφεται στο επόμενο παράδειγμα. Συγκεκριμένα, έστω ότι είναι διαθέσιμες 20
μεταβλητές χαρακτηριστικών πρωτεϊνών με σκοπό την πρόβλεψη της ανταπόκρισης ενός (βιολογικού)
οργανισμού σε ένα συγκεκριμένο φάρμακο. Ο προσδιορισμός του βέλτιστου υποσυνόλου των 20
προαναφερθέντων μεταβλητών για βέλτιστη πρόβλεψη αποτελεί ένα πρόβλημα εξαγωγής χαρακτηριστικών,
το οποίο μπορεί να λυθεί με τεχνικές σταυρωτής αξιολόγησης.
Μια τεχνική σταυρωτής αξιολόγησης εφαρμόζεται δοθείσης μιας μεθόδου πρόβλεψης, π.χ. ενός
μοντέλου ΥΝ, που χρησιμοποιείται ως «μαύρο κουτί», χωρίς να είναι απαραίτητη η γνώση της λειτουργίας
της. Σημειωτέον ότι η εφαρμογή μιας τεχνικής σταυρωτής αξιολόγησης καταλήγει σε χρήσιμα αποτελέσματα
μόνον όταν το υποσύνολο εξέτασης έχει επιλεγεί από τον ίδιο πληθυσμό σύμφωνα με την ίδια κατανομή
πιθανότητας, όπως και το υποσύνολο εκπαίδευσης.
Έστω ότι θέλουμε να αποτιμήσουμε την ικανότητα γενίκευσης ενός μοντέλου και χρησιμοποιούμε
μια τεχνική σταυρωτής αξιολόγησης για να υπολογίσουμε μια εκτίμηση F* της μέσης τιμής (expected value)
EF της ικανότητας γενίκευσης του μοντέλου. Έχει ενδιαφέρον ο υπολογισμός στατιστικών ιδιοτήτων της
τιμής F* όπως εξηγείται στη συνέχεια.
Η τιμή F* μιας τεχνικής σταυρωτής αξιολόγησης αποτελεί μια σχεδόν αμερόληπτη (unbiased)
εκτίμηση της μέσης τιμής EF. Ο λόγος για τη (σχεδόν) αμεροληψία είναι ότι το υποσύνολο εκπαίδευσης είναι
λίγο μικρότερο από το συνολικό πληθυσμό. Συγκεκριμένα, για την τεχνική άσε-1-έξω σταυρωτή αξιολόγηση,
το υποσύνολο εκπαίδευσης περιλαμβάνει n-1 από τα συνολικά n δεδομένα. Ωστόσο, η στατιστική διασπορά
του F* μπορεί να είναι μεγάλη (Efron & Tibshirani, 1997· Stone, 1977). Για αυτόν τον λόγο σημειώνουμε ότι
όταν συγκρίνονται δύο μοντέλα χρησιμοποιώντας μια τεχνική σταυρωτής αξιολόγησης, το μοντέλο το οποίο
θα δώσει το καλύτερο αποτέλεσμα μπορεί να μην έχει την καλύτερη μέση τιμή EF. Ήδη έχει δημοσιευτεί
κάποια πρόοδος σχετικά με τον υπολογισμό διαστημάτων εμπιστοσύνης (confidence intervals) της τιμής
του F* (Efron & Tibshirani, 1997), αλλά η εύρεση του βέλτιστου μοντέλου με τη χρήση μιας τεχνικής
σταυρωτής αξιολόγησης θεωρείται δύσκολο πρόβλημα.
Πέραν των τεχνικών σταυρωτής αξιολόγησης έχουν παρουσιαστεί συγκριτικά, επιπλέον στατιστικές
τεχνικές αξιολόγησης (Kohavi, 1995), μερικές από τις οποίες συνοψίζονται στη συνέχεια.
Η δειγματοθέτηση (bootstrap) είναι μια δημοφιλής τεχνική για την εκτίμηση χαρακτηριστικών μιας
στατιστικής (π.χ. για την εκτίμηση της διασποράς της στατιστικής του μέσου όρου δείγματος) με τον
υπολογισμό των προαναφερθέντων χαρακτηριστικών στη βάση ενός συνόλου ληφθέντων δειγμάτων (Efron,

Β-2
1979· Efron & Tibshirani, 1993). Συγκεκριμένα, θεωρώντας ότι τα ληφθέντα δείγματα αντιστοιχούν σε
ανεξάρτητες και απαράλλακτα κατανεμημένες τυχαίες μεταβλητές, η πρακτική είναι να επιλεγεί (με
επανατοποθέτηση) πολλές φορές από τα ληφθέντα δείγματα ίδιος αριθμός δειγμάτων με τον αριθμό των
αρχικά ληφθέντων δειγμάτων, όπως περιγράφεται στα ακόλουθα δύο παραδείγματα.
Πρώτο παράδειγμα. Έστω ότι μας ενδιαφέρει να υπολογίσουμε το μέσο όρο του ύψους όλων των
ανθρώπων. Επειδή δεν είναι εφικτή η καταγραφή του ύψους κάθε ανθρώπου πάνω στη γη σε μια
συγκεκριμένη χρονική στιγμή, αρκούμαστε στην λήψη ενός δείγματος μεγέθους N. Δηλαδή, μετρούμε το
ύψος N ανθρώπων επιλεγμένων ομοιόμορφα τυχαία από το σύνολο όλων των ανθρώπων. Από το ληφθέν
δείγμα μπορούμε να εκτιμήσουμε τον παγκόσμιο μέσο όρο υπολογίζοντας το μέσο όρο των N
καταγεγραμμένων υψών. Προκειμένου να λάβουμε χρήσιμες αποφάσεις ποσοτικοποιούμε τη μεταβλητότητα
του υπολογισθέντος μέσου όρου, όπως περιγράφεται στη συνέχεα. Η απλούστερη τυχαία δειγματοληψία με
επανατοποθέτηση, η οποία καλείται επανα-δειγματοληψία (re-sampling), αποφεύγει αυθαίρετες παραδοχές
περί κανονικότητας της κατανομής επιλέγοντας ομοιόμορφα τυχαία ένα δείγμα μεγέθους N από το σύνολο
των ήδη ληφθέντων N υψών ανθρώπων. Η προαναφερθείσα διαδικασία επαναλαμβάνεται πάρα πολλές φορές
(συνήθως 1.000 έως 10.000 φορές) και για κάθε δείγμα υπολογίζεται ο αντίστοιχος μέσος όρος, ο οποίος
καλείται εκτίμηση δείγματος (bootstrap estimate). Έτσι, προκύπτει ένα ιστόγραμμα όλων των εκτιμήσεων
δειγμάτων, από το οποίο μπορεί να υπολογιστεί η μεταβλητότητα της εκτίμησης δείγματος. H προηγούμενη
μέθοδος για το μέσο όρο μπορεί να επεκταθεί και σε οποιαδήποτε άλλη στατιστική.
Δεύτερο παράδειγμα. Έστω ένα πείραμα όπως το «στρίψιμο νομίσματος» με δύο τυχαία
αποτελέσματα, βλ. «κορώνα» και «γράμματα», τα οποία αναπαρίστανται με τους αριθμούς 0 και 1
αντίστοιχα. Έστω ότι εκτελούμε το πείραμα «στρίψιμο νομίσματος» 10 φορές και X= x1, x2,…, x10 είναι οι 10
παρατηρήσεις (0 ή 1) που καταγράφονται. Ο μέσος όρος των 10 πειραμάτων υπολογίζεται ως
1
x  ( x1  x2  ...  x10 ) . Μπορούμε να χρησιμοποιήσουμε τυχαία δειγματοληψία με επανατοποθέτηση
10
προκειμένου να υπολογίσουμε την κατανομή του x όπως περιγράφεται στη συνέχεια. Επιλέγουμε ένα τυχαίο
δείγμα X 1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Παρατηρήστε ότι πρώτον, το δείγμα X 1* περιέχει (και αυτό)
ακριβώς 10 δεδομένα και δεύτερον, στο δείγμα X 1* μπορεί κάποια δεδομένα να επαναλαμβάνονται
περισσότερες από μία φορές εξαιτίας της επανατοποθέτησής τους πριν τη δειγματοληψία. Στη συνέχεια
υπολογίζουμε το μέσο όρο, έστω 1* , του δείγματος X 1* . Επαναλαμβάνουμε την προηγούμενη διαδικασία και
επιλέγουμε τυχαία ένα νέο δείγμα, έστω X 2* , για το οποίο υπολογίζουμε τον αντίστοιχο μέσο όρο  2* . Μετά
από, έστω 100, επαναλήψεις της προαναφερθείσας διαδικασίας έχουμε υπολογίσει τους μέσους όρους 1* ,
 2* , …, 100
*
, οι οποίοι αποτελούν μια εμπειρική κατανομή (τυχαίας δειγματοληψίας με επανατοποθέτηση)
του μέσου όρου δείγματος. Από την προαναφερθείσα κατανομή μπορούμε να υπολογίσουμε ένα διάστημα
εμπιστοσύνης στο πλαίσιο ενός στατιστικού ελέγχου υποθέσεων (statistical hypothesis testing).

Βιβλιογραφία
Devijver, P.A. & Kittler, J. (1982). Pattern Recognition: A Statistical Approach. London, G.B.: Prentice-Hall.
Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The Annals of Statistics, 7(1), 1-26.
Efron, B. & Tibshirani, R. (1993). An Introduction to the Bootstrap. Boca Raton, FL: Chapman & Hall/CRC.
Efron, B. & Tibshirani, R. (1997). Improvements on cross-validation: The .632 + Bootstrap Method. J.
American Statistical Association, 92(438), 548-560.
Kohavi, R. (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. In:
Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence 2 (12): 1137-
1143. San Mateo, CA: Morgan Kaufmann.
McLachlan, G.J., Do, K.-A. & Ambroise, C. (2004). Analyzing Microarray Gene Expression Data. New
York, N.Y.: Wiley.
Stone, M. (1977). Asymptotics for and against cross-validation. Biometrika, 64(1), 29-35.

Β-3
Παράρτημα Γ:
Εφαρμογές της Υπολογιστικής Νοημοσύνης

Εδώ σκιαγραφούνται ενδεικτικά πεδία εφαρμογών ΥΝ και περιλαμβάνονται επιλεγμένες εφαρμογές των
συγγραφέων αυτού του βιβλίου. Συγκεκριμένα, η παρουσίαση διαρθρώνεται ανά πεδίο εφαρμογών ως
ακολούθως: (1) Μηχανική Μάθηση, (2) Αναγνώριση Προτύπων, (3) Επεξεργασία Προτύπων, (4) Πρόβλεψη,
(5) Αυτόματος Έλεγχος, (6) Συστήματα Στήριξης Αποφάσεων, και (7) Εξαγωγή Χαρακτηριστικών.
H Μηχανική Μάθηση και η Αναγνώριση Προτύπων είναι δημοφιλή πεδία εφαρμογών ΥΝ. Ωστόσο,
τα όρια μεταξύ των προαναφερθέντων πεδίων είναι δυσδιάκριτα. Ως διακριτικό χαρακτηριστικό της
Μηχανικής Μάθησης θεωρούμε την εξόρυξη γνώσης, ενώ ως διακριτικό χαρακτηριστικό της Αναγνώρισης
Προτύπων θεωρούμε την ικανότητα γενίκευσης κατά τη λήψη αποφάσεων. Σημειώστε ότι ως εξόρυξη
γνώσης εδώ ορίζουμε την ανακάλυψη αναπαραστάσεων γνώσης μέσα σε βάσεις δεδομένων, ενώ ως
Μηχανική Μάθηση ορίζουμε τη μελέτη αλγορίθμων οι οποίοι, βασιζόμενοι σε δεδομένα, βελτιώνουν την
ικανότητά τους να παρέχουν εκτιμήσεις στη βάση αναπαραστάσεων γνώσης που αναπτύσσουν.

Γ.1 Μηχανική Μάθηση


Πλήθος δημοσιεύσεων πραγματεύεται τη Μηχανική Μάθηση (Bishop, 2006· Shalev-Shwartz & Ben-David,
2014). Συγκεκριμένα, ιδιαίτερο ενδιαφέρον έχει η μεθοδολογία της εξαναγκασμένης μάθησης
(reinforcement learning) σύμφωνα με την οποία πράκτορες λογισμικού (software agents) λαμβάνουν τις
αποφάσεις που απαιτούνται με σκοπό να μεγιστοποιήσουν μια καλώς ορισμένη συνάρτηση «ανταμοιβής»
τους (Sutton & Barto, 1998). Αρκετές εφαρμογές Μηχανικής Μάθησης στην ΥΝ συνοψίζονται από τον
Kaburlasos (2006), όπου επίσης παρουσιάζονται πρωτότυπες εφαρμογές σε μη-αριθμητικά δεδομένα. Οι
εφαρμογές Μηχανικής Μάθησης μπορεί να είναι είτε πραγματικού χρόνου, όπως εφαρμογές μηχανικής
όρασης, είτε να αφορούν την επεξεργασία βάσεων δεδομένων.

Γ.2 Αναγνώριση Προτύπων


Η Αναγνώριση Προτύπων αφορά ποικίλες εφαρμογές, όπως ρομποτική όραση, επεξεργασία της φυσικής
γλώσσας, ανάκτηση περιεχομένου σε βάσεις δεδομένων κ.ά., όπου μπορούν να χρησιμοποιηθούν διάφορα
μοντέλα ΥΝ. Για παράδειγμα, γνωσιακοί χάρτες έχουν χρησιμοποιηθεί σε προβλήματα αναγνώρισης
ανθρώπινων συναισθημάτων (Salmeron, 2012), σε ιατρική διάγνωση (Papageorgiou, 2011), κ.ά. Αλγόριθμοι
εξελικτικού υπολογισμού, καθώς και φυσικού υπολογισμού, έχουν χρησιμοποιηθεί για την εκπαίδευση
κατηγοριοποιητών (Papakostas κ.ά., 2008) συχνά με σκοπό την αναγνώριση προτύπων (Jamshidi &
Kaburlasos, 2014· Kaburlasos κ.ά., 2013). Οι άγνωστοι του προβλήματος βελτιστοποίησης τυπικά είναι τα
βάρη διασύνδεσης των νευρώνων, ενώ η αντικειμενική συνάρτηση μπορεί να λάβει διάφορες μορφές, με
συνηθέστερη κάποιο ποσοστό αναγνώρισης. Επίσης, εξελικτικός υπολογισμός μπορεί να εφαρμοστεί για την
επιλογή μιας αποτελεσματικής αρχιτεκτονικής ΤΝΔ (Vonk κ.ά., 1997), διότι τυπικά δεν είναι γνωστό εκ των
προτέρων ποια αρχιτεκτονική είναι καταλληλότερη σε κάθε πρόβλημα.

Γ.3 Επεξεργασία Προτύπων


Έχουν παρουσιαστεί αλγόριθμοι εξελικτικού υπολογισμού σε προβλήματα υδατογράφησης εικόνων τόσο για
τη βελτιστοποίηση των παραμέτρων εισαγωγής του υδατογραφήματος, όσο και για την αύξηση της ευρωστίας
υδατογράφησης (Papakostas κ.ά., 2014). Ευρετικοί αλγόριθμοι ΥΝ έχουν εφαρμοστεί για κατασκευή
ψηφιακών φίλτρων (Rashedi κ.ά., 2011), καθώς και για εξαγωγή των ακμών μίας εικόνας (Nezamabadi-pour
κ.ά., 2006).

Γ.4 Πρόβλεψη
Πιθανοτικά μοντέλα ΥΝ έχουν χρησιμοποιηθεί για αναγνώριση ομιλίας και για άλλες εφαρμογές πρόβλεψης
χρονοσειρών (Petridis & Kehagias, 1998). Γνωσιακοί χάρτες έχουν επίσης χρησιμοποιηθεί σε πρόγνωση
χρονικών σειρών (Froelich & Salmeron, 2014).

Γ-1
Γ.5 Αυτόματος Έλεγχος
Σημαντική δουλειά έχει δημοσιευτεί για την εφαρμογή αλγορίθμων βελτιστοποίησης εμπνευσμένων από τη
φύση σε τομείς όπως: σχεδίαση συστημάτων μεγάλης κλίμακας (Akay & Karaboga, 2012), σχεδίαση
συστημάτων βέλτιστου ελέγχου (Jamshidi κ.ά., 2003) κ.ά. Γνωσιακοί χάρτες έχουν χρησιμοποιηθεί για
έλεγχο συστημάτων (Stylios & Groumpos, 2000· Kottas κ.ά., 2006), για μοντελοποίηση πολύπλοκων
συστημάτων (Rodriguez-Repiso κ.ά., 2007), καθώς και σε εφαρμογές γεωργίας ακριβείας (precision
farming) (Papageorgiou κ.ά., 2009).

Γ.6 Συστήματα Στήριξης Αποφάσεων


Η λήψη αποφάσεων είναι σημαντική σε όλα τα πεδία εφαρμογών ΥΝ. Οι γνωσιακοί χάρτες είναι ένα
ιδιαίτερα χρήσιμο εργαλείο για αναπαράσταση γνώσης εμπειρογνωμόνων και λήψη αποφάσεων (Liu & Satur,
1999· Xirogiannis κ.ά., 2004) κ.ά.

Γ.7 Εξαγωγή Χαρακτηριστικών


Η Εξαγωγή Χαρακτηριστικών εισόδου σε ένα μοντέλο ΥΝ είναι σημαντικό θέμα σε όλα τα πεδία εφαρμογών
ΥΝ. Για παράδειγμα, στο πεδίο αναγνώρισης προτύπων, ευρετικοί αλγόριθμοι ΥΝ έχουν χρησιμοποιηθεί για
την επιλογή των κατάλληλων χαρακτηριστικών διάκρισης, ώστε να επιτυγχάνεται υψηλό ποσοστό
ταξινόμησης και αναγνώρισης (Papakostas, 2015). Επίσης, η Εξαγωγή Χαρακτηριστικών είναι σημαντική σε
προβλήματα μοντελοποίησης συστημάτων (Papadakis κ.ά., 2005).

Βιβλιογραφία
Akay, B. & Karaboga, D. (2012). Artificial bee colony algorithm for large-scale problems and engineering
design optimization. J. of Intel. Manuf., 23(4) 1001-1014.
Bishop, C.M. (2006). Pattern Recognition and Machine Learning (Information Science and Statistics).
Heidelberg, Germany: Springer.
Froelich, W. & Salmeron, J.L. (2014). Evolutionary learning of fuzzy grey cognitive maps for the forecasting
of multivariate, interval-valued time series. International Journal of Approximate Reasoning, 55(6),
1319-1335.
Jamshidi, M., Coelho, L.D.S., Krohling, R.A. & Fleming, P.J. (2003). Robust Control Systems with Genetic
Algorithms. Boca Raton, Florida: CRC Press.
Jamshidi, Y. & Kaburlasos, V.G. (2014). gsaINknn: A GSA optimized, lattice computing knn classifier.
Engineering Applications of Artificial Intelligence, 35, 277-285.
Kaburlasos, V.G. (2006). Towards a Unified Modeling and Knowledge-Representation Based on Lattice
Theory (Studies in Computational Intelligence 27). Heidelberg, Germany: Springer.
Kaburlasos, V.G., Papadakis, S.E. & Papakostas, G.A. (2013). Lattice computing extension of the FAM
neural classifier for human facial expression recognition. IEEE Transactions on Neural Networks &
Learning Systems, 24(10), 1526-1538.
Kottas, T.L., Boutalis, Y.S. & Karlis, A.D. (2006). New maximum power point tracker for PV arrays using
fuzzy controller in close cooperation with fuzzy cognitive networks. IEEE Transactions on Energy
Conversion, 21(3), 793-803.
Liu, Z. & Satur, R. (1999). Contextual fuzzy cognitive map for decision support in geographic information
systems. IEEE Transactions on Fuzzy Systems, 7(5), 495-507.
Nezamabadi-pour, H., Saryazdi, S. & Rashedi, E. (2006). Edge detection using ant algorithms. Soft
Computing, 10(7), 623-628.
Papadakis, S.E., Tzionas, P., Kaburlasos, V.G. & Theocharis, J.B. (2005). A genetic based approach to the Type
I structure identification problem. Informatica, 16(3), 365-382.
Papageorgiou, E.I. (2011). A new methodology for Decisions in Medical Informatics using fuzzy cognitive
maps based on fuzzy rule-extraction techniques. Applied Soft Computing, 11(1), 500-513.

Γ-2
Papageorgiou, E.I., Markinos, A. & Gemptos, T. (2009). Application of fuzzy cognitive maps for cotton yield
management in precision farming. Expert Systems with Applications, 36(10), 12399-12413.
Papakostas, G.A. (2015). Improving the Recognition Performance of Moment Features by Selection. In U.
Stanczyk & L.C. Jain (Eds.), Feature Selection for Data and Pattern Recognition (Studies in
Computational Intelligence 584, pp. 305-327). Berlin, Germany: Springer.
Papakostas, G.A., Boutalis, Y.S., Koulouriotis, D.E. & Mertzios, B.G. (2008). Fuzzy cognitive maps for
pattern recognition applications. International Journal of Pattern Recognition and Artificial
Intelligence, 22(8), 1461-1468.
Papakostas, G.A., Tsougenis, E.D., Koulouriotis, D.E. & Tourassis, V.D. (2014). Moment-based local image
watermarking via genetic optimization. Applied Mathematics and Computation, 227, 222-236.
Petridis, V. & Kehagias. A. (1998). Predictive modular neural networks  Applications to time series. Norwell,
MA: Kluwer Academic Publishers.
Rashedi, E., Nezamabadi-Pour, H. & Saryazdi, S. (2011). Filter modeling using gravitational search
algorithm. Engineering Applications of Artificial Intelligence, 24(1), 117-122.
Rodriguez-Repiso, L., Setchi, R. & Salmeron, J.L. (2007). Modelling IT projects success with Fuzzy
Cognitive Maps. Expert Systems with Applications, 32(2), 543-559.
Shalev-Shwartz, S. & Ben-David, S. (2014). Understanding Machine Learning: From Theory to Algorithms.
New York, NY: Cambridge University Press.
Salmeron, J.L. (2012). Fuzzy cognitive maps for artificial emotions forecasting. Applied Soft Computing,
12(12), 3704-3710.
Stylios, C.D. & Groumpos, P.P. (2000). Fuzzy cognitive maps in modeling supervisory control systems.
Journal of Intelligent and Fuzzy Systems, 8(2), 83-98.
Sutton, R.S. & Barto, A.G. (1998). Reinforcement Learning  An Introduction. Cambridge, MA: The MIT
Press.
Vonk, E., Jain, L.C. & Johnson, R.P. (1997). Automatic Generation of Neural Network Architecture Using
Evolutionary Computation. Singapore: World Scientific.
Xirogiannis, G., Stefanou, J. & Glykas, M. (2004). A fuzzy cognitive map approach to support urban design.
Expert Systems with Applications, 26(2), 257-268.

Γ-3
Ευρετήριο
αιτιατό 6-8
αίτιο 6-8
αίτιο (κανόνα) 2-6, 2-14, 2-15, 2-17, 2-20, 2-23, 2-24, 7-2
άλγεβρα 7-15
Boole 7-16, 8-1
συνεπαγωγών πλέγματος 8-3
αλγόριθμος
ασαφών κ-μέσων 5-12
βαρυτικής αναζήτησης 3-12
εμπνευσμένος από την φύση 3-1
ηγέτη-ακόλουθου 1-14
κ-μέσων 5-11
κατάβασης 3-2
άλεσμα αριθμών 0-2, 1-17, ΙΙΙ-2
αμφιμονοσήμαντη αντιστοιχία 7-12
αναγνώριση προτύπων 0-2, Α-10, Γ-1
αναδρομικό ΤΝΔ 1-17
αναπαράσταση
ΑΔ 9-12
-διαστημάτων 9-4
νευρώνων 1-5
προτύπων 1-5
-συνάρτησης-συμμετοχής 9-4
ανατροφοδοτούμενο ΤΝΔ 1-10
ανόμοιοι τύποι δεδομένων 7-7, 7-12
ανταγωνιστική μάθηση 1-13
αντικείμενo 8-4
απο-ασαφοποίηση 2-20, 2-21, 2-22, 2-23
από κοινού συνάρτηση
κατανομής πιθανότητας 6-1, 6-13
μάζας 5-16, 5-18
απόντα δεδομένα 9-14, 9-15
απόσταση Hamming 7-7
αποτέλεσμα (κανόνα) 2-6, 2-14, 2-15, 2-17, 2-20, 2-23, 7-2
αποφάσεις αρχών 9-6
αριθμητική
ασαφών αριθμών 2-9, 9-12
διαστημάτων 9-12
αριθμός διαστημάτων (ΑΔ) 9-4,
τύπου-2 (Τ2) 9-4
αρχή
της ανάλυσης 8-4
της δυϊκότητας 7-13, 7-16
της επέκτασης 2-3
ασαφές
πλέγμα 7-1
σύνολο 2-1
διαισθητικό 2-5, 4-13
τύπου-1 (Τ1) 2-4, 2-9
(γενικευμένο) τύπου-2 (Τ2) 2-5, 2-24
σύστημα (ΑΣ) 2-8, 2-15
σύστημα συμπερασμού (ΑΣΣ) 2-14, 2-23

Ευρετ-1
ασαφής
αριθμός 2-9
τύπου-2 (Τ2) 2-24
κανόνας 2-14, 2-24
λογική 2-1, 2-5, 2-6, 2-8, 2-15
μεταβλητή 2-8, 2-15
σχέση 2-4, 2-13
ασαφοποίηση 2-3, 2-15, 2-19
άσε-k-έξω Β-1
ασθενής κατηγοριοποιητής 5-1
ατομικό πλέγμα 7-4, 7-16
άτομο
(σε μδσυν) 7-7, 7-14
(σε πληθυσμό) 3-3, 3-4, 3-5, 3-7, 3-8, 3-10
αυτοματοποιημένη συλλογιστική 8-4
βαθιά μάθηση 1-17
βαθμός
αλήθειας 2-5, 2-7, 2-17, 7-1
διάταξης 7-2, 7-3, 7-4, 7-5, 7-6, 7-7, 7-9, 7-10, 7-11, 7-17, 9-11
ενεργοποίησης 2-17, 2-19, 2-20, 2-23
καταλληλότητας 3-4
συμμετοχής 2-2, 2-15, 2-18, 2-19, 2-23
βάση
γνώσης 2-15
δεδομένων 8-5
βελτιστοποίηση 3-1
αποικίας μυρμηγκιών 3-12
γραμμική 3-1
με περιορισμούς 3-1
πολλαπλών στόχων 3-1
σμήνους σωματιδίων (ΒΣΣ) 3-10
γενικευμένος κανόνας Δέλτα 1-9, 1-10
γενίκευση 0-2, 4-1, 4-5, 5-1, 5-2, Β-1
γνώρισμα [ή, εναλλακτικά, χαρακτηριστικό] (διάκρισης) 6-2, 6-3, 8-4, 8-5
γνώση 0-2
δεδομένα 0-2
δειγματοθέτηση Β-2
δένδρο αποφάσεων 5-2, 5-3
διάγραμμα Hasse 7-13, 7-14
διαίρει-και-βασίλευε 6-2, 6-3
διάνυσμα στήριξης 4-5, 4-6, 4-7, 4-8
διάσταση Vapnik-Chervonenkis 4-10
διασταύρωση 3-4, 3-8, 3-9, 3-10
διάστημα
γενικευμένο 7-5, 9-12
εμπιστοσύνης Β-2, Β-3
τύπου-1 (Τ1) 7-4, 7-5, 7-7, 9-1, 9-2, 9-12, 9-13
τύπου-2 (Τ2) 9-2, 9-3
δίκτυο
ακτινωτής βάσης (ΔΑΒ) 4-2, 4-5, 4-10
Bayes (ΔΒ) 6-1, 6-2, 6-12
Markov (ΔM) 6-1
πεποίθησης 6-1
δίλημμα ευστάθειας/πλαστικότητας 1-12
δυϊκό 7-13, 7-16

Ευρετ-2
ισομορφισμός (δυϊκός) 7-6, 7-7, 7-8, 7-11
πρόβλημα (δυϊκό) 4-7, 4-8, 4-10
πρόταση (δυϊκή) 7-13, 7-16
δυναμοσύνολο 5-15, 5-17, 7-7, 7-9, 7-13, 7-14, 7-16, 8-6
εγκλεισμός (συνολοθεωρητικός) 2-3, 7-2
εκθετική έκρηξη 2-24
εκπαίδευση [ή, εναλλακτικά, μάθηση] 0-2, Β-1
εκπαίδευση που κατευθύνεται από έρευνα 0-2
ελάχιστο άνω φράγμα 2-2, 2-3, 2-12, 7-7, 7-15, 9-1, 9-2, 9-3, 9-4, 9-18
ελιτισμός 3-8, 3-10
έμπειρο σύστημα 2-12
ενεργή μάθηση 5-2, 6-10
έννοια 2-1, 4-10
εντροπία 6-4, 6-6
εξαγωγή γνωρισμάτων/χαρακτηριστικών 8-7, B-2, Γ-2
εξαναγκασμένη μάθηση Γ-1
εξελισσόμενο πρόγραμμα 3-6
εξερεύνηση (του χώρου αναζήτησης) 3-3, 3-9
εξόρυξη γνώσης 5-5, Γ-1
επαγωγή 6-2, 6-4
επανατοποθέτηση (χρωμοσωμάτων) 3-10
επαναφορά 1-15, 1-16
επιλογή 3-7
με διαγωνισμό 3-7
ρουλέτας 3-7, 3-8
τοπική 3-7
του καλύτερου συζύγου 3-7
επιτροπή εμπειρογνωμόνων 5-1
εποπτεία [ή, εναλλακτικά, επίβλεψη] 1-3, 4-3
εργαλειοθήκη (MATLAB) 2-22, Α-1
Ευκλείδεια απόσταση 7-8
ζ-Φέτα 9-10
θεώρημα της ταυτοποίησης 2-3, 9-4
θεωρία
γράφων 6-1
διάταξης [ή, εναλλακτικά, πλεγμάτων] ΙΙΙ-2, 7-1, 7-2, 7-7, 7-12, 7-15, 7-16, 7-17
πληροφορίας 6-4
προσαρμοστικού συντονισμού (ΘΠΣ) 1-12, 1-14, 9-15
συναρτήσεων πεποίθησης 5-15
τεκμηρίων 5-15, 5-17
ισομορφισμός 7-13, 7-17
ισχυρός κατηγοριοποιητής 5-1
k-πλή σταυρωτή αξιολόγηση Β-2
κανόνας
αλυσίδας 6-1
Δέλτα 1-4, 1-5, 1-6
κατάβαση βαθμίδας 3-2, 4-3, 4-12
κατανομή
εφικτότητας 9-10, 9-18
πιθανότητας 9-10, 9-11, 9-13, 9-18
κατευθυνόμενος ακυκλικός γράφος (ΚΑΓ) 6-1
κατηγόρημα 2-8
κατηγοριοποίηση 0-2, 1-3, 1-12, 1-15, 1-16, 4-3, 4-4, 4-5, 4-6, 4-7, 4-8, 4-12, 5-1, 5-2, 5-3, 5-5
κατηγορούμενο 2-8
κέρδος πληροφορίας 6-4, 6-6, 6-13

Ευρετ-3
κόκκος πληροφορίας 2-1, ΙΙΙ-2, 9-4, 9-7
κοκκώδης υπολογισμός ΙΙΙ-2
κύκλος μάθησης 1-7
κυρτός 3-1, 3-2, 3-3, 7-4, 7-7, 7-16, 9-6, 9-9
κωδικοποίηση (χρωμοσώματος) 3-4, 3-5, 3-6, 3-9
κώνος 9-4, 9-12
λογικές απαιτήσεις 7-3, 7-5, 7-6, 7-17
λογικοφάνεια 5-15, 5-16
μάθηση [ή, εναλλακτικά, εκπαίδευση] 0-2, Β-1
κατά Hebb 1-1
με εποπτεία 1-3
χωρίς εποπτεία 1-3, 5-5
μαντείο 5-5
μαύρο κουτί 0-2, 4-1
μέγιστο κάτω φράγμα 2-3, 7-15, 9-1, 9-2, 9-3, 9-18
μεθοδολογία 8-1, 8-7
μέθοδος των ελαχίστων τετραγώνων 3-1
μερικώς
διατεταγμένη σχέση 7-1, 7-7, 7-12, 7-13, 8-1, 8-7, 9-12
διατεταγμένο σύνολο (μδσυν) 7-4, 7-6, 7-13, 7-14, 7-15, 7-18, 9-2, 9-3, 9-9, 9-18
μετα-αλγόριθμος 5-1, 5-2
μετάλλαξη 3-5, 3-9
μέτρηση 9-1, 9-13
μετρήσιμος χώρος 7-8
μετρικός χώρος 7-17
μέτρο εγκλεισμού 9-11
μηχανές
ακραίας μάθησης (ΜΑΜ) 4-12
διανυσμάτων στήριξης (ΜΔΣ) 4-5
μηχανική μάθηση 5-1, 9-15, Γ-1
μοντέλο 0-1, 0-2, 0-3, 1-2, 1-12, 2-4, 2-6, 2-8, 2-13, 2-14, 2-23, 2-24, 4-5, 4-12, 5-1, 5-3, 5-17, 6-11,
ΙΙΙ-2, Α-13, Α-14, Α-15, Β-1, Β-2, Γ-1, Γ-2
κ πλησιέστερων γειτόνων (κΠΓ) 4-4
μοντελοποίηση 0-2, 0-3, 1-12, 2-5, 2-6, 2-8, 2-23, 3-4, 6-8, 6-9, 6-11, 7-12, Γ-2
νευρο-ασαφή συστήματα (ΝΑΣ) 4-1
προσαρμοστικά συμπερασμού (ΠΝΑΣΣ) 4-1, 4-2
νευρώνας 1-1, 1-2, 1-3, 1-4, 1-9, 1-10, 1-13, 1-16, 1-17, 4-1, 4-2, 4-3, 4-12
νευρωνικός υπολογισμός 0-2, 1-1
νοημοσύνη σμήνους 3-12
ομαδοποίηση 0-2, 1-3, 1-11, 1-12, 1-13, 1-14, 1-15, 1-16, ΙΙ-2, 4-3, 5-5, 5-9, 5-11, 5-12, 5-13, 5-14, 9-
15, 9-16
ομιλούμενη γλώσσα 2-5, 2-6, 2-8, 2-14, 2-25
οντολογία 7-12, 8-5
οπισθόδρομη μάθηση 1-9
οπτικοποίηση 1-12
παλινδρόμηση (στατιστική) 0-2, 4-4, 4-5, 5-2, 5-3, 9-13, 9-15, 9-18, Β-1
πιθανώς ορθό κατά προσέγγιση (ΠΟΠ) 5-2, 5-3, 5-5
πλέγμα 7-1, 7-2, 7-3, 7-15
συνένωσης 7-9
πλήρες 7-15
πλειότιμη (λογική) 2-5, 2-7
πληθικότητα 2-23, 4-11, 5-15, 6-6, 8-7, 9-4, 9-16, 9-17
πληροφορία 0-2
πολλαπλή δειγματοθέτηση 5-2
πράκτορας λογισμικού Γ-1

Ευρετ-4
πράξη 7-15
πρόβλημα
αποστήθισης 5-2, 5-3
βελτιστοποίησης 3-1
πολλαπλασιασμού των κατηγοριών 1-15
προβολή 2-4
προσωτροφοδοτούμενο ΤΝΔ 1-2, 1-3, 1-10, Α-10
πρόταση 2-5, 2-6
σύνθετη 2-8
κατηγορηματική 2-8, 2-12
πρόωρη σύγκλιση 3-3
πυρήνας
(ασαφούς συνόλου) 2-2
(ΜΔΣ) 4-9, 4-10
ρυθμός μάθησης 1-11, 1-13,
σ-άλγεβρα 7-8
σαγματικό σημείο 4-7, 5-9
σημασιολογία 1-17, ΙΙΙ-2, 7-7, 7-12
σμήνος
(για εφαρμογές εξελικτικού υπολογισμού) 3-10
(για εφαρμογές ομαδοποίησης) 0-2, 5-11, 5-13
στατιστικός έλεγχος υποθέσεων Β-3
σταυρωτή αξιολόγηση Β-1
στοχαστικά δάση 5-3
συγκερασμός ανόμοιων τύπων δεδομένων 7-12
συλλογιστική
από κάτω προς τα πάνω 6-1
από πάνω προς τα κάτω 6-1
ασαφών πλεγμάτων (ΣΑΠ) 7-2, 9-6, 9-15, 9-16, 9-17
κατ’ αναλογία 7-2
παραγωγική 7-2
προσεγγιστική 7-2
συμπερασμός (ασαφούς κανόνα) 2-11, 2-14
συνάρτηση
αθροιστικής κατανομής 9-11
αντικειμενική [ή, εναλλακτικά, κόστους] 1-12, 1-13, 3-1, 3-2, 3-3, 3-4, 3-8, 3-10, 3-11, 3-12, 4-3,
4-7, 5-2, 5-12, Α-17, Γ-1
βάρους 9-7
διατήρησης τάξης 7-13
καταλληλότητας 3-4, 3-6, 3-7
λογιστική 1-2, 9-16
μάζας 5-15, 5-16, 5-17, 9-19
μεγέθους 7-6, 7-7, 7-14, 7-17, 9-2, 9-3, 9-7, 9-9, 9-16
μεταφοράς 1-1, 1-2, 1-4, 1-7, 1-8, 1-9
μετρική 7-3, 7-5, 7-6, 7-7, 7-9, 7-10, 7-11, 7-17, 9-1, 9-2, 9-3, 9-7, 9-9
μέτρου 7-8
πεποίθησης 5-15, 5-16
πυκνότητας πιθανότητας 5-6, 5-13, 9-7
σίγμα-διατομής 7-2, 7-4
σίγμα-συνένωσης 7-2, 7-4
σιγμοειδής 9-16
συμμετοχής 2-1, 2-3, 2-5, 2-8, 2-23, 2-24, 2-25
συνεπαγωγής 2-6, 2-8
τιμοδότησης 7-3, 7-6, 7-10, 7-17
μονότονης 7-3

Ευρετ-5
θετικής 7-2, 7-3, 7-4, 7-5, 7-6, 7-7, 7-8, 7-10, 7-11, 7-17, 9-1, 9-2, 9-3, 9-9, 9-15, 9-18
συνδυαστικός κανόνας του Dempster 5-16, 5-17
συνθετικός συμπερασματικός κανόνας (του Zadeh) 2-12, 2-13, 2-26
σύνολο
αναφοράς [ή, εναλλακτικά, βασικό σύνολο] 2-1, 2-2, 2-3, 2-4, 2-5, 2-8, 2-9, 2-10, 2-11, 2-15,
2-23, 2-24
κατηγοριοποιητών 5-1
συστήματα στήριξης αποφάσεων Γ-2
σφάλμα
ελαχίστων τετραγώνων (ΣΕΤ) 5-11, Β-1
μέσο τεραγωνικό (ΜΤΣ) 1-7
σχέση 7-3, 7-6, 7-8, 7-12, 7-13, 7-14
ασαφής 7-1
δυαδική 7-1, 7-7, 7-12, 7-15
ισοδυναμίας 7-13
σωματίδιο (σμήνους) 3-10, 3-11
τελεστής 2-3, 2-4, 2-6, 2-7, 2-12, 3-3, 3-4, 3-5, 3-8, 3-9, 3-10
τεράστια δεδομένα 0-1, 4-12, 9-18
τεχνητή νοημοσύνη (ΤΝ) 0-1
τοπολογικά διατεταγμένοι χάρτες 1-11
τριγωνική
ανισότητα (συνθήκη) 7-17
νόρμα [ή, εναλλακτικά, τ-νόρμα] 2-6, 2-7
συννόρμα [ή, εναλλακτικά, τ-συννόρμα /σ-νόρμα] 2-6, 2-7
τρόπος που θέτει 2-11, 7-2
τυποποιημένα συμφραζόμενα 8-4
τυποποιημένη έννοια 8-4, 8-5
τυφλή αναζήτηση 6-4
υπερ-παραλληλεπίπεδο 1-14
υποκείμενο (πρότασης) 2-8, 2-14
υπολογισμός
με λέξεις 2-24, 2-25
σε πλέγματα ΙΙΙ-2, 7-7, 8-1
υποσύνολο δεδομένων
αξιολόγησης Β-1
εκπαίδευσης Β-1
εξέτασης Β-1
φυσική επιλογή 3-4
φυσικός υπολογισμός ΙΙ-2, Γ-1
χαρακτηριστικό [ή, εναλλακτικά, γνώρισμα] (διάκρισης) 6-2, 6-3, 8-4, 8-5
χαρακτηριστική συνάρτηση 2-1, 2-2, 2-3, 2-4, 2-9, 2-10, 2-11, 2-20, 2-24, 2-25
πρωτεύουσα 2-24
δευτερεύουσα 2-24
χρωμόσωμα 3-4, 3-5, 3-6, 3-7, 3-8, 3-9, 3-10, 3-12, 3-13
χώρος
αναζήτησης των λύσεων 3-1, 3-3, 3-4, 3-6, 3-9, 3-10
μέτρου 7-8, 7-9
πιθανότητας 5-17, 7-9, 7-14
ψευδο-
αντίστροφος 4-3
μετρική συνάρτηση 7-17
ώθηση 5-1, 5-2

Ευρετ-6
Γλωσσάρι
α-διατομή: α-cut
αβεβαιότητα: uncertainty
αδιάφορα δεδομένα: don’t care data
αιτιατό: effect
αίτιο: cause
αίτιο (κανόνα): antecedent (of a rule)
αιτιοκρατικός: deterministic
άλγεβρα: algebra
Boole: Boolean algebra
συνεπαγωγών πλέγματος: lattice implication algebra
αλγεβρικός ορισμός (πλέγματος): algebraic definition (of a lattice)
αλγόριθμος
αναμόχλευσης: leveraging algorithm
ασαφών κ-μέσων: k-means algorithm
βαρυτικής αναζήτησης: gravitational search algorithm
διαφορικής εξέλιξης: differential evolution algorithm
εμπνευσμένος από την φύση: nature-inspired algorithm
ηγέτη-ακόλουθου: leader-follower algorithm
κ-μέσων: k-means algorithm
κατάβασης: descent algorithm
κλασικής βελτιστοποίησης: classical optimization algorithm
νυχτερίδας: bat algorithm
πυγολαμπίδας: firefly algorithm
στρατηγικής εξέλιξης: evolution strategy algorithm
τεχνητή αποικία μελισσών: artificial bee colony algorithm
άλεσμα αριθμών: number crunching
αλυσίδα: chain
αμερόληπτος: unbiased
αμοιβαία πληροφορία: mutual information
αμφιβολία: ambiguity
αμφιμονοσήμαντη
αντιστοιχία: bijection
αναγνώριση προτύπων: pattern recognition
αναδρομικό ΤΝΔ: recursive ANN
ανάθεση: assignment
βασικής πεποίθησης: basic belief assignment
μάζας πιθανότητας: probability mass assignment
ποιότητας με βάση την τάξη: rank-based fitness assignment
ανακλαστική (συνθήκη): reflexivity (condition)
ανάκτηση: retrieval
ανάλυση
ανεξάρτητων συνιστωσών: independent component analysis
ίδιων τιμών: singular value decomposition
κυρίων συνιστωσών: principal component analysis
αναπαράσταση: representation
-διαστημάτων: interval-representation
νευρώνων: neuron representation
προτύπων: pattern representation
-συνάρτησης-συμμετοχής: membership-function-representation
ανάστροφο (πίνακα): (matrix) transpose
ανατροφοδοτούμενο ΤΝΔ: recurrent ANN
ανιχνεύσιμος: identifiable

Γλωσ-1
άνοιγμα (ΜΜ): opening (MM)
ανόμοιοι τύποι δεδομένων: disparate data types
ανταγωνιστική μάθηση: competitive learning
αντικείμενo: object
αντιμεταθετική ιδιότητα: commutativity
αντίστροφη σχέση: inverse relation
αντισυμμετρική (συνθήκη): antisymmetry (condition)
απλή αξιολόγηση: holdout validation
άπληστος: greedy
απο-ασαφοποίηση: de-fuzzification
απο-ασαφοποιητής: de-fuzzifier
από κοινού συνάρτηση: joint function
κατανομής πιθανότητας: joint probability distribution function
μάζας: joint mass function
απόντα δεδομένα: missing data
απλοποιημένο (υποσύνολο): simplified (subset)
απορρόφηση (ιδιότητα): absorption (law)
απόσταση Hamming: Hamming distance [ή, εναλλακτικά, city-block distance]
αποτέλεσμα (κανόνα): consequent (of a rule)
αποφάσεις αρχών: principled decision-making
αριθμήσιμο σύνολο: countable set
αριθμητική: arithmetic
ασαφών αριθμών: fuzzy number arithmetic
διαστημάτων: interval arithmetic
αριθμός διαστημάτων (ΑΔ): intervals’ number (IN)
άνω: upper IN
γενικευμένος: generalized IN
κάτω: lower IN
τύπου-1 (Τ1): intervals’ number (IN) type-1 (T1)
τύπου-2 (Τ2): intervals’ number (IN) type-2 (T2)
άρνηση: negation
άρρητος (αριθμός): irrational (number)
αρχείο γραφής: script file
αρχή: principle
της ανάλυσης: resolution principle
της δυϊκότητας: duality principle
της επέκτασης: extension principle
ασαφές: fuzzy
διάστημα: fuzzy interval
δυναμοσύνολο: fuzzy power set
μοντέλο: fuzzy model
πλέγμα: fuzzy lattice
σύνολο: fuzzy set
διαισθητικό: intuitionistic fuzzy set
διαστημότιμο: interval-valued fuzzy set
κανονικό: normal fuzzy set
κενό: empty fuzzy set
τύπου-1 (Τ1): type-1 (T1) fuzzy set
(γενικευμένο) τύπου-2 (Τ2): (generalized) type-2 (T2) fuzzy set
σύστημα (ΑΣ): fuzzy system (FS)
σύστημα συμπερασμού (ΑΣΣ): fuzzy inference system (FIS)
ασαφής: fuzzy
αλγόριθμος: fuzzy algorithm
αριθμός: fuzzy number
τύπου-1 (Τ1): type-1 (Τ1) fuzzy number

Γλωσ-2
τύπου-2 (Τ2): type-2 (Τ2) fuzzy number
κανόνας: fuzzy rule
λογική: fuzzy logic
μεταβλητή: fuzzy variable
σχέση: fuzzy relation
ασαφοποίηση: fuzzification
ασαφοποιητής: fuzzifier
άσε-1-έξω: leave-1-out
άσε-k-έξω: leave-k-out
ασθενής: weak
(ασαφής) σχέση μερικής διάταξης: weak (fuzzy) partial order relation
κατηγοριοποιητής: weak classifier/learner
ατομικό πλέγμα: atomic lattice
άτομο
(σε μδσυν): atom (in a poset)
(σε πληθυσμό): individual (in a population)
αυτοματοποιημένη συλλογιστική: automated reasoning
αυτόματος έλεγχος: automatic control
αυτο-οργανούμενοι χάρτες: self-organizing maps
βαθιά μάθηση: deep learning
βαθμός
αλήθειας: degree of truth
διάταξης: fuzzy order
ενεργοποίησης: degree of activation
καταλληλότητας: degree of fitness
συμμετοχής: degree of membership
βάση: base
γνώσης: knowledge base
δεδομένων: data base
βασικό πλέγμα: constituent lattice
βελτιστοποίηση: optimization
αποικίας μυρμηγκιών: ant colony optimization
βιογεωγραφίας: biogeography-based optimization
γραμμική: linear optimization
με περιορισμούς: constrained optimization
μη-γραμμική: non-linear optimization
πολλαπλών στόχων: multiobjective optimization
σμήνους σωματιδίων (ΒΣΣ): particle swarm (PSO) optimization
χωρίς περιορισμούς: unconstrained optimization
γενετικό σχέδιο: genetic plan
γενετικός αλγόριθμος: genetic algorithm
γενικευμένος κανόνας Δέλτα: generalized Delta rule
γενίκευση: generalization
γεωργία ακριβείας: precision farming
γνώρισμα [ή, εναλλακτικά, χαρακτηριστικό] (διάκρισης): (discrimination) attribute [feature]
γνώση: knowledge
γνωσιακοί χάρτες (ΓΧ): cognitive maps (CM)
γονίδιο: gene
γραμμικός χώρος: linear space
δεδομένα: data
δειγματοθέτηση: bootstrap
δενδρική δομή: tree structure
δένδρο αποφάσεων: decision tree
διάβρωση (ΜΜ): erosion (MM)
διάγνωση: diagnosis

Γλωσ-3
διάγραμμα Hasse: Hasse diagram
διάζευξη: disjunction
διαίρει-και-βασίλευε: divide-and-conquer
διαισθητική ασαφή λογική: intuitionistic fuzzy logic
διακριτός: discrete
διαμερισμός: partition
διάμεσος: median
διάνυσμα στήριξης: support vector
διασπορά: variance
διάσταση Vapnik-Chervonenkis: Vapnik-Chervonenkis dimension
διασταύρωση: crossover
αριθμητική: arithmetic crossover
ομοιόμορφη: uniform crossover
πολλαπλών σημείων: multi-point crossover
διάστημα: interval
γενικευμένο: generalized interval
εμπιστοσύνης: confidence interval
τύπου-1 (Τ1): type-1 (T1) interval
τύπου-2 (Τ2): type-2 (T2) interval
διαστολή (ΜΜ): dilation (MM)
διατομή (πλέγματος): (lattice) meet
διαφορική μάθηση τύπου Hebb (ΔΜΗ): differential Hebbian learning (DHL)
διευρυμένη ΥΝ: enhanced CI
δίκτυο: network
ακτινωτής βάσης (ΔΑΒ): radial basis function (RBF) network
Bayes (ΔΒ): Bayesian network (BN)
Markov (ΔM): Markov network (MN)
πεποίθησης: belief network
δίλημμα ευστάθειας/πλαστικότητας: stability/plasticity dilemma
δίτιμη (λογική): two-valued [ή, εναλλακτικά, Boolean] (logic)
διχοτόμηση: dichotomy
δοκιμασία: test
δοκιμή-και-σφάλμα: trial-and-error
δομικό στοιχείο (ΜΜ): structure element (MM)
δυαδικό δένδρο: binary tree
δυϊκός: dual
(δυϊκή) πρόταση: dual statement
(δυϊκό) πρόβλημα: dual problem
ισομορφισμός: dual isomorphism
δυϊκώς: dually
δυναμοσύνολο: power set
δυφίο: bit
εγκλεισμός (συνολοθεωρητικός): inclusion (set theoretic)
εικόνα (συνάρτησης): image (of a function)
εικονοστοιχείο: pixel
εκθετική έκρηξη: exponential explosion
εκμετάλλευση (του χώρου αναζήτησης): exploitation (of the search space)
εκπαίδευση [ή, εναλλακτικά, μάθηση]: learning
εκπαίδευση που κατευθύνεται από έρευνα: research driven education
εκτίμηση δείγματος: bootstrap estimate
ελάχιστο: least
άνω φράγμα: least upper bound [ή, εναλλακτικά, sup(remum)]
ελιτισμός: elitism
έμπειρο σύστημα: expert system
εμπειρογνώμονας: expert

Γλωσ-4
ενεργή μάθηση: active learning
ενεργή μάθηση τύπου Hebb (ΕΜΗ): active Hebbian learning (AHL)
έννοια: concept
ενσωματώνω εμπειρία: a posteriori
εντροπία: entropy
ένωση (συνολοθεωρητική): union (set theoretic)
εξαγωγή
γνωρισμάτων: attribute extraction [ή, εναλλακτικά, variable selection]
χαρακτηριστικών: feature extraction [ή, εναλλακτικά, variable selection]
εξαναγκασμένη μάθηση: reinforcement learning
εξαντλητική σταυρωτή αξιολόγηση: exhaustive cross validation
εξελικτικός υπολογισμός (ΕΥ): evolutionary computation (EC)
εξελισσόμενο πρόγραμμα: evolving program
εξερεύνηση (του χώρου αναζήτησης): exploration (of the search space)
εξομοιώνω: emulate
εξόρυξη γνώσης: data mining
επαγωγή: induction
επανα-δειγματοληψία: re-sampling
επαναλαμβανόμενη αξιολόγηση τυχαίας δειγματοληψίας: repeated random sub-sampling validation
επαναληπτικός: iterative
επανατοποθέτηση (χρωμοσωμάτων): reinsertion (of chromosomes)
επαναφορά: reset
επεξεργασία προτύπων: pattern analysis
επικάλυψη (ασαφών συνόλων): overlapping (of fuzzy sets)
επιλογή: selection
με διαγωνισμό: tournament selection
ρουλέτας: roulette wheel selection
τοπική: local selection
του καλύτερου συζύγου: top mate selection
επιμεριστική ταυτότητα: distributive identity
επιμεριστικός: distributive
επιτροπή εμπειρογνωμόνων: committee of experts
εποπτεία [ή, εναλλακτικά, επίβλεψη]: supervision
εργαλειοθήκη (MATLAB): toolbox (MATLAB)
ετικέτα: label
ευέλικτος υπολογισμός (ΕυΥ): soft computing (SC)
Ευκλείδεια απόσταση: Euclidean distance
ευρετικός: heuristic
εύρος: spread
ζ-Φέτα: zSLice
θεώρημα της ταυτοποίησης: resolution identity theorem
θεωρία: theory
γράφων: graph theory
διάταξης [ή, εναλλακτικά, πλεγμάτων]: order [ή, εναλλακτικά, lattice] theory
δυναμικών πεδίων: dynamic field theory
πληροφορίας: information theory
προσαρμοστικού συντονισμού (ΘΠΣ): adaptive resonance theory (ART)
συναρτήσεων πεποίθησης: belief functions
τεκμηρίων: evidence theory
θρυμματίζεται: shatter
ιδεώδη αλγεβρικών αριθμών: ideals of algebraic numbers
ικανότητα γενίκευσης: generalization capacity
ίσα (ασαφή σύνολα): equal (fuzzy sets)
ισομορφικός: isomorphic
ισομορφισμός: isomorphism

Γλωσ-5
πλέγματος: lattice isomorphism
ισοτροπικός: isotropic
ισχυρός κατηγοριοποιητής: strong classifier/learner
k-πλή σταυρωτή αξιολόγηση: k-fold cross validation
καθολικός προσεγγιστής: universal approximator
καλύπτω (στοιχείο μδσυν): cover (a poset element)
κανόνας: rule
αλυσίδας: chain rule
Δέλτα: Delta rule
κανονικός: normal
κανονικοποίηση: normalization
Καρτεσιανό γινόμενο: Cartesian product
κατάβαση βαθμίδας: gradient descent
κατανομή: distribution
εφικτότητας: possibility distribution
πιθανότητας: probability distribution
κατευθυνόμενος ακυκλικός γράφος (ΚΑΓ): directed acyclic graph (DAG)
κατευθυνόμενος σύνδεσμος: directed connection
κατεύθυνση αναζήτησης: search direction
κατηγόρημα: predicate
κατηγοριοποίηση: classification
κατηγοριοποιητής: classifier
κατηγορούμενο: predicative
κατώφλι: threshold
κέρδος πληροφορίας: information gain
κλασική ΥΝ: classic CI
κλείσιμο (ΜΜ): closing (MM)
κόκκος πληροφορίας: information granule
κοκκώδης υπολογισμός: granular computing
κριτήριο: criterion
κέρδους: gain criterion
τερματισμού: termination criterion
κύκλος μάθησης: epoch
κυρτός: convex
κυρτότητα: convexity
κωδωνοειδή (κυρτή) συνάρτηση συμμετοχής: bell-shaped (convex) membership function
κωδικοποίηση (χρωμοσώματος): encoding (of a chromosome)
δένδρου: tree encoding
δυαδική: binary encoding
μετάθεσης: permutation encoding
συμπληρώματος: complement coding
τιμών: value encoding
κώνος: cone
λογικές απαιτήσεις: reasonable constraints
λογικιστής: logician
λογικοφάνεια: plausibility
λόγος κέρδους: gain ratio
μαθηματική μορφολογία (ΜΜ): mathematical morphology (MM)
μάθηση [ή, εναλλακτικά, εκπαίδευση]: learning
κατά Hebb: Hebbian learning
με εποπτεία: supervised learning
χωρίς εποπτεία: unsupervised learning
μαντείο: oracle
μάσκα διασταύρωσης: mask crossover
μαύρο κουτί: black box

Γλωσ-6
μέγεθος βήματος: step size
μέγιστο: greatest
κάτω φράγμα: greatest lower bound [ή, εναλλακτικά, inf(imum)]
μεθοδολογία: paradigm
μέθοδος: method
αναζήτησης του κούκου: cuckoo search method
των ελαχίστων τετραγώνων: least-squares method
του Νεύτωνα: Newton’s method
μετάλλαξη: mutation
μετατόπιση (ΜΜ): translation (MM)
μέτρηση: measurement
μέτρο εγκλεισμού: inclusion measure
μερική διάταξη: partial order
μερικώς: partially
διατεταγμένη σχέση: partially ordered relation
διατεταγμένο σύνολο (μδσυν): partially ordered set (poset)
μεροληψία: bias
μέση τιμή: expected value
μετα-αλγόριθμος: meta-algorithm
μεταβατική (συνθήκη): transitivity (condition)
μεταβλητότητα: variability
μετρήσιμος χώρος: measurable space
μετρική: metric
μετρικός χώρος: metric space
μη-γραμμική μάθηση τύπου Hebb (ΜΓΗ): non-linear Hebbian learning (NLH)
μη-κυρτός: non-convex
μη-συγκρίσιμα (στοιχεία πλέγματος): incomparable (lattice elements)
μηχανές: machines
ακραίας μάθησης (ΜΑΜ): extreme learning machines (ELMs)
διανυσμάτων στήριξης (ΜΔΣ): support vector machines (SVM)
μηχανική μάθηση: machine learning
μίξη πυκνότητας: mixture density
μονοτονική (ιδιότητα): monotonicity (property)
μονότονος: monotone
μοντέλο: model
κ πλησιέστερων γειτόνων (κΠΓ): k nearest neighbors (kNN) model
μοντελοποίηση: modeling
μορφισμός (πλέγματος): (lattice) morphism
διατομής: meet morphism
συνένωσης: join morphism
N-άδα: N-tuple
νευρο-ασαφή συστήματα (ΝΑΣ): neuro-fuzzy systems (NFS)
προσαρμοστικά συμπερασμού (ΠΝΑΣΣ): adaptive neuro-fuzzy inference system (ANFIS)
νευρώνας: neuron
νευρωνικός υπολογισμός: neural computing ή, εναλλακτικά, neuro-computing
νοημοσύνη σμήνους: swarm intelligence
ολικά καλύτερο: global best
ολική διάταξη: total order
ολικό ελάχιστο: global minimum
ολικώς διατεταγμένο σύνολο: totally ordered set
ομαδοποίηση: clustering
ομιλούμενη γλώσσα: spoken language
οντολογία: ontology
οπισθόδρομη μάθηση: backpropagation learning
οπτικοποίηση: visualization

Γλωσ-7
ουδέτερο στοιχείο: identity element
Π-ασαφές σύνολο: L-fuzzy set
παλινδρόμηση (στατιστική): regression (statistical)
παλινδρομητής: regressor
παράλληλα (στοιχεία πλέγματος): parallel (lattice elements)
παράμετροι ανάμιξης: mixing parameters
παρεμβολή: crosstalk
πεπερασμένο: finite
πεποίθηση: belief
περίγραμμα (λεκτικό): descriptor (linguistic)
περιορισμός: constraint
πηλίκο: quotient
πιθανολογική καθολική δειγματοληψία: stochastic universal sampling
πιθανώς ορθό κατά προσέγγιση (ΠΟΠ): probably approximately correct (PAC)
πλέγμα: lattice
συνένωσης: join lattice
πλήρες: complete lattice
πλειότιμη (λογική): multi-valued (logic)
πληθικότητα: cardinality
πληροφορία : information
ποικιλομορφία: diversity
πολλαπλή δειγματοθέτηση: bootstrap aggregating [ή, εναλλακτικά, bagging για συντομία]
πολυτροπικός: multimodal
πράκτορας λογισμικού: software agent
πράξη: operation
πρόβλεψη: prediction
πρόβλημα: problem
αποστήθισης: overfitting problem
βελτιστοποίησης: optimization problem
πολλαπλασιασμού των κατηγοριών: category proliferation problem
προβολή: projection
προσεταιριστική ιδιότητα: associativity property
προσωτροφοδοτούμενο ΤΝΔ: feedforward ANN
πρόταση: proposition
σύνθετη: composite proposition
κατηγορηματική: categorical proposition
πρότυπο: pattern
πρόωρη σύγκλιση: premature convergence
πρωταρχικό (πρόβλημα): primal (problem)
πρωτεύον: principal
ιδεώδες: principal ideal
φίλτρο: principal filter
πυρήνας
(ασαφούς συνόλου): core (of a fuzzy set)
(ΜΔΣ): kernel (SVM)
ρητός (αριθμός): rational (number)
ρυθμός μάθησης: learning rate
σ-άλγεβρα: σ-algebra
σαγματικό σημείο: saddle point
σειριακά δεδομένα: sequential data
σημασιολογία: semantics
σημασιολογικός: semantic
Ιστός: semantic Web
ορισμός (πλέγματος): semantic definition (of a lattice)
σμήνος

Γλωσ-8
(για εφαρμογές ομαδοποίησης): cluster
(για εφαρμογές εξελικτικού υπολογισμού): swarm
σταθερά
επαγρύπνησης: vigilance parameter
πόλωσης (νευρώνα): bias (of a neuron)
στατιστικός έλεγχος υποθέσεων: statistical hypothesis testing
σταυρωτή αξιολόγηση: cross validation
στήριγμα [ή, εναλλακτικά, φορέας] ασαφούς συνόλου/ΑΔ: support of a fuzzy set/IN
στοχαστικός: stochastic
στοχαστικά δάση: random forests
συγκερασμός ανόμοιων τύπων δεδομένων: disparate data fusion
συγκρίσιμα (στοιχεία πλέγματος): comparable (lattice elements)
σύζευξη: conjunction
συζυγής κατάβαση: conjugate descent
σύζυγος: mate
συλλογιστική: reasoning
από κάτω προς τα πάνω: bottom-up reasoning
από πάνω προς τα κάτω: top-down reasoning
ασαφών πλεγμάτων (ΣΑΠ): fuzzy lattice reasoning (FLR)
κατ’ αναλογία: reasoning by analogy
παραγωγική: deductive reasoning
προσεγγιστική: approximate reasoning
συμμετρική (συνθήκη): symmetry (condition)
συμπερασμός (ασαφούς κανόνα): inference (of a fuzzy rule)
συμπλήρωμα: complement
συμπληρωματωμένο (πλέγμα): complemented (lattice)
συνάρτηση: function
αθροιστικής κατανομής: cumulative distribution function
αντικειμενική [ή, εναλλακτικά, κόστους]: objective [ή, εναλλακτικά, cost] function
βάρους: weight function
γνησίως αύξουσα: strictly increasing
γνησίως φθίνουσα: strictly decreasing
διατήρησης τάξης: order preserving function
εμφύτευσης τάξης: order embedded function
ένα προς ένα: injection
ένα προς ένα και επί: bijection
επί: surjection
ζήτα: zeta function
καταλληλότητας: fitness function
λογιστική: logistic function
μάζας: mass function
μεγέθους: size function
μεταφοράς: transfer function
μετρική: metric function
μέτρου: measure function
μη-συμμετοχής: non-membership function
μονότονη: monotone
πεποίθησης: belief function
πυκνότητας πιθανότητας: probability density function
σίγμα-διατομής: sigma-meet function
σίγμα-συνένωσης: sigma-join function
σιγμοειδής: sigmoid function
συμμετοχής: membership function
συνεπαγωγής: implication function
σύνθετη: composite function

Γλωσ-9
τιμοδότησης: valuation function
μονότονης: monotone valuation function
θετικής: positive valuation function
συνδυασμός: combination
συνδυαστικός κανόνας του Dempster: Dempster’s rule of combination
συνένωση (πλέγματος): (lattice) join
συνέπεια (ιδιότητα): consistency (law)
συνηθισμένο διάστημα: ordinary interval
συνθετικός συμπερασματικός κανόνας (του Zadeh): (Zadeh’s) compositional rule of inference
συνθήκη αφομοίωσης: assimilation condition
σύνολο (κλασικό): set (crisp)
σύνολο
αναφοράς [ή, εναλλακτικά, βασικό σύνολο]: universe of discourse
γνωρισμάτων: pool of attributes
κατηγοριοποιητών: ensemble of classifiers
χαρακτηριστικών: pool of features
συνολοθεωρητικός: set theoretic
συστατικές πυκνότητες (πιθανότητας): component (probability) densities
συστήματα στήριξης αποφάσεων: decision support systems
σφάλμα: error
ελαχίστων τετραγώνων (ΣΕΤ): least squares error (LSE)
μέσο τεραγωνικό (ΜΤΣ): mean square error (MSE)
σχέση: relation
ασαφής: fuzzy relation
δυαδική: relation binary
ισοδυναμίας: equivalence relation
σωματίδιο (σμήνους): particle (of the swarm)
τ-συννόρμα φραγμένου αθροίσματος: bounded sum t-conorm
ταύτιση (συνθήκη): identity of indiscernibles (condition)
ταυτοτική (ιδιότητα): idempotent (law)
ταχύτητα: velocity
τελεστής: operator
τεράστια δεδομένα: big data
τετραγωνικός προγραμματισμός: quadratic programming
τετριμμένος: trivial
τεχνητή νοημοσύνη (ΤΝ): artificial intelligence (AI)
τεχνολογία λογισμικού: software engineering
τεχνητό νευρωνικό δίκτυο (ΤΝΔ): artificial neural network (ANN)
ακιδωτό: spiking ANN
βαθιάς συνέλιξης: deep convolutional ANN
τομή (συνολοθεωρητική): intersection (set theoretic)
τοπικό ελάχιστο: local minimum
τοπολογικά διατεταγμένοι χάρτες: topologically ordered maps
τραχύ σύνολο: rough set
τριγωνική: triangular
ανισότητα (συνθήκη): triangular inequality (condition)
νόρμα [ή, εναλλακτικά, τ-νόρμα]: triangular norm [t-norm]
συννόρμα [ή, εναλλακτικά, τ-συννόρμα /σ-νόρμα]: triangular conorm [t-conorm /s-norm]
τρικ του πυρήνα: kernel trick
τρόπος που θέτει: modus ponens
γενικευμένος: generalized modus ponens
τροχός ρουλέτας: roulette wheel
τυποποιημένα συμφραζόμενα: formal context
τυποποιημένη
ανάλυση εννοιών (ΤΑΕ): formal concept analysis (FCA)

Γλωσ-10
έννοια: formal concept
τυφλή αναζήτηση: blind search
υπεκφυγή (λεκτική): hedge (linguistic)
υπερ-παραλληλεπίπεδο: hyperbox
υπεράτομο: super individual
υπερπλέγμα: superlattice
υποκείμενο (πρότασης): subject (of a proposition)
υπολογισμός: computing
με λέξεις: computing with words
σε πλέγματα: lattice computing
υπολογιστική νοημοσύνη (ΥΝ): computational intelligence (CI)
υποπλέγμα: sublattice
υποσύνολο δεδομένων: data set
αξιολόγησης: validation data set
εκπαίδευσης: training data set
εξέτασης: testing data set
υποσυνολότητα: subsethood
ύψος (ασαφούς συνόλου/ΑΔ): height (of a fuzzy set/IN)
φίλτρο: filter
αμοιβάδας: amoeba filter
συντεταγμένης λογικής: coordinate logical filter
φορέας [ή, εναλλακτικά, στήριγμα] ασαφούς συνόλου/ΑΔ: support of a fuzzy set/IN
φυσική επιλογή: natural selection
φυσικός υπολογισμός: natural computing
χαλαρές παράμετροι: slack variables
χαρακτηριστικό [ή, εναλλακτικά, γνώρισμα] (διάκρισης): (discrimination) feature [attribute]
χαρακτηριστική συνάρτηση: characteristic function
πρωτεύουσα: primary characteristic function
δευτερεύουσα: secondary characteristic function
άνω: upper characteristic function
κάτω: lower characteristic function
χρωμόσωμα: chromosome
χώρισμα πληροφορίας: split information
χώρος: space
αναζήτησης των λύσεων: solution search space
μέτρου: measure space
πιθανότητας: probability space
ψευδο: pseudo
-αντίστροφος: pseudo-inverse
-μετρική συνάρτηση: pseudo-metric function
ώθηση: boosting

Γλωσ-11

You might also like