Professional Documents
Culture Documents
1253 - Koy PDF
1253 - Koy PDF
ΚΑΜΠΟΥΡΛΑΖΟΣ
Εισαγωγή στην
ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ
Εισαγωγή στην
ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ
Συγγραφή
Βασίλειος Γ. Καμπουρλάζος
Γεώργιος Α. Παπακώστας
Κριτικός αναγνώστης
Αθανάσιος Κεχαγιάς
Συντελεστές έκδοσης
Γλωσσική Επιμέλεια: Γεωργία Βιολιτζή
ISBN: 978-960-603-078-9
Το παρόν έργο αδειοδοτείται υπό τους όρους της άδειας Creative Commons Αναφορά Δημιουργού - Μη Εμπορική
Χρήση - Όχι Παράγωγα Έργα 3.0. Για να δείτε ένα αντίγραφο της άδειας αυτής επισκεφτείτε τον ιστότοπο
https://creativecommons.org/licenses/by-nc-nd/3.0/gr/
Ακρ-1
ΠΕΡΙΕΧΟΜΕΝΑ
Ακρωνύμια
Ευρετήριο Όρων
Γλωσσάρι
Ακρωνύμια
ΑΓΑ: Ασαφείς Γνωσιακοί Απεικονιστές
ΑΓΧ: Ασαφείς Γνωσιακοί Χάρτες
ΑΔ: Αριθμός Διαστημάτων
ΔΒ: Δίκτυα Bayes
ΔΜ: Δίκτυα Markov
ΑΔ: Αριθμοί Διαστημάτων
ΑΑ2: Ασαφής Αριθμός τύπου-2
ΑΣ: Ασαφές Σύστημα
ΑΣΣ: Ασαφές Σύστημα Συμπερασμού
ΒΣΣ: Βελτιστοποίηση Σμήνους Σωματιδίων
ΓΑ: Γενετικός Αλγόριθμος
ΓΑΓΧ: Γκρι Ασαφείς Γνωσιακοί Χάρτες
ΓΑΔ: Γενικευμένος Αριθμός Διαστημάτων
ΓΧ: Γνωσιακοί Χάρτες
ΓΧΤ: Γνωσιακοί Χάρτες Τεκμηρίων
ΔΑΒ: Δίκτυα Ακτινωτής Βάσης
ΔΑΓΧ: Διαισθητικοί Ασαφείς Γνωσιακοί Χάρτες
ΔΜΗ: Διαφορική Μάθηση τύπου Hebb
διαVC: διάσταση Vapnik-Chervonenkis
ΕΜΗ: Ενεργή Μάθηση τύπου Hebb
ΕΥ: Εξελικτικός Υπολογισμός
ΕυΥ: Ευέλικτος Υπολογισμός
Η/Υ: Ηλεκτρονικός Υπολογιστής
ΘΠΣ: Θεωρία Προσαρμοστικού Συντονισμού
ΚΑΓ: Κατευθυνόμενων Ακυκλικών Γράφων
κΠΓ: κ Πλησιέστερων Γειτόνων
ΜΑΜ: Μηχανές Ακραίας Μάθησης
MATLAB: MATrix LABoratory
ΜΓΗ: Μη-Γραμμική μάθηση τύπου Hebb
ΜΔΣ: Μηχανές Διανυσμάτων Στήριξης
μδσυν: μερικώς διατεταγμένο σύνολο
MM: Μαθηματική Μορφολογία
ΜΤΣ: Μέσο Τετραγωνικό Σφάλμα
ΝΑΣ: Νευρο-Ασαφή Συστήματα
Π-ασαφές σύνολο: Πλέγμα-ασαφές σύνολο
ΠΝΑΣΣ: Προσαρμοστικά Νευρο-Ασαφή Συστήματα Συμπερασμού
ΠΟΠ: Πιθανώς Ορθό κατά Προσέγγιση
ΣΑΠ: Συλλογιστική Ασαφών Πλεγμάτων
ΣΕΤ: Σφάλμα Ελαχίστων Τετραγώνων
ΤΑΕ: Τυποποιημένη Ανάλυση Εννοιών
τ-νόρμα: τριγωνική νόρμα
τ-συννόρμα (ή σ-νόρμα): τριγωνική συννόρμα
Τ1: Τύπου-1
Τ2: Τύπου-2
ΤΝ: Τεχνητή Νοημοσύνη
ΤΝΔ: Τεχνητό Νευρωνικό Δίκτυο
ΥΝ: Υπολογιστική Νοημοσύνη
Ακρ-1
Κεφάλαιο 0: Εισαγωγή
Μετά την εφεύρεση του ηλεκτρονικού-διακόπτη από τους Shockley, Bardeen και Brattain στα εργαστήρια
Bell των Η.Π.Α. το 1947, η εμφάνιση των σύγχρονων ηλεκτρονικών υπολογιστών ήταν θέμα χρόνου. Οι
ηλεκτρονικοί υπολογιστές κατέστησαν εφικτή την ταχύτατη αναζήτηση και επεξεργασία δεδομένων, με
αποτέλεσμα την εμφάνιση ευφυών λειτουργιών από μηχανές (βλ. ηλεκτρονικούς υπολογιστές) κατά την
έννοια του Turing, δηλαδή σε συγκεκριμένα προβλήματα μια μηχανή μπορεί να δίνει εξίσου καλές
απαντήσεις με ένα άνθρωπο.
Στο προαναφερθέν πλαίσιο, περίπου από το 1990 και μετά, εμφανίστηκε ένας αριθμός μεθοδολογιών
υπό τον κοινό τίτλο υπολογιστική νοημοσύνη (ΥΝ) (computational intelligence (CI)). Συγκεκριμένα, ως
Υπολογιστική Νοημοσύνη ορίζουμε μια συνεχώς εξελισσόμενη συνέργια μεθοδολογιών επεξεργασίας
αριθμητικών δεδομένων, οι οποίες είναι υλοποιήσιμες σε υπολογιστή για τη λήψη αποφάσεων κοινής
λογικής. Υπό αυτήν την έννοια, μια τεχνολογία ΥΝ αναμένεται να είναι συμβατή με αρχές της κοινής
λογικής. Σημειώστε ότι ως συνώνυμο του όρου ΥΝ στη βιβλιογραφία χρησιμοποιείται ο όρος ευέλικτος
υπολογισμός (ΕυΥ) (soft computing (SC)).
Η ΥΝ αποτελεί πλέον βασικό μάθημα του προγράμματος σπουδών ολοένα και περισσότερων
τμημάτων Μηχανικών και Πληροφορικής ανά τον κόσμο. Ωστόσο, από την ΥΝ σήμερα απουσιάζει ένα
κοινώς αποδεκτό θεωρητικό υπόβαθρο για ανάλυση και σχεδίαση (Polycarpou, 2013). Επιπλέον, σύγχρονες
τεχνολογικές προκλήσεις έχουν εμφανιστεί όπως, για παράδειγμα, ο χειρισμός τεράστιων δεδομένων (big
data), όπου η ΥΝ καλείται να προτείνει λύσεις. Αυτό το βιβλίο, πέρα από την εισαγωγή σε έναν αριθμό
μεθοδολογιών ΥΝ, προτείνει ένα ενοποιητικό θεωρητικό υπόβαθρο στην ΥΝ (Kaburlasos & Papakostas,
2015). Στο προαναφερθέν πλαίσιο, επίσης, προτείνεται η αντιμετώπιση σύγχρονων τεχνολογικών
προκλήσεων.
Είναι ενδιαφέρον να αναφερθούμε στη σχέση της ΥΝ με την (κλασική) τεχνητή νοημοσύνη (ΤΝ)
(artificial intelligence (AI)) (Βλαχάβας κ.ά., 2006· Russell & Norvig, 2005), η ιστορία της οποίας
χαρακτηρίζεται από περιόδους υψηλών προσδοκιών ακολουθούμενες από περιόδους στασιμότητας. Έχει
υποστηριχτεί ότι αν ο John McCarthy, ο επονομαζόμενος «πατέρας της ΤΝ», έπρεπε να προτείνει ένα νέο
όνομα για την ΤΝ σήμερα, κατά πάσα πιθανότητα θα πρότεινε τον όρο Υπολογιστική Νοημοσύνη (Andresen,
2002). Ωστόσο, στο πλαίσιο αυτού του βιβλίου διαφοροποιούμε την ΥΝ από την ΤΝ ως εξής. Η ΥΝ, σε
τελική ανάλυση, βασίζεται στην επεξεργασία αριθμών. Συγκεκριμένα, μια μεθοδολογία ΥΝ μπορεί να
λαμβάνει αριθμητικά δεδομένα από ένα ή περισσότερα ηλεκτρονικά όργανα μέτρησης, ενώ όταν θεωρούνται
μη-αριθμητικά δεδομένα, η επεξεργασία τους στα πλαίσια της ΥΝ τελικά ανάγεται στην επεξεργασία
αριθμών. Αντιθέτως, η ΤΝ βασίζεται στην επεξεργασία συμβόλων.
Μια κλασική μεθοδολογία ΥΝ τυπικά προσομοιώνει παραμετρικά κάποια λειτουργία ενός βιολογικού
οργάνου /οργανισμού. Για παράδειγμα, τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ) (artificial neural network
(ANN)), μια κλασική μεθοδολογία ΥΝ, προσομοιώνουν τη λειτουργία του εγκεφάλου. Μια άλλη τέτοια
μεθοδολογία, τα ασαφή συστήματα (ΑΣ) (fuzzy systems (FSs)), προσομοιώνει τη λειτουργία της
ομιλούμενης γλώσσας. Ο εξελικτικός υπολογισμός (ΕΥ) (evolutionary computation (EC)), μια περαιτέρω
μεθοδολογία ΥΝ, προσομοιώνει τη διαδικασία της φυσικής (δαρβινικής) επιλογής. Οι προαναφερθείσες τρεις
μεθοδολογίες αποτελούν το περιεχόμενο της κλασικής ΥΝ (classic CI).
Από το συνδυασμό μεθοδολογιών της κλασικής ΥΝ, ή/και την επιλεκτική αντικατάστασή τους,
προέκυψαν εναλλακτικές μεθοδολογίες ΥΝ, οι οποίες στο πλαίσιο αυτού του βιβλίου, αποτελούν το
περιεχόμενο της διευρυμένης ΥΝ (enhanced CI). Παραδείγματα τέτοιων μεθοδολογιών αποτελούν τα
νευρο-ασαφή συστήματα, τα δίκτυα ακτινωτής βάσης, οι μηχανές διανυσμάτων στήριξης, οι γνωσιακοί
χάρτες κ.λπ. Κάποιες φορές, η (διευρυμένη) ΥΝ παρουσιάζεται ως συλλογή υπολογιστικών αλγόριθμων,
χωρίς να είναι προφανής κάποια ουσιαστική σχέση μεταξύ αυτών των αλγόριθμων. Στο Μέρος-ΙΙΙ αυτού του
βιβλίου, στη βάση ενοποιητικών μαθηματικών αποτελεσμάτων, εξηγείται με ποια έννοια υπολογιστικοί
αλγόριθμοι μπορεί να ενταχθούν στο πλαίσιο της ΥΝ.
Η έννοια της συνάρτησης (function) είναι θεμελιώδους σημασίας (για τον ακριβή ορισμό βλέπε στο
Παράρτημα του κεφαλαίου 7). Το πρακτικό πλεονέκτημα της συνάρτησης είναι ότι μπορεί να υλοποιηθεί
στην πράξη. Συγκεκριμένα, ένα δεδομένο εισόδου συστήματος που υλοποιεί μια συνάρτηση απεικονίζεται σε
ένα και μόνο ένα δεδομένο εξόδου. Στο πλαίσιο αυτού του βιβλίου θα αναφερόμαστε σε μια συνάρτηση με
τον εναλλακτικό όρο μοντέλο (model). Τυπικό στόχο ενός αλγόριθμου ΥΝ αποτελεί η εκτίμηση μιας
συνάρτησης f: RNT, όπου το πεδίο ορισμού R είναι το σύνολο των πραγματικών αριθμών, ενώ το πεδίο
0-1
τιμών T μπορεί να είναι είτε T= RΜ (σε προβλήματα παλινδρόμησης), είτε ένα σύνολο από ετικέτες (σε
προβλήματα αναγνώρισης) (Kaburlasos & Kehagias, 2014), όπως εξηγείται στη συνέχεια.
Δοθέντος ενός συνόλου ζευγών (x1,f(x1)),…,(xn,f(xn)), ο σκοπός ενός τυπικού μοντέλου ΥΝ είναι να
υπολογίσει μια βέλτιστη προσέγγιση fˆ : RNT της συνάρτησης f: RNT, ώστε για x0RN, με x0≠xi,
i{1,…,n}, το εκτιμώμενο fˆ ( x0 ) να είναι όσο το δυνατόν πιο «κοντά», υπό κάποια έννοια, στο πραγματικό
f(x0). Η διαδικασία υπολογισμού της συνάρτησης fˆ : RNT από το σύνολο των ζευγών (x1,f(x1)),…,(xn,f(xn))
στο πλαίσιο της ΥΝ καλείται μάθηση (learning) ή, ισοδύναμα, εκπαίδευση, ενώ η διαδικασία υπολογισμού
της τιμής fˆ ( x0 ) , για x0≠xi, i{1,…,n}, καλείται γενίκευση (generalization). Βασικός στόχος κάθε
διαδικασίας μάθησης στην ΥΝ είναι μια αποδεκτή ικανότητα γενίκευσης.
Οι εφαρμογές ΥΝ γενικά εμπίπτουν σε μια από τις ακόλουθες τρεις κατηγορίες: (α) ομαδοποίηση
(clustering), όπου το μοντέλο ΥΝ εκπαιδεύεται για να υπολογίζει σμήνη (clusters) σε δεδομένα x1,…,xn
χωρίς να δίνονται τιμές f(x1),…,f(xn), (β) κατηγοριοποίηση (classification), όπου ένα μοντέλο fˆ : RNT
υπολογίζεται για αναγνώριση προτύπων (pattern recognition), δηλ. T είναι ένα σύνολο από ετικέτες, και
(γ) παλινδρόμηση (στατιστική) (regression (statistical)), όπου ένα μοντέλο ΥΝ fˆ : RNRM υπολογίζεται
για πρόβλεψη.
Τα πρώτα ελληνόγλωσσα βιβλία πάνω στην ΥΝ δημοσιεύτηκαν τις δεκαετίες 1990 και 2000, π.χ.
Διαμαντάρας (2007) και Κινγκ (1998), ωστόσο κατά κανόνα, εστίαζαν σε συγκεκριμένες τεχνολογίες ΥΝ
ή/και σε συγκεκριμένα πεδία εφαρμογής. Για παράδειγμα, το βιβλίο (Διαμαντάρας, 2007) δίνει έμφαση σε
τεχνολογίες τεχνητών νευρωνικών δικτύων σε εφαρμογές επεξεργασίας σήματος, ενώ το βιβλίο (Κινγκ, 1998)
δίνει έμφαση σε τεχνολογίες ασαφών συστημάτων σε εφαρμογές αυτόματου ελέγχου. Μεταγενέστερα βιβλία
ΥΝ στην Ελληνική γλώσσα καταπιάστηκαν πιο «ολιστικά» με την ΥΝ, υπό την έννοια ότι παρουσίασαν
ποικίλες τεχνολογίες ΥΝ (Μπούταλης & Συρακούλης, 2010· Τζαφέστας, 2008), με έμφαση κυρίως σε
τεχνολογίες της κλασικής ΥΝ.
Η ΥΝ σήμερα χαρακτηρίζεται από έλλειμμα μιας ολιστικής θεωρητικής αντίληψης για ανάλυση και
σχεδίαση που να στηρίζουν την παρουσίασή της ως μια διακριτή επιστημονική περιοχή. Ένα επιπλέον
έλλειμμα περιγράφεται στη συνέχεια, αφού θεωρήσουμε τους ακόλουθους ορισμούς: α) δεδομένα (data)
είναι μια τυποποιημένη αναπαράσταση γεγονότων, την οποία μπορούμε να μεταδώσουμε /επεξεργαστούμε,
β) πληροφορία (information) είναι η σημασία που ένας άνθρωπος δίνει στα δεδομένα, και γ) γνώση
(knowledge) είναι η πιστοποιημένη πληροφορία. Μια μεθοδολογία ΥΝ μπορεί τυπικά να επεξεργάζεται
δεδομένα, αλλά όχι τη σημασία των δεδομένων. Χαρακτηριστικό είναι το παράδειγμα των κλασικών
τεχνητών νευρωνικών δικτύων, τα οποία λειτουργούν ως «μαύρα κουτιά» που κάνουν άλεσμα αριθμών
(number crunching) χωρίς να έχουν βαθύτερη γνώση των δεδομένων που επεξεργάζονται, αλλά και χωρίς
να μπορούν να εξηγήσουν τις απαντήσεις τους. Η προσέγγιση της ΥΝ που περιγράφεται σ’ αυτό το βιβλίο
(βλ. Μέρος-ΙΙΙ) προτείνει λύσεις στα προαναφερθέντα ελλείμματα στη βάση του ερευνητικού έργου των
συγγραφέων. Υπό αυτήν την έννοια, το παρόν βιβλίο αποτελεί μια συνεισφορά στην ελληνική γλώσσα σε
εκπαίδευση που κατευθύνεται από έρευνα (research driven education).
Αυτό το βιβλίο χωρίζεται σε τρία μέρη. Στο Μέρος-Ι παρουσιάζονται οι τρεις κλασικές μεθοδολογίες
της ΥΝ. Συγκεκριμένα, στο κεφάλαιο 1 παρουσιάζονται πρώτα βασικές έννοιες νευρωνικού υπολογισμού και
στη συνέχεια δημοφιλείς αρχιτεκτονικές ΤΝΔ. Σημειώστε ότι μια αρχιτεκτονική ΤΝΔ υλοποιεί παράλληλη
και κατανεμημένη επεξεργασία δεδομένων με ικανότητες μάθησης, καθώς και γενίκευσης. Στο κεφάλαιο 2
παρουσιάζονται πρώτα βασικές έννοιες ασαφών συνόλων και ασαφούς λογικής και στη συνέχεια δημοφιλή
ΑΣ. Σημειώστε ότι τα ΑΣ επιτρέπουν τη μοντελοποίηση της ομιλούμενης γλώσσας με αναπαράσταση της
ασάφειας των λέξεων. Στο κεφάλαιο 3 παρουσιάζονται πρώτα βασικές έννοιες του ΕΥ και στη συνέχεια
δημοφιλείς τεχνικές ΕΥ. Σημειώστε ότι ο ΕΥ αποτελεί δημοφιλή τεχνική στοχαστικής βελτιστοποίησης που
τυπικά χρησιμοποιεί πληθυσμούς συνεργαζόμενων ατόμων.
Στο Μέρος-ΙΙ παρουσιάζονται επιλεγμένες μεθοδολογίες της διευρυμένης ΥΝ. Συγκεκριμένα, στο
κεφάλαιο 4 παρουσιάζονται επεκτάσεις ή/και συνέργειες μεθοδολογιών της κλασικής ΥΝ. Οι προτεινόμενες
στο κεφάλαιο 4 μεθοδολογίες μπορούν να επεξεργάζονται αναπαραστάσεις της ασάφειας χρησιμοποιώντας
παράλληλες ή/και κατανεμημένες αρχιτεκτονικές, ενώ μεθοδολογίες εξελικτικού υπολογισμού
χρησιμοποιούνται για βελτιστοποίηση. Στο κεφάλαιο 5 παρουσιάζονται μεθοδολογίες που βασίζονται στη
στατιστική και στη θεωρία πιθανοτήτων ή/και δυνατοτήτων. Σημειώστε ότι οι προαναφερθείσες μεθοδολογίες
επιτρέπουν το χειρισμό μη-αριθμητικών δεδομένων. Στο κεφάλαιο 6 παρουσιάζονται μεθοδολογίες που
0-2
χρησιμοποιούν γράφους, οι οποίοι είναι ένα ακόμη παράδειγμα μη-αριθμητικών δεδομένων με ικανότητα
αναπαράστασης μαθηματικών σχέσεων. Σημειώστε ότι οι μεθοδολογίες ΥΝ που παρουσιάζονται στο Μέρος-
ΙΙ είναι ενδεικτικές, καθώς υπάρχει πλήθος μεθοδολογιών που δημοσιεύονται τακτικά στη βιβλιογραφία.
Στο Μέρος-ΙΙΙ σκιαγραφείται η θεωρία διάταξης ή, εναλλακτικά, θεωρία πλεγμάτων (order theory
ή, εναλλακτικά, lattice theory), η οποία ιστορικά επινοήθηκε για μοντελοποίηση της λογικής, και προτείνεται
μια ενοποίηση ανόμοιων τύπων δεδομένων στη βάση της θεωρίας διάταξης με στόχο μια ολιστική
παρουσίαση της ΥΝ. Στο ίδιο θεωρητικό πλαίσιο προτείνεται επεξεργασία της σημασιολογίας καθώς και της
γνώσης. Συγκεκριμένα, στο κεφάλαιο 7 παρουσιάζονται βασικές έννοιες της θεωρίας διάταξης και στη
συνέχεια σκιαγραφούνται οι προοπτικές τους για ανάλυση και σχεδίαση στην ΥΝ. Σημειώστε ότι το
μαθηματικό περιεχόμενο αυτού του κεφαλαίου παρουσιάζεται απλοποιημένο για διδακτικούς λόγους. Στο
κεφάλαιο 8 παρουσιάζονται τρεις δημοφιλείς υπολογιστικές μεθοδολογίες από τη βιβλιογραφία, οι οποίες
βασίζονται στη θεωρίας διάταξης, σε συγκεκριμένα πεδία της πληροφορικής, τα οποία περιλαμβάνουν
επεξεργασία σημάτων, βάσεις δεδομένων και συλλογιστική. Στο κεφάλαιο 9 μελετώνται οι αριθμοί
διαστημάτων (ΑΔ) (intervals’ number (INs)) και δείχνονται τρόποι γενίκευσης, καθώς και βελτίωσης
δημοφιλών μεθοδολογιών ΥΝ στη βάση των ΑΔ.
Η βιβλιογραφία παρουσιάζεται ανά κεφάλαιο με περιορισμένες επικαλύψεις. Τα τρία Παραρτήματα
πραγματεύονται ειδικά θέματα. Συγκεκριμένα, το Παράρτημα Α περιλαμβάνει έναν οδηγό χρήσης της
πλατφόρμας MATLAB και, επιπλέον, περιλαμβάνει υπολογιστικά παραδείγματα· το Παράρτημα Β
παρουσιάζει διάφορες στατιστικές τεχνικές αξιολόγησης μοντέλων ΥΝ· το Παράρτημα Γ σκιαγραφεί
εφαρμογές της ΥΝ. Ένας κατάλογος με ακρωνύμια έπεται του πίνακα περιεχομένων στην αρχή του βιβλίου.
Στο τέλος αυτού του βιβλίου παρουσιάζονται δύο κατάλογοι: ο πρώτος είναι ένα ευρετήριο όρων και ο
δεύτερος είναι ένα γλωσσάρι ελληνικών όρων με τους αντίστοιχους αγγλικούς.
Καβάλα, 2015
Οι συγγραφείς,
Βασίλειος Καμπουρλάζος
Γεώργιος Παπακώστας
Βιβλιογραφία
Andresen, S.L. (2002). John McCarthy: Father of AI. IEEE Intel Syst, 17(5), 84-85.
Βλαχάβας, Ι., Κεφαλάς, Π., Βασιλειάδης, Ν., Κόκκορας, Φ. & Σακελλαρίου, Η. (2006). Τεχνητή Νοημοσύνη
(3η εκδ.). Αθήνα, Ελλάς: Β. Γκιούρδας.
Διαμαντάρας, Κ. (2007). Τεχνητά Νευρωνικά Δίκτυα. Αθήνα, Ελλάς: Κλειδάριθμος.
Kaburlasos, V.G. & Kehagias, A. (2014). Fuzzy inference system (FIS) extensions based on lattice theory.
IEEE Transactions on Fuzzy Systems, 22(3) 531-546.
Kaburlasos, V.G. & Papakostas, G.A. (2015). Learning distributions of image features by interactive fuzzy
lattice reasoning (FLR) in pattern recognition applications. IEEE Computational Intelligence Magazine,
10(3), 42-51.
Κινγκ, Ρ.-Ε. (1998). Υπολογιστική Νοημοσύνη στον Έλεγχο Συστημάτων. Αθήνα, Ελλάς: Τραυλός.
Μπούταλης, Ι. & Συρακούλης, Γ. (2010). Υπολογιστική Νοημοσύνη και Εφαρμογές. Ξάνθη, Ελλάς: Εκδότες οι
συγγραφείς.
Polycarpou, M.M. (2013). Computational intelligence in the undergraduate curriculum. IEEE Computational
Intelligence Magazine, 8(2) 3.
Russell, S. & Norvig, P. (2005). Τεχνητή Νοημοσύνη: Μια Σύγχρονη Προσέγγιση (2η εκδ.) (Γ. Ρεφανίδης,
Μτφρ). Αθήνα, Ελλάς: Κλειδάριθμος.
Τζαφέστας, Σ.Γ. (2008). Υπολογιστική Νοημοσύνη: Τόμος Α – Μεθοδολογίες. Αθήνα, Ελλάς: Εκδότης ο
Συγγραφέας.
0-3
Μέρος-Ι: Κλασική Υπολογιστική Νοημοσύνη
Εισαγωγή στο Μέρος-Ι
Οι καινοτόμες μεθοδολογίες στην ΥΝ είναι λίγες και χαρακτηρίζονται από ουσιαστικά διαφορετικές
μαθηματικές περιγραφές. Η επιδίωξη μεθοδολογιών ΥΝ να προσεγγίζουν συναρτήσεις έχει
αναγνωριστεί (Castro & Delgado, 1996· Gori κ.ά., 1998· Hornik κ.ά., 1989· Kaburlasos & Kehagias,
2014· Kosko, 1994· Nauck & Kruse· 1999, Zeng & Singh, 1996). Το Μέρος-Ι αυτού του βιβλίου
παρουσιάζει τρεις καινοτόμες μεθοδολογίες, οι οποίες αποτελούν τον πυρήνα της κλασικής ΥΝ και
περιλαμβάνουν τα ΤΝΔ, τα ΑΣ και τον ΕΥ.
Βιβλιογραφία
Castro, J.L. & Delgado, M. (1996). Fuzzy systems with defuzzification are universal approximators.
IEEE Transactions on Systems, Man, Cybernetics – B, 26(1), 149-152.
Gori, M., Scarselli, F. & Tsoi, A.C. (1998). On the closure of the set of functions that can be realized
by a given multilayer perceptron. IEEE Transactions on Neural Networks, 9(6), 1086-1098.
Hornik, K., Stinchcombe, M. & White, H. (1989). Multilayer feedforward networks are universal
approximators. Neural Networks, 2(5), 359-366.
Kaburlasos, V.G. & Kehagias, A. (2014). Fuzzy inference system (FIS) extensions based on lattice
theory. IEEE Transactions on Fuzzy Systems, 22(3), 531-546.
Kosko, B. (1994). Fuzzy systems as universal approximators. IEEE Transactions on Computers, 43(11),
1329-1333.
Nauck, D. & Kruse, R. (1999). Neuro-fuzzy systems for function approximation. Fuzzy Sets and
Systems, 101(2), 261-271.
Zeng, X.J. & Singh, M.G. (1996). Approximation accuracy analysis of fuzzy systems as function
approximators. IEEE Transactions on Fuzzy Systems, 4(1), 44-63.
I-2
Κεφάλαιο 1: Τεχνητά Νευρωνικά Δίκτυα
Ένας ηλεκτρονικός υπολογιστής (Η/Υ) τύπου von Neumann είναι πολύ πιο γρήγορος και πιο ακριβής από
έναν άνθρωπο στους αριθμητικούς υπολογισμούς. Επίσης, ένας Η/Υ μπορεί να αποθηκεύει αξιόπιστα
τεράστιο όγκο δεδομένων. Ωστόσο, ο άνθρωπος είναι ασύγκριτα πιο αποτελεσματικός σε ορισμένα
προβλήματα, όπως η αναγνώριση αντικειμένων /καταστάσεων, καθώς και οι συσχετίσεις αυτών. Επίσης, ο
άνθρωπος μπορεί να μαθαίνει εμπειρικά, ενώ ένας Η/Υ θα πρέπει να προγραμματιστεί.
Οι προαναφερθείσες διαφορές στις δεξιότητες ανθρώπου και Η/Υ κατά γενική πεποίθηση οφείλονται
στη διαφορετική αρχιτεκτονική του Η/Υ και του ανθρώπινου εγκέφαλου. Συγκεκριμένα, από τη μια μεριά, ο
Η/Υ έχει λίγες αλλά πολύπλοκες μονάδες επεξεργασίας πληροφοριών. Από την άλλη μεριά, ο ανθρώπινος
εγκέφαλος αποτελείται από πολλά δισεκατομμύρια (>109) απλές μονάδες επεξεργασίας πληροφοριών (βλ.
νευρικά κύτταρα) που ονομάζονται νευρώνες. Κάθε νευρώνας (neuron) μπορεί να επικοινωνεί με χιλιάδες
άλλους μέσω αποφυάδων που ονομάζονται δενδρίτες, μεγάλο μέρος της επιφάνειας των οποίων καλύπτεται
από τα συναπτικά άκρα αποφυάδων άλλων νευρώνων. Κατά τη λειτουργία του εγκεφάλου ηλεκτρική
διέγερση ενός νευρώνα μπορεί να μεταφερθεί προς κάθε νευρώνα με τον οποίο αυτός είναι διασυνδεδεμένος.
Έτσι, λειτουργεί ο ανθρώπινος εγκέφαλος εκτελώντας, μαζικά, μια παράλληλη και κατανεμημένη
επεξεργασία ηλεκτρικών σημάτων.
Η λειτουργία του νευρικού συστήματος, συμπεριλαμβανομένου του εγκέφαλου, μελετήθηκε ήδη από
τις αρχές του 20ου αιώνα. Ιδιαίτερο ενδιαφέρον εδώ έχουν οι μελέτες εκείνες που ποσοτικοποιούν τη
λειτουργία του νευρικού συστήματος. Για παράδειγμα, ο ψυχολόγος Hebb το 1949 παρατήρησε ότι όταν δύο
διασυνδεδεμένοι νευρώνες διεγείρονται ταυτόχρονα, τότε αυξάνει η δύναμη της μεταξύ τους διασύνδεσης
(Hebb, 1949). Η προαναφερθείσα αύξηση είναι γνωστή στη βιβλιογραφία ως μάθηση κατά Hebb (Hebbian
learning).
Στις μαθηματικές περιγραφές που ακολουθούν τα διανύσματα συμβολίζονται με έντονα μικρά
γράμματα, οι πίνακες συμβολίζονται με κεφαλαία γράμματα, ενώ ο εκθέτης “T” δείχνει τον ανάστροφο
(transpose) ενός διανύσματος ή πίνακα.
1, T
(γ) Δυαδική (δίτιμη) συνάρτηση μεταφοράς με κατώφλι T: f ( ) ,
0 T
1-1
1
(δ) Σιγμοειδής (ή, Λογιστική) συνάρτηση μεταφοράς: f ( ) , και
1 e
1 e
(ε) Συνάρτηση μεταφοράς τύπου υπερβολικής εφαπτομένης: f ( ) .
1 e
x1 w1
x2 w2
f() u
xn wn
xn+1= 1
Μια άλλη απλοποιητική παραδοχή αφορά τον τρόπο με τον οποίο διασυνδέονται οι νευρώνες ενός
ΤΝΔ. Συγκεκριμένα, θεωρούμε ότι οι νευρώνες ενός ΤΝΔ διατάσσονται σε διαδοχικά στρώματα τα οποία
αλληλοσυνδέονται πλήρως όπως φαίνεται στο Σχήμα 1.2, όπου απεικονίζεται ένα προσωτροφοδοτούμενο
ΤΝΔ (feedforward ANN) τριών στρωμάτων νευρώνων με την πληροφορία (βλ. αριθμούς) να μεταδίδεται
από τα χαμηλότερα προς τα υψηλότερα στρώματα. Προσέξτε ότι ένας νευρώνας σε κάθε στρώμα είναι
πλήρως διασυνδεδεμένος υπό την έννοια ότι διασυνδέεται μέσω κάποιου κατευθυνόμενου σύνδεσμου
(directed connection) με κάθε νευρώνα του επόμενου στρώματος (αν υπάρχει τέτοιο στρώμα), αλλά και με
κάθε νευρώνα του αμέσως προηγούμενου στρώματος (αν υπάρχει τέτοιο στρώμα). Σημειώστε ότι κανένας
νευρώνας του στρώματος εισόδου δεν έχει συνάρτηση μεταφοράς, ενώ κάθε άλλος νευρώνας έχει συνάρτηση
μεταφοράς. Τυπικά, θεωρούμε την ίδια συνάρτηση μεταφοράς για όλους τους νευρώνες. Όμως, διαφορετικές
συναρτήσεις μεταφοράς θα μπορούσαν να θεωρηθούν για διαφορετικούς νευρώνες.
1-2
opj
wji
wji
xpi
Σχήμα 1.2 Προσωτροφοδοτούμενο ΤΝΔ τριών στρωμάτων νευρώνων. Η είσοδος που είναι το διάνυσμα αριθμών xp
μεταδίδεται από τα χαμηλότερα προς τα υψηλότερα στρώματα κατά τη φορά που δείχνουν τα βέλη. Στο στρώμα εξόδου
υπολογίζεται το διάνυσμα αριθμών op. Με διακεκομμένη γραμμή wji σημειώνεται το βάρος του κατευθυνόμενου συνδέσμου
wji που καταλήγει στο νευρώνα “j” ξεκινώντας από το νευρώνα “i” του προηγούμενου στρώματος.
Η λεπτομερής υλοποίηση κάθε νευρώνα στο Σχήμα 1.2 είναι αυτή που φαίνεται στο Σχήμα 1.1. Ένας
νευρώνας, έστω “i”, του στρώματος εισόδου δεν κάνει κανέναν υπολογισμό, παρά μόνο προωθεί την
αντίστοιχη αριθμητική του είσοδο xpi (του διανύσματος xp εισόδου) προς κάθε νευρώνα του κρυμμένου
στρώματος. Σημειώστε ότι κάθε κατευθυνόμενος σύνδεσμος έχει ένα συγκεκριμένο βάρος (w). Μια σύμβαση
σχετικά με την ονοματολογία των βαρών ενός ΤΝΔ είναι η ακόλουθη. Γράφοντας wji εννοούμε το βάρος του
συνδέσμου που κατευθύνεται στο νευρώνα “j” ξεκινώντας από τον νευρώνα “i” του προηγούμενου
στρώματος, όπως φαίνεται στο Σχήμα 1.2.
Μάθηση ενός ΤΝΔ ονομάζεται η διαδικασία υπολογισμού των βαρών των συνδέσμων ενός ΤΝΔ.
Υπάρχουν δύο τύποι μάθησης ΤΝΔ που περιλαμβάνουν (α) Μάθηση με εποπτεία ή, εναλλακτικά, επίβλεψη
(supervision), η οποία τυπικά χρησιμοποιείται για κατηγοριοποίηση, και (β) Μάθηση χωρίς εποπτεία, η οποία
τυπικά χρησιμοποιείται για ομαδοποίηση. Συγκεκριμένα, από τη μία μεριά, στη μάθηση με εποπτεία το ΤΝΔ
μαθαίνει συγκεκριμένα ζεύγη διανυσμάτων (xi, ti), i{1,…,n} (εισόδου, εξόδου) υπό την εξής έννοια. Όταν
το διάνυσμα xi εφαρμοστεί στην είσοδο του εκπαιδευμένου ΤΝΔ, τότε υπολογίζεται το αντίστοιχο διάνυσμα
ti, i{1,…,n} στην έξοδο του ΤΝΔ. Ωστόσο συχνά δεν είναι δυνατή μια εκπαίδευση ΤΝΔ που να επιτρέπει
τον ακριβή υπολογισμό του προαναφερθέντος διανύσματος ti, στην έξοδο του ΤΝΔ. Οπότε, αντί του ακριβούς
υπολογισμού του διανύσματος ti, μεθοδεύσουμε μια εκπαίδευση ΤΝΔ τέτοια, ώστε να υπολογίζεται ένα
διάνυσμα οi το οποίο να αποτελεί μια βέλτιστη, συνήθως υπό την έννοια των ελαχίστων τετραγώνων, του
διανύσματος ti, i{1,…,n}. Από τη άλλη μεριά στη μάθηση χωρίς εποπτεία είναι διαθέσιμα τα διανύσματα xi,
i{1,…,n} για εκπαίδευση, αλλά δεν είναι διαθέσιμα τα διανύσματα ti, i{1,…,n}.
1-3
Πλεονεκτήματα των ΤΝΔ περιλαμβάνουν: (1) Μάθηση από εμπειρία (βλ. καταγεγραμμένα δεδομένα)
συναρτήσεων εισόδου-εξόδου. Συγκεκριμένα, η μάθηση των ΤΝΔ πραγματοποιείται με τη μεταβολή των
βαρών των συνδέσμων έτσι, ώστε να ελαχιστοποιείται ένα καλώς ορισμένο σφάλμα, (2) Προσέγγιση μη-
γραμμικών συναρτήσεων εισόδου-εξόδου, (3) Ανεκτικότητα σε βλάβες λόγω της παράλληλης δομής και
λειτουργίας τους, (4) Ικανότητα γενίκευσης και (5) Κατανεμημένη και παράλληλη τοπολογία.
Αν και ένα ΤΝΔ μπορεί να αποτελείται από περισσότερα από τρία στρώματα νευρώνων, έχει
αποδειχθεί ότι οποιαδήποτε συναρτησιακή σχέση μπορεί στην πράξη να υλοποιηθεί με ένα ΤΝΔ τριών
στρωμάτων. Συνεπώς, σε εφαρμογές προσέγγισης μιας συνάρτησης f: RNT τυπικά χρησιμοποιούνται ΤΝΔ
τριών στρωμάτων νευρώνων.
Θεωρήστε (α) ένα ΤΝΔ τριών στρωμάτων (Σχήμα 1.2) και (β) μια γραμμική συνάρτηση μεταφοράς
νευρώνων (Σχήμα 1.1), δηλ. f(σ) = σ. Έστω W1 ο πίνακας βαρών των συνδέσμων μεταξύ του στρώματος
εισόδου και του κρυμμένου στρώματος και έστω W2 ο πίνακας βαρών των συνδέσμων μεταξύ του κρυμμένου
στρώματος και του στρώματος εξόδου. Τότε το διάνυσμα h των εξόδων των νευρώνων του κρυμμένου
στρώματος υπολογίζεται ως h= W1x, ενώ το διάνυσμα o των εξόδων των νευρώνων του στρώματος εξόδου
υπολογίζεται ως o= W2h = W2W1x = Wx, όπου W= W2W1 και x είναι το διάνυσμα εισόδου του ΤΝΔ. Η
προηγούμενη ανάλυση μπορεί εύκολα να επεκταθεί σε περισσότερα από τρία στρώματα και δείχνει ότι, για
γραμμικές συναρτήσεις μεταφοράς νευρώνων, ένα ΤΝΔ πολλαπλών στρωμάτων είναι υπολογιστικά
ισοδύναμο με ένα ΤΝΔ δύο μόνον στρωμάτων. Στη συνέχεια εστιάζουμε στη μελέτη ενός ΤΝΔ δύο
στρωμάτων με γραμμικές συναρτήσεις μεταφοράς νευρώνων, το οποίο είναι γνωστό με το όνομα perceptron.
Δpwji = tpjipi
Η μεταβολή ολόκληρου του πίνακα βαρών W, η οποία οφείλεται στην εφαρμογή του ζεύγους
διανυσμάτων (ip,tp) σύμφωνα με τον κανόνα Δέλτα περιγράφεται από την ακόλουθη εξίσωση:
ΔpW = tpipT
Θεωρώντας W(αρχικό)=0, μετά την παρουσίαση όλων των ζευγών (ip,tp), p{1,…,n} προκύπτει ο
ακόλουθος πίνακας βαρών
n
W t p i Tp
p 1
Μια δημοφιλής απλοποιητική παραδοχή είναι ότι τα διανύσματα εισόδου ip, p{1,…,n} είναι
ορθοκανονικά, εννοώντας ότι το εσωτερικό γινόμενο ipiq ισούται με 0 όταν pq, ενώ ισούται με 1 όταν p=q.
Με άλλα λόγια, το κάθε ένα από τα προαναφερθέντα (ορθοκανονικά) διανύσματα έχει μήκος ίσο με τη
μονάδα και, επιπλέον, τα (ορθοκανονικά) διανύσματα είναι κάθετα μεταξύ τους ανά δύο. Η σημασία των
ορθοκανονικών διανυσμάτων δείχνεται με την ακόλουθη εξίσωση
n
Wi k t p i Tp i k t k
p 1
1-4
Η παραπάνω εξίσωση δείχνει ότι το ΤΝΔ έχει αποστηθίσει τα ζεύγη διανυσμάτων (ip,tp), p{1,…,n}
με τα οποία εκπαιδεύτηκε έτσι, ώστε όταν εφαρμόζουμε ένα διάνυσμα ip, p{1,…,n} στην είσοδο του
εκπαιδευμένου ΤΝΔ, τότε στην έξοδο του ΤΝΔ υπολογίζεται το διάνυσμα tp, p{1,…,n}.
Δυστυχώς, δεν μπορούμε πάντοτε να έχουμε ορθογώνια διανύσματα εισόδου ip, p{1,…,n}.
Ευτυχώς, όμως, ο κανόνας Δέλτα εγγυάται την ακριβή μάθηση ζευγών διανυσμάτων (ip,tp), p{1,…,n} αρκεί
τα διανύσματα εισόδου ip να είναι γραμμικώς ανεξάρτητα μεταξύ τους. Ενώ, για μη-γραμμικώς ανεξάρτητα
διανύσματα εισόδου ip, p{1,…,n} ο κανόνας Δέλτα εγγυάται τον υπολογισμό βέλτιστων, υπό την έννοια
των ελαχίστων τετραγώνων, βαρών του πίνακα W, όταν αυτά τα βάρη υπολογίζονται με την εξίσωση
όπου W(n) είναι ο πίνακας των βαρών κατά την παρουσίαση του nστου διανύσματος εισόδου i(n), είναι μια
(μικρή) σταθερά που αντιστοιχεί στο ρυθμό μάθησης (learning rate), και (n) = t(n) - o(n) = t(n)-W(n-1)i(n)
είναι η διαφορά μεταξύ του επιθυμητού διανύσματος εξόδου t(n) και του πραγματικού διανύσματος εξόδου
o(n) = W(n-1)i(n) κατά την παρουσίαση του i(n).
Μέχρι εδώ έχουμε μελετήσει τον κανόνα Δέλτα σε επίπεδο αναπαράστασης νευρώνων (neuron
representation), όπου η αναπαράσταση νευρώνων ερμηνεύει το διάνυσμα των τιμών διέγερσης ενός
στρώματος νευρώνων ως ξεχωριστές οντότητες (διεγέρσεις). Στη συνέχεια μελετούμε τη μορφή του κανόνα
Δέλτα σε επίπεδο αναπαράστασης προτύπων (pattern representation), όπου η αναπαράσταση προτύπων
ερμηνεύει το διάνυσμα των τιμών διέγερσης ενός στρώματος νευρώνων ως μια οντότητα (έννοια). Με όρους
γραμμικής άλγεβρας, οι προαναφερθείσες δύο αναπαραστάσεις (δηλ. νευρώνων και προτύπων) συσχετίζονται
με ένα γραμμικό μετασχηματισμό. Στη συνέχεια, δείχνουμε ότι στο πεδίο αναπαράστασης προτύπων
προκύπτει ένας παρόμοιος κανόνας Δέλτα όπως και στο πεδίο αναπαράστασης νευρώνων, όπου το μόνο που
έχει σημασία είναι ο συσχετισμός μεταξύ διανυσμάτων εισόδου και όχι τα διανύσματα καθαυτά.
Συγκεκριμένα, έστω PI ο πίνακας που μετασχηματίζει γραμμικά ένα διάνυσμα εισόδου i από την
αναπαράσταση νευρώνων στο διάνυσμα i* PI i στην αναπαράσταση προτύπων και, παρόμοια, έστω PΤ ο
πίνακας που μετασχηματίζει γραμμικά ένα επιθυμητό διάνυσμα εξόδου t στο διάνυσμα t* PT t . Σημειώστε
ότι ένα διάνυσμα o, το οποίο υπολογίζεται στην έξοδο, ανήκει στον ίδιο χώρο με ένα επιθυμητό διάνυσμα
εξόδου, συνεπώς το διάνυσμα o μετασχηματίζεται στο διάνυσμα o* PTo . Στη συνέχεια υπολογίζουμε το
μετασχηματισμό του πίνακα W των βαρών.
Για διάνυσμα εισόδου i, το αντίστοιχο διάνυσμα εξόδου o υπολογίζεται ως o = Wi. Επειδή
εμπλέκονται μόνο γραμμικοί μετασχηματισμοί, συμπεραίνουμε ότι ένας γραμμικός μετασχηματισμός W*
συνδέει τη μετασχηματισμένη είσοδο i* με τη μετασχηματισμένη έξοδο o*. Συγκεκριμένα, o* = W*i*, όπου
o* PT o και i* PI i . Συνεπώς, o* = W*i* PT o = W*PI i o = PT1W*PI i = Wi PT1W*PI = W
W* = PT WPI1 .
Στη συνέχεια μετασχηματίζουμε την Εξ.(1.1) πολλαπλασιάζοντας το κάθε μέλος της από αριστερά
και από δεξιά με τους πίνακες PT και PI1 , αντίστοιχα. Προκύπτει:
όπου
= t* (n ) PT W( n 1)PT1i* ( n ) = t* (n ) W* (n 1)i* (n ) = t* ( n ) o* ( n ) = ( n ) .
Συνεπώς:
1-5
W* (n) = W* ( n 1) PT (n ) i T (n )PI1 = W* ( n 1) * ( n ) i( n ) PI1 =
T
= W* ( n 1) * ( n ) PI1i* ( n ) PI1 = W* ( n 1) * ( n ) i* ( n ) PI1 PI1 .
T T T
Τελικά, προκύπτει:
T
W* (n) = W* ( n 1) * ( n ) i* ( n ) C , (1.2)
T
όπου ο πίνακας C PI1 PI1 περιέχει τη συσχέτιση μεταξύ των διανυσμάτων εισόδου υπό την ακόλουθη
έννοια. Θυμηθείτε ότι ο πίνακας PI μετασχηματίζει γραμμικά τα διανύσματα εισόδου από το σύστημα
αναπαράστασης νευρώνων στο σύστημα αναπαράστασης προτύπων εισόδου, όπως εξηγήθηκε παραπάνω.
Επομένως, ένα νέο διάνυσμα εισόδου i *j περιέχει ένα 1 στη θέση j και 0 οπουδήποτε αλλού. Επειδή
i j PI1i *j , συμπεραίνουμε ότι η στήλη j του πίνακα PI1 είναι το διάνυσμα j εισόδου εκφρασμένο στο
T
σύστημα αναπαράστασης νευρώνων. Συνεπώς, ο πίνακας C PI1 PI1 περιέχει το εσωτερικό γινόμενο iiij
των διανυσμάτων εισόδου ii και ij, το οποίο εκφράζει τη συσχέτιση μεταξύ των διανυσμάτων εισόδου.
Η προαναφερθείσα αναπαράσταση προτύπων οδηγεί σε μια διορατική αντίληψη της λειτουργίας του
κανόνα Δέλτα, όπως παρουσιάζεται στο ακόλουθο αριθμητικό παράδειγμα.
Παράδειγμα
Θεωρήστε ένα ΤΝΔ δύο στρωμάτων, έστω με 8 εισόδους και 6 εξόδους, το οποίο θέλουμε να μάθει τα
ακόλουθα ζεύγη διανυσμάτων (x1,y1), (x2,y2), (x3,y3) και (x4,y4):
0.36 0.57
0.20 0.05
0.10 0.07
0.49 0.66 0.12 0.39
. . . .
x1 y x2 y
0 44 0 30 0 23 0 74
0.01 , 0.08 ,
0.08 0.21
1 2
0.28 0.45 0.47 0.46
0.09 0.36
0.50 0.19
0.55 0.50
0.25 0.11
0.48 0.08
0.10 0.47
0.48 0.40 0.03 0.17
0.56 0.27 0.36 0.21
x3 y3 , x4 y4 ,
0.18 0.27 0.01 0.01
0.28 0.56 0.71 0.66
0.04 0.54
0.61 0.51
0.22 0.24
1-6
Τα διανύσματα εισόδου x1, x2, x3 και x4 επιλέχθηκαν έτσι, ώστε να είναι γραμμικά ανεξάρτητα
μεταξύ τους και, επιπλέον, το καθένα έχει μοναδιαίο μήκος. Ο πίνακας C που δείχνει τη συσχέτιση (βλ.
εσωτερικό γινόμενο) των διανυσμάτων x1, x2, x3 και x4 παρουσιάζεται στη συνέχεια.
1 0.75 0 0 x1 x1 x1 x 2 x1 x3 x1 x 4
0.75 x 2 x 4
1 0 0 x 2 x1 x2 x2 x 2 x3
C
0 0 1 0.25 x3 x1 x3 x 2 x3 x3 x3 x 4
0 0 0.25 1 x4 x1 x4 x2 x 4 x3 x4 x4
Η παρουσίαση των προαναφερθέντων ζευγών διανυσμάτων (με τη σειρά x1y1, x2y2, x3y3 και
x4y4) στο ΤΝΔ για μάθηση σύμφωνα με την Εξ.(1.1), ή την Εξ.(1.2), ονομάζεται κύκλος μάθησης (epoch).
Το Σχήμα 1.3 παρουσιάζει, συγκριτικά, τους πίνακες βαρών W και W* για την αναπαράσταση
προτύπων και την αναπαράσταση νευρώνων, αντίστοιχα, μετά από 1, 4 και 8 κύκλους μάθησης. Σημειώστε
ότι οι πίνακες W και W* υπολογίστηκαν με τη χρήση της Εξ.(1.1) και της Εξ.(1.2) αντίστοιχα με την
παραδοχή W(0) = W*(0) = [0], δηλ. οι πίνακες W και W* τη χρονική στιγμή n=0 έχουν μηδενικά όλα τα
στοιχεία τους.
Το Σχήμα 1.3 καταδεικνύει την αξία του πίνακα βαρών W* συγκριτικά με τον πίνακα βαρών W.
Συγκεκριμένα, παρατηρώντας στιγμιότυπα του πίνακα W δεν μπορούμε εύκολα να αντιληφθούμε ούτε την
ποιότητα της μάθησης του ΤΝΔ, αλλά ούτε και την παρεμβολή (crosstalk) μεταξύ των επιθυμητών
διανυσμάτων εξόδου. Ωστόσο, παρατηρώντας στιγμιότυπα του πίνακα W* μπορούμε εύκολα να
αντιληφθούμε τόσο την ποιότητα της μάθησης του ΤΝΔ, όσο και την παρεμβολή μεταξύ των επιθυμητών
διανυσμάτων εξόδου. Επιπλέον, η αναπαράσταση προτύπων επιτρέπει την εξαγωγή μιας αναλυτικής
έκφρασης, η οποία δείχνει ότι το μέσο τετραγωνικό σφάλμα (ΜΤΣ) (mean square error (MSE)) μάθησης
βαίνει μειούμενο, όπως εξηγείται στη συνέχεια.
Το σφάλμα *j ( n ) μάθησης του πρότυπου διανύσματος j το οποίο παρουσιάζεται την χρονική στιγμή
“n” ισούται με *j (n ) t *j W* ( n )i *j . Αντικαθιστώντας την έκφραση του πίνακα W* ( n ) από την Εξ.(1.2)
T
*j ( n 1) *j ( n ) i*j Ci*j .
Ήδη γνωρίζουμε ότι το διάνυσμα i *j περιέχει ένα 1, ενώ τα υπόλοιπα στοιχεία του είναι 0. Συνεπώς, η
T
έκφραση i *j Ci *j ισούται με C jj . Οπότε, τελικά, προκύπτει: *j (n) = *j (n 1) *j ( n )C jj
1
*j ( n ) 1 C jj = *j ( n 1) *j ( n ) = *j ( n 1) .
1 C jj
Λαμβάνοντας υπόψη ότι το μήκος C jj του διανύσματος j είναι θετικό, δηλ. C jj 0 , προκύπτει
1
1 . Συνεπώς, *j ( n ) < *j ( n 1) . Με άλλα λόγια, το σφάλμα βαίνει μειούμενο. Συνεπώς, το
1 C jj
συμπέρασμα που προέκυψε αναλυτικά, χρησιμοποιώντας την αναπαράσταση προτύπων, είναι ότι το σφάλμα
μάθησης ζευγών διανυσμάτων “(είσοδος, έξοδος)” βαίνει μειούμενο σε κάθε επανάληψη κατά την διαδικασία
μάθησης.
Στο πλαίσιο της προηγούμενης (γραμμικής) μαθηματικής ανάλυσης, το ΤΝΔ «εκφυλίστηκε» σε μια
αποτελεσματική (βλ. παράλληλη) υλοποίηση ενός αλγορίθμου στατιστικής βελτιστοποίησης χωρίς
ουσιαστική αναφορά σε κάποια βιολογική λειτουργία με την οποία μια μεθοδολογία ΥΝ εξ ορισμού
αναμένεται να είναι συνυφασμένη. Ένας επιπλέον περιορισμός προέρχεται από την απλοποιητική παραδοχή
μιας γραμμικής συνάρτησης μεταφοράς νευρώνων. Στη συνέχεια εξηγούμε κάποια προβλήματα που
ανακύπτουν από τον προαναφερθέντα (γραμμικό) περιορισμό και, κατόπι, μελετούμε έναν τρόπο για να
ξεπεραστούν προαναφερθέντα προβλήματα.
1-7
Αναπαράσταση Νευρώνων (W) Αναπαράσταση Προτύπων (W*)
0.05 0.16 0.10 0.14 0.02 0.15 0.17 0.16 0.00 0.00 1.00 0.00
0.36 0.42 0.47
0.81 0.08 0.86 0.53 0.12 0.00 0.00 0.00 1.00
0.06 0.66 0.16 0.53 0.02 0.09 1.01 0.19
Σχήμα 1.3 Σύγκριση του πίνακα βαρών W (αναπαράσταση νευρώνων) και του πίνακα βαρών W* (αναπαράσταση
προτύπων) μετά από 1, 4 και 8 κύκλους μάθησης. Σε κάθε περίπτωση σημειώνεται το ΜΤΣ.
Θεωρήστε την πύλη XOR, ο πίνακας αλήθειας της οποίας παρουσιάζεται στο Σχήμα 1.4(α). Το
Σχήμα 1.4(β) δείχνει την γραφική παράσταση της προαναφερθείσας πύλης XOR στο επίπεδο. Η μάθηση, με
οποιαδήποτε γραμμική συνάρτηση μεταφοράς νευρώνα, της συνάρτησης XOR σημαίνει υπολογισμό μιας
ευθείας στο επίπεδο τέτοιας, ώστε από τη μια μεριά της ευθείας να είναι οι γεμισμένοι (μαύροι) κύκλοι, ενώ
από την άλλη πλευρά της ευθείας να είναι οι κενοί κύκλοι. Όμως, τέτοια ευθεία δεν υπάρχει. Ή, μιλώντας με
τεχνικούς όρους, λέμε ότι αυτό το πρόβλημα δεν είναι γραμμικά διαχωρίσιμο. Η αδυναμία ενός γραμμικού
ΤΝΔ perceptron να μάθει τον πίνακα αλήθειας της πύλης XOR (Minsky & Papert, 1969) ήταν μια βασική
αιτία που διεκόπη η χρηματοδότηση έργων ΤΝΔ από τα μέσα της δεκαετίας του 1960.
Στα μέσα της δεκαετίας του 1980 προτάθηκαν αρχιτεκτονικές ΤΝΔ, όπως αυτή στο Σχήμα 1.4(γ), οι
οποίες μπορούσαν να μάθουν τον πίνακα αλήθειας της πύλης XOR. Οι προτεινόμενες αρχιτεκτονικές ΤΝΔ
είχαν μη-γραμμικές συναρτήσεις μεταφοράς, καθώς και περισσότερα από 2 στρώματα νευρώνων.
Συγκεκριμένα, το ΤΝΔ στο Σχήμα 1.4(γ) έχει δίτιμη συνάρτηση μεταφοράς νευρώνα με κατώφλι είτε 1.5 είτε
1-8
0.5. Χρησιμοποιώντας τα βάρη που δείχνονται στο Σχήμα 1.4(γ) μπορούμε να επαληθεύουμε ότι το ΤΝΔ στο
Σχήμα 1.4(γ) υλοποιεί την πύλη XOR.
1
x1 x2 XOR
0 0 0
0 1 1
1 0 1
1 1 0
0
(α) (β) 1
+1 +1
-2
+1 +1
Στρώμα εισόδου
x1 x2
(γ)
Σχήμα 1.4 (α) Ο πίνακας αλήθειας της πύλης XOR με δύο μεταβλητές εισόδου x1 και x2, (β) Η γραφική παράσταση της
πύλης XOR στο επίπεδο, (γ) Το ΤΝΔ τριών στρωμάτων, με τα βάρη που επισημαίνονται, καθώς και με δίτιμη συνάρτηση
μεταφοράς με το κατώφλι που φαίνεται μέσα σε ένα νευρώνα, υλοποιεί την πύλη XOR.
1-9
1.3.1 Γενικευμένος Κανόνας Δέλτα
Έστω ότι εφαρμόζουμε το διάνυσμα xp στην είσοδο ενός ΤΝΔ τριών στρωμάτων νευρώνων (βλ. Σχήμα 1.2)
και επιθυμούμε να υπολογιστεί το διάνυσμα tp στην έξοδο. Δεδομένων των συγκεκριμένων τιμών που έχουν
τα βάρη, στην έξοδο του ΤΝΔ θα υπολογιστεί διάνυσμα op το οποίο στη γενική περίπτωση θα είναι op tp. Το
ερώτημα είναι πώς να μεταβάλουμε το κάθε βάρος wji του ΤΝΔ έτσι ώστε να μειωθεί το τετραγωνικό σφάλμα
εξόδου Ep tpj opj και συνεπώς το διάνυσμα op να προσεγγίσει το επιθυμητό διάνυσμα tp.
1 2
2 j
Το σφάλμα Ep είναι συνάρτηση όλων των βαρών wji του ΤΝΔ. Προκειμένου να μειωθεί το σφάλμα
Ep, αρκεί να μεταβληθεί το κάθε βάρος wji του ΤΝΔ κατά μια (μικρή) ποσότητα Δpwji ανάλογη με την
Ep Ep Ep
παράγωγο , δηλ. Δpwji . Θεωρούμε ότι υπάρχει η παράγωγος , την οποία υπολογίζουμε
wji wji wji
Ep Ep pj
στη συνέχεια. Συγκεκριμένα, , όπου pj wjk opk . Δηλαδή, pj είναι η έξοδος του
=
wji pj wji k
αθροιστή (βλ. Σχήμα 1.1) του νευρώνα “j”, wjk είναι το βάρος του συνδέσμου που καταλήγει στο νευρώνα “j”
ξεκινώντας από το νευρώνα “k” του προηγούμενου στρώματος και opk είναι η έξοδος του νευρώνα “k”.
Ep Ep Ep Ep
Συνεπώς,
wji
=
pj wji k
wjk opk =
pj
opi . Η ποσότητα
pj
ονομάζεται δέλτα (δpj) και
χαρακτηρίζει το νευρώνα “j”. Τελικά, Δpwji = δpjopi, όπου η σταθερά “” είναι ένας (μικρός) αριθμός. Το
πρόβλημα τώρα είναι να υπολογιστεί η ποσότητα δpj όπως παρουσιάζεται στη συνέχεια:
Ep Ep opj Ep
δpj = = , όπου opj = fj(pj). Συνεπώς, δpj = f j( pj ) , όπου f j( pj ) είναι η παράγωγος
pj opj pj opj
Συνεπώς, δpj pk wkj f j( pj )
k
Σημειώστε ότι ο γενικευμένος κανόνας δέλτα βελτιστοποιεί αναλυτικά τα βάρη ενός ΤΝΔ.
Εναλλακτικά, η βελτιστοποίηση των βαρών ΤΝΔ μπορεί να μεθοδευτεί με εξελικτικό υπολογισμό, όπως
περιγράφεται στο Κεφάλαιο 3.
1.3.2 Επεκτάσεις
Τα προαναφερθέντα ΤΝΔ ονομάστηκαν προσωτροφοδοτούμενα, διότι οι κατευθυνόμενοι σύνδεσμοι (από
νευρώνα σε νευρώνα) δε σχηματίζουν κύκλο. Όταν, όμως, οι κατευθυνόμενοι σύνδεσμοι σχηματίζουν κύκλο,
τότε αυτό καλείται ανατροφοδοτούμενο ΤΝΔ (recurrent ANN) (Hopfield, 1982· Hochreiter κ.ά., 2001·
Kosko, 1988). Η ανατροφοδότηση εισάγει κάποιο είδος μνήμης στους υπολογισμούς, και γι’ αυτό τα
ανατροφοδοτούμενα ΤΝΔ έχουν χρησιμοποιηθεί επιτυχώς σε εφαρμογές αναγνώρισης χειρογράφων /ομιλίας.
1-10
1.4 Αυτο-οργανούμενοι Χάρτες
Οι αυτο-οργανούμενοι χάρτες (self-organizing maps) (Kohonen, 1995) είναι μια νευρωνική αρχιτεκτονική
για ομαδοποίηση και έγινε δημοφιλής χάρη στις εφαρμογές της σε προβλήματα αναγνώρισης ομιλίας. Από
τεχνική άποψη ο σκοπός των αυτο-οργανούμενων χαρτών είναι να απεικονίσουν σημεία ενός αρχικού χώρου
RN σε σημεία ενός τελικού χώρου RM, όπου M<N, έτσι ώστε να διατηρούνται σχέσεις εγγύτητας όσο το
δυνατόν περισσότερο. Δηλαδή, σημεία τα οποία είναι «κοντά» στον αρχικό χώρο RN να παραμείνουν
«κοντά» στον τελικό χώρο RM. Ο τρόπος λειτουργίας εξηγείται στη συνέχεια με ένα παράδειγμα.
Παράδειγμα
Έχουμε να μάθουμε μια απεικόνιση από το επίπεδο (τον χώρο-πηγή R2) προς μια ευθεία γραμμή (τον χώρο-
στόχο R), όπως φαίνεται στο Σχήμα 1.5. Συγκεκριμένα, το άκρο ενός ρομποτικού βραχίονα δύο συνδέσμων
σταθερού μήκους L1 και L2, αντίστοιχα, διαγράφει την τροχιά τ στο Σχήμα 1.5. Λαμβάνονται δείγματα από το
κινούμενο άκρο του ρομποτικού βραχίονα και καταγράφεται το διάνυσμα γωνιών φ= (φ1,φ2). Δοθείσης μιας
ακολουθίας μετρήσεων φ από το χώρο-πηγή, το ζητούμενο είναι να υπολογιστεί μια απεικόνιση από το φ στο
y έτσι, ώστε γειτονικά σημεία στο χώρο-πηγή (επί της τροχιάς τ) να απεικονίζονται σε γειτονικά σημεία στο
χώρο-στόχο. Ο προαναφερθείς στόχος της διατήρησης της γειτνίασης δίνει σ’ αυτήν την τεχνική την
εναλλακτική της ονομασία τοπολογικά διατεταγμένοι χάρτες (topologically ordered maps).
Η προαναφερθείσα απεικόνιση μαθαίνεται από ένα νευρωνικό δίκτυο αυτο-οργανούμενων χαρτών
δύο στρωμάτων με δύο εισόδους (φ1 και φ2), πλήρως συνδεδεμένο με μεγάλο αριθμό εξόδων, οι τελευταίες
αντιστοιχούν σε σημεία πάνω στο χώρο-στόχο, όπως φαίνεται στο Σχήμα 1.5(β). Όταν ένα δεδομένο φ
εμφανίζεται, κάθε κόμβος k στο χώρο-στόχο υπολογίζει τη διέγερσή του netk ως εξής: netk= φTwk. Κάποιος
από τους κόμβους εξόδου, έστω ο y*, διεγείρεται περισσότερο. Τα βάρη του νικητή κόμβου, καθώς και εκείνα
όλων των γειτονικών κόμβων, ξαναυπολογίζονται ως εξής:
όπου (t) είναι ο ρυθμός μάθησης που εξαρτάται από τον χρόνο t της επανάληψης. Η συνάρτηση Λ(|y-y*|)
καλείται συνάρτηση παραθύρου, και έχει τιμή 1 για |y-y*| = 0 y = y* και βαίνει μειούμενη για τιμές
μεγαλύτερες του |y-y*|. Η συνάρτηση παραθύρου είναι κρίσιμη για την επιτυχία του αλγορίθμου: εγγυάται ότι
γειτονικά σημεία στο χώρο-στόχο έχουν παρόμοια βάρη, και έτσι αντιστοιχούν σε γειτονικά σημεία στο
χώρο-πηγή, οπότε διατηρούνται οι τοπολογικές γειτονιές. Σε κάθε βήμα επαληθεύουμε ότι τα βάρη
κανονικοποιούνται έτσι, ώστε ||w|| = 1. Ο ρυθμός μάθησης (t) σταδιακά μειώνεται και τελικά μηδενίζεται,
ώστε τερματίζεται η διαδικασία μάθησης.
x2 P(px,py)
τ L2 Λ(|y-y*|)
φ2
y* y
L1
φ1 w
φ1 φ2
x1
(α) (β)
Σχήμα 1.5 (α) Ένας ρομποτικός βραχίονας, το άκρο (P) του οποίου κινείται επάνω σε μια καμπύλη τ στο επίπεδο, (β) Το
ΤΝΔ των αυτο-οργανούμενων χαρτών, μετά από εκπαίδευση, εδώ μαθαίνει να απεικονίζει σημεία της καμπύλης τ (Σχήμα
1.5 (α)) σε σημεία y της ευθείας έτσι, ώστε γειτονικά σημεία πάνω στην καμπύλη τ να αντιστοιχούν σε γειτονικά σημεία
πάνω στην ευθεία y.
1-11
Η Εξ.(1.3) ερμηνεύεται ως εξής: Για κάθε δεδομένο εισόδου, τα βάρη του νικητή κόμβου y* στο
χώρο-στόχο ρυθμίζονται έτσι, ώστε να γίνουν πιο όμοια με το δεδομένο εισόδου. Άλλοι κόμβοι στη γειτονιά
του y* επίσης ρυθμίζονται, ώστε τα βάρη τους να γίνουν πιο όμοια με το δεδομένο εισόδου σύμφωνα με τη
συνάρτηση παραθύρου. Με αυτόν τον τρόπο γειτονικά σημεία στο χώρο-πηγή οδηγούν σε γειτονικά σημεία
στο χώρο-στόχο. Μετά από μεγάλο αριθμό παρουσιάσεων των δεδομένων εισόδου επιτυγχάνεται μάθηση
έτσι, ώστε η ευθεία γραμμή y του χώρου-στόχου να αντιστοιχεί στην καμπύλη τ στο χώρο-πηγή.
Ένα εγγενές πρόβλημα των αυτο-οργανούμενων χαρτών είναι το πρόβλημα της συστροφής, κατά το
οποίο κάποιες αρχικές συνθήκες μπορούν να οδηγήσουν σε καταστάσεις όπου μέρος του χάρτη έχει μάθει
διαφορετικό προσανατολισμό από άλλο μέρος του χάρτη. Όταν συμβεί κάτι τέτοιο, το καλύτερο είναι να
αρχικοποιήσουμε τα βάρη και να επαναλάβουμε τη μάθηση, χρησιμοποιώντας ενδεχομένως μια φαρδύτερη
συνάρτηση παραθύρου ή/και πιο αργή μείωση του ρυθμού μάθησης.
Ένα από τα πλεονεκτήματα των αυτο-οργανούμενων χαρτών είναι ότι μαθαίνουν στο χώρο-στόχο μια
αντιστοιχία με τη δειγματοληπτική πιθανότητα p(x) στο χώρο-πηγή. Συγκεκριμένα, περιοχές πυκνής
πιθανότητας στο χώρο-πηγή έλκουν περισσότερα σημεία στο χώρο-στόχο. Σημειώστε ότι οι αυτο-
οργανούμενοι χάρτες δεν απαιτούν την αποθήκευση μεγάλου αριθμού δειγμάτων και, επίσης, οι αυτο-
οργανούμενοι χάρτες είναι ιδιαιτέρως χρήσιμοι όταν υπάρχουν εγγενείς μη-γραμμικότητες στο πρόβλημα
μάθησης.
Μια εφαρμογή αυτο-οργανούμενων χαρτών αφορά την επεξεργασία σήματος, όπου οι έξοδοι μιας
τράπεζας φίλτρων απεικονίζουν μια κυματομορφή σε ένα δισδιάστατο χώρο-στόχο. Συγκεκριμένα, όταν γίνει
εφαρμογή σε ήχους ομιλούμενων φωνηέντων, τότε παρόμοια φωνήεντα, όπως /ee/ και /eh/ απεικονίζονται σε
κοντινά μεταξύ τους σημεία του επιπέδου, ενώ διαφορετικά φωνήεντα, όπως /ee/ /oo/ απεικονίζονται σε
μακρινά μεταξύ τους σημεία του επιπέδου. Με τον προαναφερθέντα τρόπο επιτυγχάνεται μια οπτικοποίηση
(visualization ) φωνημάτων στο επίπεδο. Περαιτέρω μάθηση με επίβλεψη μπορεί να τοποθετήσει ετικέτες
στο χώρο-στόχο και έτσι να προκύψει ένας κατηγοριοποιητής.
1-12
Ένα αίτιο του προαναφερθέντος προβλήματος είναι ότι στην ομαδοποίηση που βασίζεται σε μία
αντικειμενική συνάρτηση κάθε δείγμα μπορεί να επηρεάσει τη θέση οποιουδήποτε σμήνους, ανεξάρτητα από
το πόσο μακριά βρίσκεται. Αυτή η διαπίστωση έχει οδηγήσει σε ΤΝΔ τεχνικές ανταγωνιστικής μάθησης
(competitive learning), όπου οι αλλαγές, εξ’ αιτίας της μάθησης, περιορίζονται μόνο στο σμήνος το οποίο
είναι το «πιο όμοιο» με το πιο πρόσφατο δεδομένο, ενώ όλα τα άλλα σμήνη δεν αλλάζουν.
Σε έναν αλγόριθμο ανταγωνιστικής μάθησης κάθε d-διάστατο δεδομένο επαυξάνεται, θεωρώντας
x0=1, και στη συνέχεια κανονικοποιείται έτσι, ώστε ||x||=1. Έτσι, όλα τα δεδομένα τοποθετούνται πάνω σε μια
σφαίρα στον (d+1)-διάστατο χώρο. Κάθε ένα από τα κέντρα των σμηνών αρχικοποιείται με ένα τυχαίο
διάνυσμα βάρους wj, το οποίο κανονικοποιείται έτσι, ώστε ||wj||=1, j=1,…,c. Μερικές φορές τα κέντρα των
σμηνών αρχικοποιούνται με τυχαίως επιλεγμένα δεδομένα. Όταν ένα νέο δεδομένο x παρουσιάζεται, η
ενεργοποίηση κάθε σμήνους με βάρος wj υπολογίζεται ως netj= wTjx. Μόνον ο νευρώνας με το μεγαλύτερο
net (το βάρος του οποίου είναι εγγύτερα στο δεδομένο x) επιτρέπεται να επανυπολογίσει το βάρος του
σύμφωνα με τον ακόλουθο τύπο
όπου είναι ο ρυθμός μάθησης. Τα βάρη κανονικοποιούνται ώστε η ενεργοποίηση wTx να εξαρτάται
αποκλειστικά από τη γωνία μεταξύ w και x. Να σημειωθεί ότι χωρίς κανονικοποίηση κάποιο βάρος wj θα
μπορούσε να μεγαλώσει υπερβολικά σε μέγεθος και να δίνει πάντοτε αυτό τη μεγαλύτερη τιμή netj
αποκλείοντας άλλα σμήνη από τη διαδικασία μάθησης. Στη συνέχεια περιγράφεται ένας γενικός αλγόριθμος
ανταγωνιστικής μάθησης.
Ένα μειονέκτημα του γενικού αλγορίθμου Ανταγωνιστικής Μάθησης είναι ότι δεν εγγυάται τον
τερματισμό του, ακόμη και για πεπερασμένο σύνολο δεδομένων. Ένας εμπειρικός (και αποτελεσματικός)
τρόπος για να ξεπεράσουμε την προαναφερθείσα δυσκολία είναι να μειώνουμε το ρυθμό μάθησης (), π.χ.
σύμφωνα με τον τύπο (t)= (0)αt για 0<α<1, όπου t είναι ο αριθμός επανάληψης. Ωστόσο, ένα σημαντικό
μειονέκτημα της μείωσης του ρυθμού μάθησης είναι ότι, εάν ένα νέο δεδομένο x εμφανιστεί όταν ο ρυθμός
μάθησης () είναι ήδη πολύ μικρός, τότε ο αλγόριθμος δε θα μάθει ποτέ το x. Ένα άλλο μειονέκτημα του
γενικού αλγορίθμου Ανταγωνιστικής Μάθησης είναι ότι θεωρεί δεδομένο τον αριθμό (c) των σμηνών που
πρόκειται να υπολογιστούν, ενώ στην πράξη ο αριθμός c είναι άγνωστος.
Όταν ο αριθμός c των σμηνών είναι άγνωστος, υπάρχουν δύο τουλάχιστον επιλογές. Πρώτη επιλογή
είναι να λύσουμε το πρόβλημα της ομαδοποίησης χρησιμοποιώντας το γενικό αλγόριθμο Ανταγωνιστικής
Μάθησης αρκετές φορές για διάφορες τιμές του c και στη συνέχεια να συγκρίνουμε τις ομαδοποιήσεις που
σχηματίστηκαν μεταξύ τους με βάση των αριθμό των υπολογισθέντων σμηνών. Ένα «μεγάλο άλμα» στον
αριθμό των υπολογισθέντων σμηνών συνήθως υποδεικνύει έναν «καλό» αριθμό σμηνών. Δεύτερη επιλογή
είναι να ορίσουμε μια συγκεκριμένη τιμή κατωφλίου για το σχηματισμό ενός νέου σμήνους. Η τελευταία
επιλογή είναι ιδιαίτερα χρήσιμη σε εφαρμογές πραγματικού χρόνου.
Η εμπειρία εφαρμογής άλλων αλγόριθμων ομαδοποίησης, όπως για παράδειγμα του αλγορίθμου κ-
μέσων (k-means algorithm), έχει δείξει ότι ένας καλός τρόπος εφαρμογής ενός αλγορίθμου Ανταγωνιστικής
Μάθησης είναι να αναπαριστάνονται τα σμήνη με τα κέντρα τους και στη συνέχεια να επανυπολογίζουμε
κάποιο κέντρο σμήνους βασιζόμενοι αποκλειστικά και μόνο στην παρούσα του τιμή, καθώς και στο δεδομένο
1-13
εισόδου. Δοθέντων c κέντρων σμηνών ο απλούστερος τρόπος επανυπολογισμού των κέντρων είναι να
μεταβάλουμε μόνο ένα κέντρο σμήνους, αυτό που υπό κάποια έννοια είναι το «πλησιέστερο» προς το παρόν
δεδομένο εισόδου. Ο προαναφερθείς τρόπος ανταγωνιστικής ομαδοποίησης είναι γνωστός με την ονομασία
αλγόριθμος ηγέτη-ακόλουθου (leader-follower algorithm) και παρουσιάζεται στη συνέχεια, όπου wi
παριστάνει το κέντρο του σμήνους i, παριστάνει το ρυθμό μάθησης και παριστάνει μια τιμή κατωφλίου.
1. Αρχικοποίησε τα , θ.
2. w1 x.
3. επανάλαβε δέξου το επόμενο δεδομένο x.
4. j arg max x w j (βρες το πλησιέστερο σμήνος)
j
5. εάν ||x-wj|| < θ
6. τότε wj wj + x (επανυπολογισμός του βάρους)
7. διαφορετικά εισάγαγε ένα νέο w x
8. w w/||w|| (κανονικοποίηση του βάρους)
9. μέχρι να τελειώσουν όλα τα δεδομένα.
10. επίστρεψε τα w1, w2,…, wc.
Η τιμή κατωφλίου θ καθορίζει τελικά τον αριθμό των σμηνών που θα υπολογιστούν: Μεγάλη τιμή
του θ ευνοεί το σχηματισμό μικρού αριθμού μεγάλων σμηνών, ενώ μικρή τιμή του θ ευνοεί το σχηματισμό
μεγάλου αριθμού μικρών σμηνών. Ελλείψει οποιασδήποτε πληροφορίας για τα δεδομένα, δεν υπάρχει τρόπος
επιλογής μιας κατάλληλης τιμής για το θ. Επιπλέον, ο βασικός αλγόριθμος ηγέτη-ακόλουθου δεν προβλέπει
τη μείωση του αριθμού των σμηνών, π.χ. με το να συγχωνεύει δύο σμήνη τα οποία είναι «επαρκώς» όμοια
μεταξύ τους. Η ομαδοποίηση τύπου ηγέτη-ακόλουθου είναι στην καρδιά των αυτο-οργανούμενων
νευρωνικών δικτύων τύπου ΘΠΣ, όπως περιγράφεται στη συνέχεια.
Αλγόριθμος Ασαφής-ΘΠΣ
1. Αρχικοποίησε το θ.
2. w1 x.
3. επανάλαβε δέξου το επόμενο δεδομένο x.
περίμετρος(w j )
4. j arg max (βρες το πλησιέστερο σμήνος)
j περίμετρος( x w )
j
1-14
Το Σχήμα 1.6 δείχνει δύο κουτιά x και w με συνεχείς γραμμές, καθώς και το κουτί xw με
διακεκομμένες γραμμές. Από το Σχήμα 1.6 φαίνεται ότι περίμετρος(x) = 0.4, περίμετρος(w) = 1.4 και
περίμετρος(xw) = 2.4.
1
0.9 x
0.7
xw
0.5
0.3
w
0.1
Σχήμα 1.6 Βλέπουμε δύο κουτιά x και w μέσα στο μοναδιαίο τετράγωνο. Το κουτί xw είναι το μικρότερο που
περιέχει ταυτόχρονα τα κουτιά x και w.
Η βασική ιδέα για ομαδοποίηση κατά τον αλγόριθμο ασαφής-ΘΠΣ είναι η εξής: όταν έρχεται ένα
δεδομένο εισόδου xRN, το ενσωματώνουμε σε ένα ήδη υπάρχον κουτί w, αντικαθιστώντας το w με το κουτί
xw, εφόσον το μέγεθος περίμετρος(xw) δεν ξεπερνάει ένα προκαθορισμένο κατώφλι θ. Διαφορετικά
γίνεται επαναφορά (reset) και επιλέγεται το επόμενο κουτί. Εάν κανένα κουτί δεν μπορεί να ενσωματώσει το
δεδομένο εισόδου x χωρίς να παραβιάσει το κατώφλι θ, τότε το x απομνημονεύεται ως ένα νέο κουτί.
Κάθε κουτί w που υπολογίζεται αντιστοιχεί σε ένα σμήνος. Πλεονέκτημα του αλγορίθμου ασαφής-
ΘΠΣ είναι η ταχύτητά του καθώς αρκεί ακριβώς ένα «πέρασμα» όλων των δεδομένων, ώστε να υπολογιστούν
τα σμήνη (κουτιά). Περαιτέρω περάσματα των δεδομένων δε θα αλλάξουν τα σμήνη που υπολογίστηκαν.
Μειονέκτημα του αλγορίθμου ασαφής-ΘΠΣ είναι ότι τα σμήνη που υπολογίζονται εξαρτώνται από τη σειρά
παρουσίασης των δεδομένων. Συγκεκριμένα, διαφορετική σειρά παρουσίασης των ίδιων δεδομένων
καταλήγει στον υπολογισμό διαφορετικών σμηνών (κουτιών).
Το Σχήμα 1.7 παρουσιάζει την ΤΝΔ αρχιτεκτονική επάνω στην οποία μπορεί να υλοποιηθεί ο
αλγόριθμος «αΘΠΣ για ομαδοποίηση».
1-15
Στρώμα Κατηγοριών F2
Ανταγωνισμός: Ο Νικητής τα παίρνει όλα
1 2 K
w2 w3 επαναφορά
wK
w1
Στρώμα Εισόδου F1
Αποθήκευση & Σύγκριση
Σχήμα 1.7 Το ΤΝΔ «ασαφής-ΘΠΣ για ομαδοποίηση» χρησιμοποιείται για τον υπολογισμό σμηνών (βλ.
κουτιών) στο μοναδιαίο κύβο IN. Οι νευρώνες του στρώματος εξόδου F2 ανταγωνίζονται μεταξύ τους
υπολογίζοντας ο καθένας ένα βαθμό ομοιότητας με το δεδομένο x εισόδου. Η αποθήκευση του x, καθώς και η
σύγκριση των κατηγοριών w1,…,wK μεταξύ τους πραγματοποιείται στο στρώμα εισόδου F1. Σε περίπτωση που ο
νικητής της σύγκρισης δεν ικανοποιεί το «κριτήριο μεγέθους», τότε γίνεται επαναφορά και συνεχίζει το ψάξιμο
για νέο νικητή. Εάν, τελικά, δεν υπάρξει νικητής τότε απομνημονεύεται το δεδομένο εισόδου x.
xab
F2a ya yb F2b
επαναφορά ab επαναφορά
Εξάρτημα
παρακολούθηση Εξάρτημα
ΘΠΣα
ταιριάσματος ΘΠΣβ
F1a a F1b b
a b
X l(X)
Σχήμα 1.8 Το ΤΝΔ «ασαφής-ΘΠΣ για κατηγοριοποίηση» χρησιμοποιείται για τον υπολογισμό μιας συνάρτησης
f: INT για κατηγοριοποίηση.
1-16
1.6 Σύγχρονες Τάσεις
Τα ΤΝΔ που παρουσιάστηκαν παραπάνω αποτελούν την «1η γενιά ΤΝΔ» η οποία εν πολλοίς εστίασε σε
εφαρμογές στο Ν-διάστατο Ευκλείδειο χώρο RN, συμπεριλαμβανομένων εφαρμογών επεξεργασίας σημάτων
και αναγνώρισης προτύπων δίνοντας ιδιαίτερη έμφαση στην ανάλυση κυρίων συνιστωσών (principal
component analysis), στην ανάλυση ανεξάρτητων συνιστωσών (independent component analysis), κ.α.
(Διαμαντάρας, 2007· Bishop, 2004).
Η «2η γενιά ΤΝΔ» περιλαμβάνει αρχιτεκτονικές βαθιάς μάθησης (deep learning) που σήμερα είναι
από τις πλέον δημοφιλείς στα ΤΝΔ (Farabet κ.ά., 2013· LeCun κ.ά, 2015). Το χαρακτηριστικό της βαθιάς
μάθησης είναι η χρήση υπολογιστικών αρχιτεκτονικών ΤΝΔ με πολλαπλά στρώματα νευρώνων, ώστε να
καθίσταται δυνατή η μάθηση αναπαραστάσεων με πολλαπλά επίπεδα αφαίρεσης. Τα ΤΝΔ βαθιάς μάθησης
μπορούν να αλλάζουν τις εσωτερικές τους παραμέτρους υπολογίζοντας την αναπαράσταση κάθε στρώματος
από την αναπαράσταση του προηγούμενου στρώματος. Υπολογιστική εμπειρία έχει δείξει ότι οι
αρχιτεκτονικές βαθιάς μάθησης μπορούν να ανακαλύπτουν την περίπλοκη εσωτερική (μη-προφανή) δομή σε
μεγάλο αριθμό δεδομένων. Σημειώστε ότι η ανάπτυξη αρχιτεκτονικών ΤΝΔ βαθιάς μάθησης χρονολογείται
από την εισαγωγή του ΤΝΔ Neocognitron (Fukushima, 1980). Έχουν προταθεί διάφορες αρχιτεκτονικές
βαθιάς μάθησης, οι οποίες περιλαμβάνουν τα ΤΝΔ βαθιάς συνέλιξης (deep convolutional ANN), τα
αναδρομικά ΤΝΔ (recursive ANN) κ.ά. Η πρακτική εφαρμογή ΤΝΔ βαθιάς μάθησης έχει βελτιώσει
σημαντικά την ταχύτητα καθώς και την εξόρυξη γνώσης σε μια ποικιλία προβλημάτων αναγνώρισης
προτύπων. Για παράδειγμα, τα ΤΝΔ βαθιάς συνέλιξης έχουν επιφέρει βελτιώσεις κυρίως σε προβλήματα
επεξεργασίας εικόνων, βίντεο, ομιλίας και ήχου, ενώ τα αναδρομικά ΤΝΔ έχουν επιδείξει
αποτελεσματικότητα κυρίως στην επεξεργασία σειριακών δεδομένων (sequential data) και δενδρικές δομές
σε εφαρμογές επεξεργασίας της φυσικής γλώσσας.
Η «3η γενιά ΤΝΔ» περιλαμβάνει αρχιτεκτονικές ακιδωτών ΤΝΔ (spiking ANN), όπου τα σήματα
μεταφέρονται με εκφορτίσεις χρονικών παλμών (Kasabov κ.ά., 2015). Σημασία δεν έχει μόνον η διάρκεια του
κάθε χρονικού παλμού, αλλά και η συχνότητα των χρονικών παλμών μεταξύ των νευρώνων. Ένα σημαντικό
χαρακτηριστικό των ακιδωτών ΤΝΔ είναι ότι προσομοιώνουν τον τρόπο λειτουργίας των βιολογικών
κυττάρων του εγκεφάλου και υπάρχουν βάσιμες προσδοκίες για καλύτερη αναπαράσταση του χωρο-χρόνου.
Μια περιεκτική συλλογή των σημαντικότερων αρχιτεκτονικών ΤΝΔ παρουσιάστηκε από τον Arbib
(2003). Κατά κανόνα, τα ΤΝΔ διαφοροποιούνται κυρίως ως προς την αρχιτεκτονική τους, μέσω της οποίας
κάθε ΤΝΔ υλοποιεί συμβατικούς υπολογισμούς για μάθηση/γενίκευση στο συμβατικό χώρο RN.
ΤΝΔ «4ης γενιάς» ή μεταγενέστερα ενδέχεται να υλοποιούν μη-συμβατικούς υπολογισμούς ή/και να
εφαρμόζονται πέραν του χώρου RN. Συγκεκριμένα, κβαντικοί υπολογισμοί έχουν ήδη προταθεί για εκθετική
επιτάχυνση των υπολογισμών (Hirvensalo, 2003)· σημειώστε ότι παράλληλες αρχιτεκτονικές ΤΝΔ
προσφέρονται για παράλληλους κβαντικούς υπολογισμούς. Περαιτέρω, έχουν προταθεί υπολογισμοί με
σημασιολογίες (semantics) οι οποίες παριστάνονται με μερικώς διατεταγμένες σχέσεις (partially ordered
relations) (Kaburlasos κ.ά., 2013)· τέτοιου είδους υπολογισμοί, αντί για άλεσμα αριθμών, θα μπορούσαν να
βελτιώσουν την αλληλεπίδραση μηχανών με τον άνθρωπο.
1.1) Εξηγήστε με ποιο τρόπο τα ανατροφοδοτούμενα ΤΝΔ μπορούν να εισάγουν τον παράγοντα
«χρόνος» στους υπολογισμούς τους.
1.2) Ένα ΤΝΔ τριών στρωμάτων Ν-Κ-Μ χρησιμοποιείται για να υλοποιεί μια συνάρτηση f: RNRM.
Περιγράψτε με ποιο τρόπο ένα τέτοιο ΤΝΔ μπορεί να χρησιμοποιηθεί σε εφαρμογές αναγνώρισης
προτύπων.
1.3) Στα γραμμικά ΤΝΔ τύπου perceptron στη θεωρία περιγράφτηκε (α) η αναπαράσταση νευρώνων, και
(β) η αναπαράσταση προτύπων. Εξηγήστε τα συγκριτικά πλεονεκτήματα της κάθε αναπαράστασης.
1-17
1.4) Κατά την εφαρμογή του γενικευμένου κανόνα δέλτα σε ΤΝΔ τριών στρωμάτων υπολογίζεται η
ποσότητα δpj στο νευρώνα j κατά την εφαρμογή του διανύσματος xp στην είσοδο του ΤΝΔ.
Εξηγήστε:
(α) τον τρόπο υπολογισμού του δpj σε νευρώνες του κάθε στρώματος, και
(β) την χρήση του δpj στους υπολογισμούς.
1.5) Θεωρήστε το παρακάτω ΤΝΔ. Δοθέντων των βαρών w1,…,w5 υπολογίστε το εύρος τιμών των
κατωφλίων T1 και T2, ώστε να υλοποιείται η πύλη XOR.
t
T2 Στρώμα εξόδου
w3 w5
w4
T1 Κρυμμένο στρώμα
w1 w2
Στρώμα εισόδου
x1 x2
1.6) Θεωρήστε ένα ΤΝΔ 342 τριών στρωμάτων με γραμμική συνάρτηση μεταφοράς f(σ)= σ για κάθε
1 2 1 3
νευρώνα. Έστω W1= 6 2 8 5 ο πίνακας βαρών των συνδέσμων μεταξύ του στρώματος
9 7 4 1
3 2
1 9
εισόδου και του κρυμμένου στρώματος, και έστω W2= ο πίνακας βαρών των συνδέσμων
7 3
6 1
μεταξύ του κρυμμένου στρώματος και του στρώματος εξόδου. Υπολογίστε ένα ΤΝΔ δύο
στρωμάτων το οποίο να υλοποιεί την ίδια γραμμική συνάρτηση f: R3R2 εισόδου-εξόδου όπως το
προαναφερθέν ΤΝΔ τριών στρωμάτων.
1.7) Θεωρήστε το παράδειγμα στην ενότητα 1.4 των αυτο-οργανούμενων χαρτών και έστω ότι υπάρχουν
5 σημεία τοποθετημένα ανά μια μονάδα μήκους το κάθε σημείο επί της ευθείας y (βλ. Σχήμα 1.5(β))
με βάρη w1= (2.1, -1), w2= (-1, 2), w3= (1.7, 1.4), w4= (1.8, -1.8) και w5= (1.5,-1.5). Έστω ότι η
συνάρτηση παραθύρου Λ(|y-y*|) είναι τριγωνική με ύψος ίσο με 1 και βάση ίση με 2. Υπολογίστε
ένα εύρος τιμών του διανύσματος γωνιών φ= (φ1,φ2) ώστε νικητής να είναι ο κόμβος με βάρος w2.
1.8) Θεωρήστε το ΤΝΔ τύπου αΘΠΣ για ομαδοποίηση. Έστω οι δύο κατηγορίες (κουτιά /σμήνη) w1=
[0.1,0.2][0.7,0.8] και w2= [0.3,0.7][0.2,0.5] και έστω x= (0.25,0.6) το διάνυσμα εισόδου. Οι δύο
κατηγορίες w1 και w2 θα ανταγωνιστούν μεταξύ τους διεκδικώντας η κάθε μια την ενσωμάτωση του
διανύσματος x. Υπολογίστε το νικητή του προαναφερθέντος ανταγωνισμού.
1-18
Βιβλιογραφία
Arbib, M.A. (Εd.). (2003). The Handbook of Brain Theory and Neural Networks (2nd ed.). Cambridge, MA:
The MIT Press.
Bishop, C.M. (2004). Neural Networks for Pattern Recognition. Oxford, Great Britain: Oxford University
Press.
Carpenter, G.A. & Grossberg, S. (1987). A massively parallel architecture for a self-organizing neural pattern
recognition machine. Computer Vision, Graphics, and Image Processing, 37(1), 54-115.
Carpenter, G.A., Grossberg, S. & Rosen, D.B. (1991). Fuzzy ART: fast stable learning and categorization of
analog patterns by an adaptive resonance system. Neural Networks, 4(6), 759-771.
Carpenter, G.A, Grossberg, S., Markuzon, N., Reynolds, J.H. & Rosen, D.B. (1992). Fuzzy ARTMAP: a
neural network architecture for incremental supervised learning of analog multidimensional maps. IEEE
Transactions on Neural Networks, 3(5), 698-713.
Διαμαντάρας, Κ. (2007). Τεχνητά Νευρωνικά Δίκτυα. Αθήνα, Ελλάς: Κλειδάριθμος.
Farabet, C., Couprie, C., Najman, L. & LeCun, Y. (2013). Learning hierarchical features for scene labeling.
IEEE Transactions on Pattern Analysis & Machine Intelligence, 35(8), 1915-1929.
Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern
recognition unaffected by shift in position. Biological Cybernetics, 36, 193-202.
Hebb, D.O. (1949). The Organization of Behavior. New York, N.Y.: Wiley.
Hirvensalo, M. (2003). Quantum Computing (2nd ed.) (Series in Natural Computing). Berlin, Germany:
Springer.
Hochreiter, S., Bengio, Y., Frasconi, P. & Schmidhuber, J. (2001). Gradient flow in recurrent nets: the
difficulty of learning long-term dependencies. In S.C. Kremer & J.F. Kolen (Eds.), A Field Guide to
Dynamical Recurrent Neural Networks. Piscataway, NJ: IEEE Press.
Hopfield, J.J. (1982). Neural networks and physical systems with emergent collective computational abilities.
In Proceedings of the National Academy of Sciences of the USA, 79(8), 2554-2558.
Kaburlasos, V.G., Petridis, V. (2000). Fuzzy lattice neurocomputing (FLN) models. Neural Networks, 13(10),
1145-1170.
Kaburlasos, V.G., Papadakis, S.E. & Papakostas, G.A. (2013). Lattice computing extension of the FAM neural
classifier for human facial expression recognition. IEEE Transactions on Neural Networks and Learning
Systems, 24(10), 1526-1538.
Kasabov, N., Scott, N., et al. (to be published). Evolving spatio-temporal data machines based on the
NeuCube neuromorphic framework: Design methodology and selected applications. Neural Networks.
Kohonen, T. (1995). Self-Organizing Maps (Springer Series in Information Sciences 30). Heidelberg,
Germany: Springer-Verlag, 1995.
Kosko, B. (1988). Bidirectional associative memories. IEEE Transactions on Systems, Man, and Cybernetics,
18(1), 49-60.
LeCun, Y., Bengio, Y. & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.
Minsky, M. & Papert, S. (1969). Perceptrons. Oxford, England: MIT Press.
Rumelhart, D.E., McClelland, J.L. & the PDP Research Group (1986). Parallel Distributed Processing,
Volume 1: Foundations. Cambridge, MA: The MIT Press.
Sandamirskaya, Y., Zibner, S.K.U., Schneegans, S. & Schöner, G. (2013). Using dynamic field theory to
extend the embodiment stance toward higher cognition. New Ideas in Psychology, 31(3), 322-339.
Simpson, P.K. (1992). Fuzzy min-max neural networks - part1: classification. IEEE Transactions on Neural
Networks, 3(5), 776-786.
Simpson, P.K. (1993). “Fuzzy min-max neural networks - part2: clustering”, IEEE Transactions on Fuzzy
Systems, 1(1), pp. 32-45.
Werbos, P. (1974). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences.
PhD thesis, Harvard University, Cambridge, MA.
1-19
Κεφάλαιο 2: Ασαφή Συστήματα
Έχει διατυπωθεί η άποψη ότι η αποτελεσματικότητα της συνεργασίας των ανθρώπων μεταξύ τους οφείλεται
στο γεγονός ότι οι άνθρωποι επικοινωνούν με ανακριβείς έννοιες μάλλον παρά με ακριβείς αριθμούς (Zadeh,
1999). Σε μια προσπάθεια ανάπτυξης μηχανών που να συνεργάζονται μεταξύ τους τόσο αποτελεσματικά όσο
και οι άνθρωποι προτάθηκε η αναπαράσταση μιας έννοιας (concept) με ένα ασαφές σύνολο καθώς και η
εξαγωγή συμπερασμάτων στη βάση μιας ασαφούς λογικής. Έτσι αναπτύχθηκε η θεωρία των ασαφών
συνόλων, της ασαφούς λογικής και, τελικά, η τεχνολογία ασαφών συστημάτων που θα παρουσιαστούν σ’
αυτό το κεφάλαιο.
όπου το A(x) δείχνει το βαθμό στον οποίο το x είναι μέλος του ασαφούς συνόλου Α. Εναλλακτικά, ένα ασαφές
A( x )
σύνολο Α μπορεί να αναπαρασταθεί ως Α = { | xΩ και A(x)[0,1]}. Σημειώστε ότι όταν το Ω είναι
x
n
A( xi )
αριθμήσιμο (π.χ. πεπερασμένο) σύνολο (countable set), τότε το ασαφές σύνολο Α γράφεται: Α = ,
i 1 xi
όπου το σύμβολο Σ δε σημαίνει αλγεβρική πρόσθεση, αλλά συνολοθεωρητική ένωση (). Ενώ, όταν το Ω
A( x )
είναι μη-αριθμήσιμο (π.χ. Ω = [0,1]), τότε το ασαφές σύνολο Α γράφεται: Α = , όπου το σύμβολο
x
δεν έχει την έννοια του ολοκληρώματος, αλλά την έννοια της επέκτασης της προαναφερθείσας
συνολοθεωρητικής ένωσης () στο συνεχές.
Παράδειγμα Α
Θεωρήστε το βασικό σύνολο Ω οπωρολαχανικών που ακολουθεί
Μπορούμε να ορίσουμε το ασαφές σύνολο Π: Ω[0,1] έτσι, ώστε η χαρακτηριστική συνάρτηση Π(x)
να δείχνει το βαθμό κατά τον οποίο το οπωρολαχανικό xΩ είναι πράσινο. Συγκεκριμένα, το ασαφές σύνολο
Π θα μπορούσε να είναι το ακόλουθο Π = {(μήλο,0.2), (αχλάδι,0.9), (κεράσι,0), (μαρούλι,1), (ντομάτα,0.2)}.
0. 2
Εναλλακτικά, σύμφωνα με τα παραπάνω, το ασαφές σύνολο Π μπορεί να αναπαρασταθεί ως Π = +
μήλο
0.9 0 1 0.2
+ + + , όπου η πράξη «+» δε σημαίνει αλγεβρική πρόσθεση αλλά
αχλάδι κεράσι μαρούλι ντομάτα
2-1
A( x )
συνολοθεωρητική ένωση (). Ζεύγη (x,A(x)), είτε , με A(x)=0 μπορούν να παραλειφθούν. Ασφαλώς, οι
x
ακριβείς τιμές που λαμβάνει η συνάρτηση Π(x) εξαρτώνται από το βαθμό της ωρίμανσης του
οπωρολαχανικού x σύμφωνα με την υποκειμενική κρίση αυτού που δίδει τιμές στη συνάρτηση Π(x). Για
παράδειγμα, θα μπορούσε να είναι «Π(ντομάτα) = 1» όταν μια ντομάτα είναι εντελώς άγουρη, ενώ να είναι
«Π(ντομάτα) = 0» όταν μια ντομάτα είναι κατακόκκινη ώριμη. Προφανώς, για κάποιο ενδιάμεσο βαθμό
ωρίμανσης θα μπορούσε να είναι «Π(ντομάτα) = 0.8» ή «Π(ντομάτα) = 0.3» κ.λπ., κατά την κρίση αυτού που
δίδει τιμές στην συνάρτηση Π(x).
Ένα κλασικό σύνολο θεωρείται ως ειδική περίπτωση ασαφούς συνόλου όπου το πεδίο τιμών της
χαρακτηριστικής συνάρτησης είναι το διμελές σύνολο αριθμών {0,1} αντί του κλειστού διαστήματος
αριθμών [0,1]. Για παράδειγμα, θεωρήστε το ακόλουθο βασικό σύνολο Ω φοιτητών και φοιτητριών
Ένα κλασικό σύνολο Κ θα μπορούσε περιγραφικά να οριστεί ως το υποσύνολο εκείνο των φοιτητών
και φοιτητριών του Ω που έχουν περάσει το μάθημα της Υπολογιστικής Νοημοσύνης. Η χαρακτηριστική
συνάρτηση, έστω Κ(x), του συνόλου Κ λαμβάνει τιμές στο διμελές σύνολο {0, 1}. Έτσι, θα μπορούσε να
είναι είτε «Κ(Ελένη) = 1» είτε «Κ(Ελένη) = 0», δηλ. είτε η Ελένη πέρασε το μάθημα «Υπολογιστική
Νοημοσύνη» είτε η Ελένη δεν το πέρασε, αντίστοιχα, και οτιδήποτε άλλο αποκλείεται.
1) Ονομάζεται α-διατομή (α-cut) ενός ασαφούς συνόλου Α ως προς σύνολο αναφοράς Ω, το κλασικό
σύνολο Αα που ορίζεται ως εξής:
Για α = 1, το σύνολο 1-διατομή Α1 ονομάζεται και πυρήνας (core) του ασαφούς συνόλου Α. Η
αναπαράσταση των α-διατομών θα χρησιμοποιηθεί σε ένα διαφορετικό θεωρητικό πλαίσιο (από αυτό
των ασαφών συνόλων) στο Μέρος-ΙΙΙ αυτού του βιβλίου όπου προτείνεται μια ενοποίηση στην
Υπολογιστική Νοημοσύνη.
2) Ονομάζεται στήριγμα ή, εναλλακτικά, φορέας (support) ενός ασαφούς συνόλου Α ως προς σύνολο
αναφοράς Ω, το κλασικό σύνολο supp(Α) που ορίζεται ως εξής:
3) Ονομάζεται ύψος (height) ενός ασαφούς συνόλου Α ως προς σύνολο αναφοράς Ω, το ελάχιστο άνω
φράγμα (least upper bound ή, εναλλακτικά, (sup)premum) των βαθμών συμμετοχής (degrees of
membership) στο Α όλων των στοιχείων του Α:
hgt(Α) = sup{ A( x)} (2.4)
x
Σημειώστε ότι όταν, όπως τυπικά συμβαίνει στην πράξη, το πλήθος των στοιχείων του ασαφούς
συνόλου Α είναι πεπερασμένο, τότε το ελάχιστο άνω φράγμα (sup) αντιστοιχεί στο μέγιστο (max) των
βαθμών συμμετοχής στο Α όλων των στοιχείων του ασαφούς συνόλου Α. Αν hgt(Α) = 1, τότε το
ασαφές σύνολο Α ονομάζεται κανονικό (normal). Δηλαδή, ένα κανονικό ασαφές σύνολο Α έχει (μη
κενό) πυρήνα, συμβολικά Α1.
4) Ένα ασαφές σύνολο Α ως προς σύνολο αναφοράς Ω ονομάζεται κενό (empty) ασαφές σύνολο, όταν
για κάθε xΩ είναι Α(x) = 0.
2-2
5) Δύο ασαφή σύνολα Α και Β ως προς σύνολο αναφοράς Ω ονομάζονται ίσα (equal) όταν για κάθε
xΩ είναι Α(x) = Β(x). Ωστόσο, ένας τέτοιος ορισμός της ισότητας κρίθηκε αυστηρός από κάποιους
ερευνητές και γι' αυτό το λόγο ορίστηκαν εναλλακτικές (ασαφείς) σχέσεις ισότητας με διαβαθμίσεις.
6) Σχέση εγκλεισμού ή, εναλλακτικά, σχέση υποσυνολότητας. Για δύο ασαφή σύνολα Α και Β ως προς
(κοινό) σύνολο αναφοράς Ω, λέμε ότι το Α είναι υποσύνολο του Β (ή ότι το Α περιέχεται στο Β) και
γράφουμε Α Β τότε και μόνον τότε, αν Α(x) Β(x), xΩ. Ωστόσο, ένας τέτοιος ορισμός της
υποσυνολότητας κρίθηκε ως αυστηρός από κάποιους ερευνητές και γι' αυτό το λόγο ορίστηκαν
εναλλακτικές (ασαφείς) σχέσεις υποσυνολότητας με διαβαθμίσεις.
7) Το ασαφές δυναμοσύνολο (fuzzy power set) ως προς σύνολο αναφοράς Ω ορίζεται ως το σύνολο
όλων των ασαφών υποσυνόλων του Ω, συμβολικά F(Ω) = [0,1]Ω = {Α| Α: Ω[0,1]}. Οι πράξεις
ένωση (), τομή () και συμπλήρωμα () μπορούν να οριστούν στο F(Ω) ως εξής:
(AB)(x) = max{A(x),B(x)}
(AB)(x) = min{A(x),B(x)} (2.5)
A(x) = 1-A(x)
Σημειώστε ότι ο τελεστής max (δηλ. maximum μέγιστο) χρησιμοποιείται για πεπερασμένο πλήθος
στοιχείων, ενώ σε διαφορετική περίπτωση, χρησιμοποιείται ο τελεστής sup (δηλ. supremum
ελάχιστο άνω φράγμα) συμβολικά . Αντίστοιχα ισχύουν και για τον τελεστή min (δηλ. minimum
ελάχιστο), ο οποίος για μη-πεπερασμένο πλήθος στοιχείων αντικαθίσταται με τον τελεστή inf, βλ.
μέγιστο κάτω φράγμα (greatest lower bound ή, εναλλακτικά, (inf)imum)) ή συμβολικά .
Συνεπώς, οι τελεστές και είναι γενικότεροι των τελεστών max και min, αντίστοιχα, και οι
προαναφερθέντες ορισμοί για την ένωση () και την τομή () μπορούν να γραφτούν ως (AB)(x) =
A(x)B(x) και (AB)(x) = A(x)B(x), αντίστοιχα.
Στα μαθηματικά αποδείχτηκε ότι η δομή (F(Ω),) είναι ένα πλήρες πλέγμα (Για το μαθηματικό
ορισμό του πλήρους πλέγματος βλέπε στο κεφάλαιο 7). Σημειώστε ότι ο όρος «πλέγμα» προτείνεται
εδώ, στο πλαίσιο της Υπολογιστικής Νοημοσύνης, αντί του όρου «δικτυωτό» που έχει προταθεί στα
μαθηματικά (Θεοδώρου, 2010) ως η μετάφραση στα ελληνικά του αγγλικού όρου «lattice».
Επισημαίνουμε ότι ο όρος πλέγμα μπορεί να έχει και μια άλλη, διαφορετική έννοια, δηλ. αυτή του
ορθογώνιου πλέγματος, η οποία δεν θα μας απασχολήσει στο παρόν βιβλίο.
Στη βιβλιογραφία διατυπώνεται ένα πλήθος άλλων χαρακτηριστικών και ιδιοτήτων ασαφών συνόλων
με μαθηματικό κυρίως ενδιαφέρον. Πιο πάνω εστιάσαμε σε ορισμένα χαρακτηριστικά και ιδιότητες που
ενδιαφέρουν σε πρακτικές εφαρμογές.
2-3
B( y ) f ( A( x)) sup { A( x)} (2.6)
xX | y f ( x )
Η αρχή της επέκτασης μπορεί να εφαρμοστεί με υπολογισμούς α-διατομών ως εξής:
Σημειώστε ότι η εφαρμογή της αρχής της επέκτασης δεν οδηγεί αναγκαστικά σε καλύτερα
αποτελέσματα. Συγκεκριμένα, είναι δυνατόν να επινοηθεί ένα εξειδικευμένο ασαφές μοντέλο το οποίο σε
κάποια πρακτική εφαρμογή να δίνει καλύτερα αποτελέσματα από το ασαφές μοντέλο που προκύπτει από την
εφαρμογή της αρχής της επέκτασης.
2.2.4 Προβολή
Μια χρήσιμη πράξη είναι η προβολή (projection) μιας ασαφούς σχέσης. Συγκεκριμένα, έστω μια ασαφής
σχέση Α(x1,…,xN) ως προς σύνολο αναφοράς το Καρτεσιανό γινόμενο X=X1XN και έστω
H Xi1 Xim με {i1,…,im}= I I ={1,…,N} ένας υποχώρος του X. Ονομάζουμε προβολή (projection)
του Α(x1,…,xN) στον υποχώρο H Xi1 Xim το ασαφές σύνολο που ορίζεται ως
Για μη-πεπερασμένο πλήθος αριθμητικών τιμών A(x1,,xN) ο τελεστής max αντικαθίσταται με τον
τελεστή sup ή, ισοδύναμα, . Για παράδειγμα, έστω μια ασαφής σχέση R(x,y), όπου xX=, yY= και
είναι το σύνολο των πραγματικών αριθμών. Η προβολή της R(x,y) στο Y είναι το ασαφές σύνολο B(y) =
ProjYR(x,y) = R( x, y ) .
x
2-4
σύνολο ονομάζεται (γενικευμένο) ασαφές σύνολο τύπου-2 ((generalized) type-2 fuzzy set). Σημειώστε ότι
ένα διαστημότιμο ασαφές σύνολο είναι ειδική περίπτωση (γενικευμένου) ασαφούς συνόλου τύπου-2.
Όλα τα προαναφερθέντα ασαφή σύνολα μπορούν να θεωρηθούν ως ειδικές περιπτώσεις της
γενικότερης περίπτωσης ασαφούς συνόλου Α: ΩL, όπου η δομή (L,⊑) είναι πλήρες πλέγμα. Π.χ. για L =
[0,1] προκύπτουν τα ασαφή σύνολα τύπου-1, για L = F([0,1]) προκύπτουν τα ασαφή σύνολα τύπου-2 κ.λπ.
Ένας αριθμός εναλλακτικών ασαφών συνόλων, συνήθως με μαθηματικό ενδιαφέρον αποκλειστικά,
έχουν οριστεί και συνεχίζεται να παρουσιάζονται στην βιβλιογραφία για αναπαράσταση της ασάφειας, της
αμφιβολίας, της ανακρίβειας, κ.λπ. Για παράδειγμα, αναφέρουμε το διαισθητικό ασαφές σύνολο
(intuitionistic fuzzy set) (Χατζημιχαηλίδης, 2014), έστω Α, το οποίο χαρακτηρίζεται πρώτον, από μία
συνάρτηση συμμετοχής Α: Ω[0,1] και δεύτερον, μία συνάρτηση μη-συμμετοχής (non-membership
function) Α: Ω[0,1] στο σύνολο αναφοράς Ω έτσι ώστε 0 Α(x) + Α(x) 1.
Παράδειγμα Β
Παράδειγμα δίτιμης πρότασης είναι «Η Ελένη πέρασε το μάθημα της Υπολογιστικής Νοημοσύνης» διότι,
εφόσον εξετάστηκε, η Ελένη είτε το πέρασε το μάθημα, είτε όχι, και οτιδήποτε άλλο αποκλείεται. Άλλο
παράδειγμα δίτιμης πρότασης είναι «Ο Πέτρος έχει ελληνικό διαβατήριο» διότι ο Πέτρος είτε έχει ελληνικό
διαβατήριο, είτε όχι, και αποκλείεται να συμβαίνει οτιδήποτε άλλο. Τέλος, σημειώστε τη διαδεδομένη
πεποίθηση ότι οι μαθηματικές προτάσεις είναι δίτιμες, δηλ. είναι είτε αληθείς είτε ψευδείς. Έτσι, για
παράδειγμα, στη Γεωμετρία μπορεί να αναζητηθεί η δίτιμη τιμή αλήθειας της πρότασης «Τα ύψη ενός
τριγώνου διέρχονται από το ίδιο σημείο».
Παράδειγμα Γ
Κάποιες προτάσεις από τη φύση τους δεν είναι δίτιμες, αλλά πλειότιμες. Για παράδειγμα, η πρόταση «Το
φύλλωμα του δένδρου είναι καταπράσινο» είναι αληθής στο βαθμό που το φύλλωμα του δένδρου είναι
καταπράσινο. Έτσι, η προαναφερθείσα πρόταση μπορεί να είναι απόλυτα αληθής στις αρχές της άνοιξης, να
είναι απόλυτα ψευδής στα τέλη του φθινοπώρου, όταν όλα τα φύλλα του δένδρου έχουν κιτρινίσει, και να
είναι ως κάποιο βαθμό αληθής σε κάποια ενδιάμεση χρονική στιγμή, όταν τα φύλλα είναι εν μέρει
κίτρινα/πράσινα.
Τυπικά, όπως συμβαίνει σ’ αυτό το κεφάλαιο, μια πλειότιμη πρόταση λαμβάνει τιμές στο
απειροσύνολο (κλειστό) διάστημα [0,1]. Ωστόσο, έχουν προταθεί επεκτάσεις, μαθηματικού κυρίως
ενδιαφέροντος, όπου μια πλειότιμη πρόταση λαμβάνει τιμές σε ένα (πλήρες) πλέγμα (Goguen, 1967).
Σημειώστε ότι στις περισσότερες των περιπτώσεων μια προτεινόμενη (πλειότιμη) λογική επέκταση είναι
τέτοια, ώστε η γνωστή δίτιμη (προτασιακή) λογική ισχύει ως ειδική περίπτωση. Στη συνέχεια, μελετούμε μια
μοντελοποίηση της ομιλούμενης γλώσσας στο πλαίσιο της δίτιμης (προτασιακής) λογικής.
ή συμβολικά
R: PQ
2-5
όπου P είναι η «πρόταση-αίτιο» και Q είναι η «πρόταση-αποτέλεσμα». Συνηθίζεται η πρόταση P να
ονομάζεται το αίτιο (antecedent) και η πρόταση Q το αποτέλεσμα (consequent) του κανόνα R: PQ.
Ένας κανόνας R: PQ αποτελεί (και αυτός) μια πρόταση, η τιμή αληθείας της οποίας είναι
συνάρτηση των τιμών αληθείας p και q των προτάσεων P(αίτιο) και Q (αποτέλεσμα) αντίστοιχα. Η πρώτη
στήλη του Πίνακα 2.1 δείχνει την τιμή αλήθειας του κανόνα R: PQ για τη δίτιμη (Boolean) συνάρτηση
συνεπαγωγής (implication function) pq. Επιπλέον, ο Πίνακας 2.1 δείχνει τη συνάρτηση pq και τη
σχέση pq που έχουν τον ίδιο πίνακα αλήθειας με τη συνάρτηση συνεπαγωγής pq. Συγκεκριμένα, η
συνάρτηση pq είναι μια δίτιμη συνάρτηση των δίτιμων μεταβλητών p και q, ενώ η σχέση pq είναι είτε
αληθής (τιμή 1), είτε ψευδής (τιμή 0), ανάλογα με τις τιμές που λαμβάνουν οι δίτιμες μεταβλητές p και q.
0 0 1 1 1
0 1 1 1 1
1 0 0 0 0
1 1 1 1 1
Πίνακας 2.1 Πίνακας αληθείας της δίτιμης συνάρτησης συνεπαγωγής pq, όπου p και q είναι οι δίτιμες τιμές αλήθειας
των προτάσεων P (αίτιο) και Q (αποτέλεσμα) ενός κανόνα PQ. Η συνάρτηση pq και η σχέση p q έχουν τον ίδιο
πίνακα αλήθειας με την συνεπαγωγή pq.
2-6
(triangular conorm ή, εναλλακτικά, t-conorm ή s-norm), ως επεκτάσεις της λογικής διάζευξης, καθώς και,
αντιστοίχως, τελεστές N: [0,1][0,1] για την άρνηση (Klir & Yuan, 1995· Nguyen & Walker, 2005).
Συνήθως, μια τριγωνική νόρμα τυπικά ζητείται να έχει τις ακόλουθες ιδιότητες:
Ενώ, ένας τελεστής για την άρνηση τυπικά ζητείται να έχει την ακόλουθη ιδιότητα:
Παράδειγμα άρνησης
N(x) = 1-x.
Μια πλειότιμη (ασαφής) πρόταση Α μπορεί να είναι σύνθετη αποτελούμενη από τη διάζευξη ή/και τη
σύζευξη ή/και την άρνηση απλών, πλειότιμων προτάσεων Α1,,Αn. Ο βαθμός αλήθειας της σύνθετης
πρότασης Α υπολογίζεται από τους βαθμούς αλήθειας των Α1,,Αn, έτσι ώστε μια σύζευξη υπολογίζεται με
μια τ-νόρμα, μια διάζευξη υπολογίζεται με σ-νόρμα και μια άρνηση με έναν τελεστή άρνησης. Για
παράδειγμα, εάν η πρόταση Α έχει τη μορφή της σύζευξης «Α1 ΚΑΙ ΚΑΙ Αn», τότε ο βαθμός αλήθειας a
της πρότασης Α μπορεί να υπολογίζεται είτε ως το ελάχιστο a = min{a1,,an} είτε ως το γινόμενο a =
a1an κ.λπ., όπου a1,,an είναι οι βαθμοί αλήθειας των ασαφών προτάσεων A1,,An αντίστοιχα.
Περαιτέρω, ο βαθμός αλήθειας μιας ασαφούς συνεπαγωγής Ι: [0,1][0,1][0,1] ορίζεται ως μια
συνάρτηση Ι(a,b) με δύο ορίσματα a και b, έτσι ώστε για a,b{0,1} η συνάρτηση I(a,b) να επαληθεύει τον
Πίνακα 2.1. Στα μαθηματικά έχουν προταθεί οι ακόλουθες οικογένειες συναρτήσεων ασαφών συνεπαγωγών
(Hatzimichailidis κ.ά., 2012):
όπου η συνάρτηση T(.,.) είναι τ-νόρμα, η συνάρτηση S(.,.) είναι σ-νόρμα και η συνάρτηση n(.) είναι άρνηση.
Σε πρακτικές εφαρμογές συχνά χρησιμοποιούνται οι ακόλουθες συναρτήσεις ασαφών συνεπαγωγών:
IB(a,b) = (1-a)b κατά Boole.
2-7
IL(a,b) = 1(1-a+b) κατά Lukasiewicz.
IZ(a,b) = (ab)(1-a) κατά Zadeh.
IM(a,b) = ab κατά Mamdani.
Είναι ενδιαφέρον ότι μόνον οι τρεις πρώτες συνεπαγωγές (δηλ. οι κατά Boole, Lukasiewicz και
Zadeh) επαληθεύουν τον Πίνακα 2.1 της δίτιμης συνάρτησης συνεπαγωγής. Εντούτοις, η συνεπαγωγή κατά
Mamdani είναι μακράν η δημοφιλέστερη λόγω της αποτελεσματικότητάς της, καθώς και λόγω της ταχύτητας
υλοποίησής της, αφού επιλέγει το μικρότερο μεταξύ δύο αριθμών. Το τελευταίο δείχνει ότι στην πράξη
προτιμώνται τεχνικές αποτελεσματικότερες από άλλες, οι οποίες μπορεί να ικανοποιούν κάποιες θεωρητικές
αρχές.
Έστω μια σύνθετη (ασαφής) πρόταση Α. Μια ασαφής συνεπαγωγή (κανόνας) Ι: ΑΒ μπορεί να
θεωρηθεί ως ένα «(μηχανικό) σύστημα» με πολλές εισόδους (που συνθέτουν την πρόταση Α) και με μία
έξοδο (την πρόταση Β). Περαιτέρω, μπορούμε να θεωρήσουμε πολλές εξόδους, όταν η πρόταση Β είναι
σύνθετη. Ωστόσο, η πάγια πρακτική στη βιβλιογραφία είναι η χρήση κανόνων με πολλές εισόδους και με μία
έξοδο ο καθένας. Περισσότερες έξοδοι προκύπτουν από την παράλληλη θεώρηση κανόνων με πολλές
εισόδους και με μία έξοδο ο καθένας.
Ένα σύνολο κανόνων ονομάζεται ασαφής αλγόριθμος (fuzzy algorithm) ή, εναλλακτικά, ασαφές
σύστημα (fuzzy system) ή ασαφές μοντέλο (fuzzy model) και αποτελεί το υψηλότερο επίπεδο της
ομιλούμενης γλώσσας (spoken language) που μοντελοποιείται εδώ στο πλαίσιο της ασαφούς λογικής.
2-8
2.4.2 Ασαφείς Αριθμοί
Ένα φυσικό μέγεθος, όπως το Ύψος, η Ταχύτητα, ο Χρόνος, το Βάρος, το Ηλεκτρικό Δυναμικό, η
Θερμοκρασία, κ.λπ. μπορεί να μετρηθεί αν το συγκρίνουμε με ένα άλλο ομοειδές μέγεθος το οποίο
αποκαλούμε «μονάδα». Για παράδειγμα, όταν θέλουμε να μετρήσουμε ένα «μήκος», τότε θεωρούμε μια
ομοειδή μονάδα μήκους, έστω ένα «μέτρο», και καταγράφουμε πόσες φορές το μέτρο χωράει στο προς
μέτρηση μήκος. Το ακέραιο πηλίκο και το υπόλοιπο της διαίρεσης του προς μέτρηση (measurement)
μήκους με τη μονάδα ορίζουν έναν πραγματικό αριθμό. Είναι ενδιαφέρουσα η άποψη του φυσικού/μηχανικού
Λόρδου Κέλβιν: «Όταν μπορείς να μετρήσεις αυτό για το οποίο μιλάς και να το εκφράσεις αριθμητικά τότε
και μόνον τότε ξέρεις ουσιαστικά κάτι γι’ αυτό». Αυτός, ισχυριζόμαστε, είναι ο λόγος που το σύνολο των
πραγματικών αριθμών κατέστη το πλέον δημοφιλές σύνολο αναφοράς Ω για τον ορισμό ασαφών συνόλων.
Ως αποτέλεσμα της μακροχρόνιας χρήσης των ασαφών συνόλων στην πράξη προτάθηκαν επιπλέον
περιορισμοί στη χαρακτηριστική συνάρτηση ενός ασαφούς συνόλου. Συγκεκριμένα, μια πρώτη παραδοχή
είναι ότι ένα ασαφές σύνολο είναι κανονικό, δηλ. έχει ύψος ίσο με 1. Μια δεύτερη, δημοφιλής παραδοχή είναι
ότι η χαρακτηριστική συνάρτηση Α: [0,1] έχει κωδωνοειδή (κυρτή) μορφή που ισοδυναμεί με το ότι μια
α-διατομή, για α[0,1], είναι ένα (κλειστό) διάστημα. Μια επιπλέον παραδοχή μπορεί να είναι ότι η
χαρακτηριστική συνάρτηση Α: [0,1] είναι συνεχής.
Ένα ασαφές σύνολο (τύπου-1) το οποίο ικανοποιεί τις προαναφερθείσες παραδοχές είναι γνωστό στη
βιβλιογραφία ως ασαφής αριθμός (fuzzy number) ή, εναλλακτικά, ασαφές διάστημα (fuzzy interval).
Σημειώστε ότι μια -διατομή ενός ασαφούς αριθμού είναι ένα (κλειστό) διάστημα. Στη συντριπτική
πλειοψηφία των πρακτικών εφαρμογών στη βιβλιογραφία χρησιμοποιούνται ασαφείς αριθμοί. Το σύνολο των
ασαφών αριθμών εδώ συμβολίζεται με F1.
Στη βιβλιογραφία έχουν προταθεί διάφορες (παραμετρικές) οικογένειες χαρακτηριστικών
συναρτήσεων για ασαφείς αριθμούς. Για παράδειγμα, έχουν προταθεί τριγωνικές, τραπεζοειδείς κ.λπ.
χαρακτηριστικές συναρτήσεις. Κάποια τυπικά δείγματα μορφών χαρακτηριστικών συναρτήσεων
παρουσιάζονται στο Σχήμα 2.1. Σημειώστε ότι στη βιβλιογραφία έχουν προταθεί διάφορες αριθμητικές
ασαφών αριθμών (fuzzy number arithmetics) οι οποίες μπορούν να τελούνται μέσω των αντίστοιχων α-
διατομών, οι οποίες είναι (κλειστά) διαστήματα. Στο κεφάλαιο 9 μελετούμε καινοτόμες τεχνικές χειρισμού
ασαφών αριθμών οποιουδήποτε σχήματος (Belohlavek, 2007).
1 1
0 0
(α) (β)
Σχήμα 2.1 Μια χαρακτηριστική συνάρτηση ασαφούς αριθμού μπορεί να έχει μορφή (α) Τραπεζοειδή (η Τριγωνική είναι
μια ειδική περίπτωση), (β) Κωδωνοειδή.
2-9
Α2
1 1
Α1
0 0
(α) (β)
Α3 Α4
1 1
0 0
(γ) (δ)
Σχήμα 2.2 (α) Κυρτό, μη-κανονικό ασαφές σύνολο Α1. (β) Μη-κυρτό, κανονικό ασαφές σύνολο Α2. (γ) Ασαφής αριθμός Α3
και (δ) Ασαφής αριθμός Α4 (δηλ. κανονικό και κυρτό ασαφές σύνολο ως προς σύνολο αναφοράς το σύνολο των
πραγματικών αριθμών) με συνεχή χαρακτηριστική συνάρτηση.
B
1 1
A
0.8
0.6
A0.6 supp(B) = B0
0 0
(α) (β)
Σχήμα 2.3 (α) Κυρτό, μη-κανονικό ασαφές σύνολο A με ύψος hgt(A) = 0.8. Η α-διατομή A0.6 επισημαίνεται με έντονη
γραμμή επάνω στην ευθεία των πραγματικών αριθμών. (β) Ασαφής αριθμός B. Το στήριγμα supp(B) είναι η α-διατομή
B0.
B
1
0 x
Σχήμα 2.4 Δύο ασαφείς αριθμοί A (με τριγωνική χαρακτηριστική συνάρτηση) και B (με τραπεζοειδή χαρακτηριστική
συνάρτηση) προς επίδειξη της σχέσης AB ή, ισοδύναμα, A(x)B(x), x.
2-10
A B AB
1 1
0 0
(α) (β)
B B
1 1
AB
0 0
(γ) (δ)
Σχήμα 2.5 (α) Δύο ασαφείς αριθμοί A και B. (β) Η ένωση AB. (γ) Η τομή AB. (δ) Το συμπλήρωμα B (του ασαφούς
αριθμού B) έχει μη-κυρτή χαρακτηριστική συνάρτηση που επισημαίνεται με συνεχή γραμμή.
2-11
Άρα, το συμπέρασμα, σύμφωνα με τη μέθοδο modus ponens, είναι ότι η κάθε γωνία του τριγώνου
ΑΒΓ είναι ίση με 60ο. Συνεπώς, δε χρειάζεται να μετρήσουμε τις γωνίες του ισόπλευρου τριγώνου ΑΒΓ.
Εφόσον μετρήσαμε τις πλευρές του και βρήκαμε ότι είναι ίσες, η μέθοδος εξαγωγής συμπεράσματος Modus
Ponens μας οδηγεί στο ασφαλές συμπέρασμα ότι κάθε γωνία του τριγώνου ΑΒΓ είναι ίση με 60ο.
Η μέθοδος εξαγωγής συμπερασμάτων Modus Ponens χρησιμοποιήθηκε εκτεταμένα σε κλασικά
έμπειρα συστήματα (expert systems). Ωστόσο, κατά την εφαρμογή της στην πράξη εμφάνισε ένα βασικό
πρόβλημα όπως περιγράφεται στο ακόλουθο παράδειγμα.
Έστω ο κανόνας: ΕΑΝ «η θερμοκρασία ενός ανθρώπου είναι ίση ή μεγαλύτερη από 40 οC» ΤΟΤΕ
«χορήγησε αντιπυρετικό σύμφωνα με τις οδηγίες».
Έστω το γεγονός: «Ο Παύλος έχει θερμοκρασία 39.9 οC εδώ και ώρες».
Με βάση τη μέθοδο Modus Ponens δε βγαίνει το συμπέρασμα να χορηγηθεί αντιπυρετικό στον
Παύλο, ενώ η κοινή λογική μας λέει πως θα έπρεπε να χορηγηθεί μια καλή δόση αντιπυρετικού στον Παύλο,
διότι το 39.9 οC είναι πολύ κοντά στο 40 οC.
Περιπτώσεις όπως αυτή του παραπάνω παραδείγματος, οδήγησαν σε μια γενίκευση της μεθόδου
Modus Ponens όπως σκιαγραφείται στη συνέχεια.
Έστω ο κανόνας: ΕΑΝ «το Χ είναι Α» ΤΟΤΕ «το Υ είναι Β».
Έστω το γεγονός: «το Χ είναι A», όπου το A «μοιάζει», υπό κάποια έννοια, με το A.
Άρα, το συμπέρασμα είναι ότι: «το Υ είναι Β», όπου το ασαφές σύνολο B (θέλουμε να) «μοιάζει» ,
υπό την προαναφερθείσα έννοια, με το B.
Συγκεκριμένα, έστω ο κανόνας «R: ΕΑΝ (X είναι A(x)) ΤΟΤΕ (Y είναι B(y))», συμβολικά «R: (X =
A(x))(Y = B(y))» ή, απλούστερα, «R: A(x)B(y)», όπου τα A(x) και B(y) είναι ασαφή σύνολα σε
κατηγορηματικές προτάσεις, όπως αναπτύχθηκε παραπάνω. Σ’ αυτήν την περίπτωση η γενικευμένη μέθοδος
Modus Ponens λαμβάνει την εξής μορφή:
Το ζητούμενο είναι ο υπολογισμός ενός συμπεράσματος Β(y) που να αντιστοιχεί στο γεγονός A(x)
σύμφωνα με την εμπειρία, η οποία αναπαρίσταται με τον κανόνα R.
Ένας τρόπος υπολογισμού του Β είναι με το συνθετικό συμπερασματικό κανόνα (compositional
rule of inference) του Zadeh:
B = A○R,
όπου R είναι μια συνάρτηση ασαφούς συνεπαγωγής για τον κανόνα R: (X=Α(x))(Y=Β(y)), ενώ “○” είναι ο
τελεστής του ελάχιστου άνω φράγματος μιας τ-νόρμας, δηλαδή:
Σημειώστε ότι μια συνάρτηση ασαφούς συνεπαγωγής R ορίζεται άμεσα στο Καρτεσιανό γινόμενο
[0,1][0,1] και έμμεσα στο Καρτεσιανό γινόμενο βασικών συνόλων XY, όπως φαίνεται στην έκφραση
R(A(x),B(y)). Παρατηρήστε ότι η ασαφής συνεπαγωγή R(x,y) ενός ασαφούς κανόνα R: Α(x)Β(y) αποτελεί
2-12
μια ασαφή σχέση. Σημειώστε ακόμη ότι ο υπολογισμός του B(y0) σύμφωνα με το συνθετικό συμπερασματικό
κανόνα του Zadeh αντιστοιχεί στην προβολή της ασαφούς σχέσης R(x,y) = T ( A( x), R( x, y )) στο y.
( x, y )
Παράδειγμα Δ
Παρουσιάζουμε ένα παράδειγμα εφαρμογής του συνθετικού συμπερασματικού κανόνα του Zadeh για τον
υπολογισμό της εξόδου B ενός κανόνα «R: ΑΒ» με μια είσοδο (Α) και μια έξοδο (Β) που ορίζονται σε
πεπερασμένο πλήθος τιμών του πεδίου ορισμού τους. Θα χρησιμοποιήσουμε την τ-νόρμα TM(x,y) = min(x,y)
και την συνεπαγωγή κατά Mamdani R(x,y) = A(x)B(y), δηλ. θα χρησιμοποιήσουμε την Εξ.(2.10). Έστω, A =
{(1,0), (2,0.1), (3,0.4), (4,0.6), (5,0.9), (6,1)} και B = {(0,1), (10,1), (20,0.7), (30,0.3), (40,0)}. Η ασαφής
συνεπαγωγή R υπολογίζεται όπως φαίνεται στον Πίνακα 2.2.
Έστω ότι παρουσιάζεται η είσοδος A = {(1,0), (2,0.2), (3,0.7), (4,1), (5,1), (6,0.7)} στον κανόνα R:
ΑΒ. Για ευκολία του αναγνώστη η είσοδος A(x) παρουσιάζεται στην τελευταία στήλη του Πίνακα 2.2. Η
ασαφής σχέση R(x,y) = A( x) R( x, y ) παρουσιάζεται στον Πίνακα 2.3. Τέλος, η προβολή της ασαφούς
( x, y )
σχέσης R(x,y) στο σύνολο Y = {0, 10, 20, 30, 40} αποτελεί την ζητούμενη έξοδο B(y0) = R( x, y ) ως B
( x,y0 )
= {(0,0.9), (10,0.9), (20,0.7), (30,0.3), (40,0)}, y0Y. Παρατηρήστε ότι, δοθείσης της «ομοιότητας» (υπό την
έννοια της Ευκλείδειας απόστασης) του A με το A, η προηγούμενη τεχνική υπολόγισε ένα B που παρόμοια
«μοιάζει» με το B.
Β(y) 0 10 20 30 40
Α(x) 1 1 0.7 0.3 0 Α(x)
1 0 0 0 0 0 0 0
2 0.1 0.1 0.1 0.1 0.1 0 0.2
3 0.4 0.4 0.4 0.4 0.3 0 0.7
4 0.6 0.6 0.6 0.6 0.3 0 1
5 0.9 0.9 0.9 0.7 0.3 0 1
6 1 1 1 0.7 0.3 0 0.7
Πίνακας 2.2 Ασαφής συνεπαγωγή Α(x)Β(y) κατά Mamdani A(x)B(y). Στην τελευταία στήλη παρουσιάζεται το ασαφές
σύνολο Α(x).
0 0 0 0 0
0.1 0.1 0.1 0.1 0
0.4 0.4 0.4 0.3 0
0.6 0.6 0.6 0.3 0
0.9 0.9 0.7 0.3 0
0.7 0.7 0.7 0.3 0
Πίνακας 2.3 Ασαφής σχέση R(x,y) στο συνθετικό συμπερασματικό κανόνα R( x, y ) του Zadeh.
( x,y0 )
2-13
κατηγοριοποιητής (classifier) που διαμερίζει το πεδίο ορισμού N της συνάρτησης f σε κατηγορίες. Αν και
άλλα μοντέλα, όπως τεχνητά νευρωνικά δίκτυα, μπορούν να υλοποιήσουν μια συνάρτηση f: NT, εντούτοις
ένα μοναδικό χαρακτηριστικό των Ασαφών Μοντέλων είναι ότι αξιοποιούν την ανθρώπινη εμπειρία
χρησιμοποιώντας όρους της ομιλούμενης γλώσσας προς υλοποίηση της συνάρτησης f.
x=(x1,,xN) y = f(x1,,xN)
Ασαφές
Ασαφοποιητής Μοντέλο Απο-ασαφοποιητής
(κανόνων)
Σχήμα 2.6 Το Ασαφές Μοντέλο (κανόνων) βρίσκεται στην «καρδιά» ενός μηχανισμού υλοποίησης μιας συνάρτησης f:
NT. Ο Ασαφοποιητής (fuzzifier) μετατρέπει τους εισερχόμενους αριθμούς x1,,xN σε ασαφή σύνολα. Ο Απo-
ασαφοποιητής (de-fuzzifier) μετατρέπει τις απαντήσεις των κανόνων του Ασαφούς Μοντέλου σε ένα στοιχείο του πεδίου
τιμών T της συνάρτησης f: NT.
Δύο δημοφιλή Ασαφή Μοντέλα είναι τα ασαφή συστήματα συμπερασμού (ΑΣΣ) (fuzzy inference
systems (FISs)) τύπου Mamdani και τύπου Sugeno (Guillaume, 2001) που μελετώνται στη συνέχεια.
ή συμβολικά
ή συμβολικά
2-14
Στον κανόνα RS η πρόταση «το υποκείμενο Χ είναι Α» αποτελεί το αίτιο, ενώ η πρόταση «η
συνάρτηση y ισούται με f(x)» αποτελεί το αποτέλεσμα. Ή, ισοδύναμα, η ισότητα «Χ = Α» αποτελεί το αίτιο,
ενώ η ισότητα «y = f(x)» αποτελεί το αποτέλεσμα του κανόνα RS.
Ένα μοντέλο κανόνων τύπου Sugeno «Ri: ΕΑΝ Χ = Αi ΤΟΤΕ y = fi(X)», i{1,,I} απεικονίζει
ασαφείς αριθμούς σε πραγματικές συναρτήσεις. Η συνάρτηση fi(X) στο αίτιο συνήθως είναι γραμμική.
Τυπικά, ένα μοντέλο Sugeno χρησιμοποιείται σε εφαρμογές όπου υπάρχουν πολλές αριθμητικές μετρήσεις.
Δεδομένου ενός αιτίου, ένα ασαφές σύστημα τύπου Mamdani/Sugeno χρησιμοποιεί ανθρώπινη
γνώση που αναπαρίσταται με κανόνες, καθώς και ασαφή λογική προκειμένου να υπολογίσει ένα
συμπέρασμα. Θα εξηγήσουμε πως πραγματοποιείται αυτό, πρώτα για ένα σύστημα Mamdani και στη
συνέχεια για ένα σύστημα Sugeno.
K1: EAN (η είσοδος1 είναι μικρή) ΚΑΙ (η είσοδος2 είναι κανονική) ΤΟΤΕ (η έξοδος1 είναι λίγη)
K2: EAN (η είσοδος1 είναι μεγάλη) ΚΑΙ (η είσοδος2 είναι χαμηλή) ΤΟΤΕ (η έξοδος1 είναι αρκετή)
K3: EAN (η είσοδος1 είναι μεσαία) ΚΑΙ (η είσοδος2 είναι υψηλή) ΤΟΤΕ (η έξοδος1 είναι πολλή)
Σύμφωνα με τα παραπάνω, η καθεμιά από τις «είσοδος1», «είσοδος2» και «έξοδος1» είναι ασαφής
μεταβλητή. Έστω ότι το βασικό σύνολο για την «είσοδος1» είναι το κλειστό διάστημα [0,10], για την
«είσοδος2» είναι το [10,20], ενώ για την «έξοδος1» είναι το κλειστό διάστημα [50,100]. Μια συνηθισμένη
πρακτική είναι να προκαθορίζονται τα ασαφή σύνολα /αριθμοί που επιτρέπεται να λάβει ως τιμές μια ασαφής
μεταβλητή. Για παράδειγμα, έστω ότι η ασαφής μεταβλητή «είσοδος1» μπορεί να λάβει ως τιμές τους
ασαφείς αριθμούς με ετικέτες «μικρή», «μεσαία» και «μεγάλη» που φαίνονται στο Σχήμα 2.7(α). Οι τιμές για
τις ασαφείς μεταβλητές «είσοδος2» και «έξοδος1» φαίνονται στο Σχήμα 2.7 (β) και (γ), αντίστοιχα.
Σημειωτέον ότι το ακριβές σχήμα και θέση των ασαφών αριθμών που μπορεί να λάβει ως τιμές μια ασαφής
μεταβλητή είναι αντικείμενο έρευνας. Σημειώστε επίσης ότι μια συνηθισμένη πρακτική είναι η πλήρης
κάλυψη ολόκληρου του βασικού συνόλου από τη (συνολοθεωρητική) ένωση των στηριγμάτων όλων των
ασαφών τιμών που μπορεί να λάβει μια ασαφής μεταβλητή, διότι θέλουμε κάθε πραγματικός αριθμός του
βασικού συνόλου να ανήκει οπωσδήποτε τουλάχιστον σε ένα ασαφές σύνολο του βασικού συνόλου. Μια
άλλη συνηθισμένη πρακτική είναι η (μερική) επικάλυψη (overlapping) των ασαφών τιμών που μπορεί να
λάβει μια ασαφής μεταβλητή, διότι η προαναφερθείσα (μερική) επικάλυψη αποφεύγει τις απότομες αλλαγές
στη συνάρτηση f: NT (βλ. Σχήμα 2.6), όπως απαιτείται σε πολλές εφαρμογές.
Το Σχήμα 2.8 απεικονίζει τους τρεις κανόνες Κ1, Κ2 και Κ3 χρησιμοποιώντας τα ασαφή σύνολα του
Σχήματος 2.7. Οι τρεις κανόνες Κ1, Κ2 και Κ3 αποτελούν το Ασαφές Μοντέλο (κανόνων) του Σχήματος 2.6.
Το Σχήμα 2.9 εμφανίζει δύο αριθμητικές εισόδους x1=6 και x2=15 (βλ. Σχήμα 2.6 για N=2). Ο βαθμός
συμμετοχής του αριθμού x1=6 ή x2=15 σε καθένα από τα ασαφή σύνολα του αντίστοιχου βασικού συνόλου
ενεργοποιεί μέρος του ασαφούς συνόλου, όπως επισημαίνεται με παχιές γραμμές στο Σχήμα 2.10. Αυτή η
διαδικασία ονομάζεται ασαφοποίηση (των αριθμητικών εισόδων x1 και x2) και μετατρέπει έναν αριθμό όπως
τον x1=6 ή τον x2=15 σε ένα ασαφές σύνολο, με σκοπό να αξιοποιηθεί η υπάρχουσα βάση γνώσης
(knowledge base) ασαφών κανόνων. Συγκεκριμένα, στο Σχήμα 2.10 αναφορικά με τον κανόνα Κ3 ο αριθμός
x1=6 ανήκει στον ασαφή αριθμό «μεσαία» με βαθμό συμμετοχής 0.75, ενώ ο αριθμός x2=15 ανήκει στον
ασαφή αριθμό «υψηλή» με βαθμό συμμετοχής 0.167. Γι’ αυτόν τον λόγο οι ασαφείς αριθμοί «μεσαία» και
«υψηλή» ενεργοποιούνται μέχρι ύψους 0.75 και 0.167 αντίστοιχα και προκύπτουν τα ασαφή σύνολα που
δείχνονται με παχιές γραμμές στο Σχήμα 2.10. Παρόμοια, στο Σχήμα 2.10, αναφορικά με τον κανόνα Κ2, οι
ασαφείς αριθμοί «μεγάλη» και «χαμηλή» ενεργοποιούνται μέχρι ύψους 0.4 και 0.5, αντίστοιχα, και
προκύπτουν τα ασαφή σύνολα που επισημαίνονται με παχιές γραμμές. Για τον κανόνα Κ1 οι ασαφείς αριθμοί
«μικρή» και «κανονική» ενεργοποιούνται μέχρι ύψους 0 και 1 αντίστοιχα.
2-15
μικρή μεσαία μεγάλη
1
0 1 1.5 4 5 6 9 10
(α)
5 10 11 14 15 18 19 20
(β)
50 60 70 80 85 100
(γ)
Σχήμα 2.7 Εδώ απεικονίζονται όλες οι δυνατές τιμές (βλ. ασαφείς αριθμοί) που μπορούν να λάβουν οι ασαφείς μεταβλητές
(α) «είσοδος1», (β) «είσοδος2» και (γ) «έξοδος1» στο αντίστοιχο βασικό σύνολο.
2-16
μικρή κανονική λίγη
1 1 1
Κ1: ΕΑΝ ΚΑΙ ΤΟΤΕ
0 1.5 6 10 10 15 19 20 50 70 100
1 1 1
Κ2: ΕΑΝ ΚΑΙ ΤΟΤΕ
0 4 9 10 10 12 18 20 50 60 85 100
1 1 1
Κ3: ΕΑΝ ΚΑΙ ΤΟΤΕ
0 1 5 9 10 10 14 20 50 80 100
Σχήμα 2.8 Γραφική αναπαράσταση των τριών κανόνων Κ1, Κ2 και Κ3 που αναφέρονται στο κείμενο δοθέντων των
ασαφών συνόλων του Σχήματος 2.7.
Έστω ότι οι κατηγορηματικές προτάσεις στο αίτιο οποιουδήποτε από τους κανόνες Κ1, Κ2, Κ3 είναι
σε σύζευξη. Συνεπώς, ο βαθμός αλήθειας του αιτίου ενός κανόνα υπολογίζεται με μια τ-νόρμα, έστω την
TM(x,y) = min{x,y}. Συνεπώς, για τις δύο αριθμητικές εισόδους x1=6 και x2=15 ο βαθμός ενεργοποίησης
(degree of activation) του αιτίου του κανόνα Κ1 είναι Κ1(0,1)= min{0,1}= 0, ο βαθμός ενεργοποίησης του
αιτίου του κανόνα Κ2 είναι Κ2(0.4,0.5)= min{0.4,0.5}= 0.4 και του αιτίου του κανόνα Κ3 είναι
Κ3(0.75,0.167)= min{0.75,0.167}= 0.167. Ο προαναφερθείς βαθμός ενεργοποίησης του αιτίου του κάθε
κανόνα χρησιμοποιείται για να υπολογιστεί το ασαφές σύνολο στην έξοδο του κάθε κανόνα που
παρουσιάζεται στο Σχήμα 2.11 με παχιές γραμμές Προφανώς ο κανόνας Κ1 δεν παράγει καμιά έξοδο. Η
ασαφής έξοδος του κάθε κανόνα αποτελεί το μερικό αποτέλεσμα του συγκεκριμένου κανόνα, το οποίο πρέπει
να συναθροιστεί, κατά κάποιο τρόπο, με τα μερικά αποτελέσματα όλων των κανόνων της βάσης, ώστε να
παραχθεί το ολικό αποτέλεσμα του Ασαφούς Μοντέλου Mamdani που παρουσιάζεται μόνο του στο Σχήμα
2.11 κάτω από τους τρεις κανόνες Κ1, Κ2 και Κ3. Συγκεκριμένα, το ολικό αποτέλεσμα του Ασαφούς
Μοντέλου στο Σχήμα 2.11 προκύπτει από τη (συνολοθεωρητική) ένωση του μερικού αποτελέσματος κάθε
κανόνα ακριβώς από πάνω του.
2-17
μικρή κανονική λίγη
1 1 1
Κ1:
0 1.5 6 10 10 15 19 20 50 70 100
1 1 1
Κ2:
0.4 0.5
0 4 9 10 10 12 18 20 50 60 85 100
0 1 5 9 10 10 14 20 50 80 100
x1=6 x2=15
Σχήμα 2.9 Οι αριθμητικές είσοδοι x1=6 και x2=15 στο Ασαφές Μοντέλο των τριών κανόνων Κ1, Κ2 και Κ3 του Σχήματος
2.8 έχουν βαθμό συμμετοχής (σε ασαφή σύνολα) που παρουσιάζεται στον αντίστοιχο κατακόρυφο άξονα.
2-18
μικρή κανονική λίγη
1 1 1
Κ1:
0 1.5 6 10 10 15 19 20 50 70 100
1 1 1
0 4 9 10 10 12 18 20 50 60 85 100
1 1 1
Κ3: 0.75
0.167 0.167
0 1 5 9 10 10 14 20 50 80 100
x1=6 x2=15
Σχήμα 2.10 Διαδικασία ασαφοποίησης. Οι αριθμοί x1=6 και x2=15 μετατρέπονται σε ασαφή σύνολα που επισημαίνονται
με παχιές γραμμές ενεργοποιώντας έναν ασαφή αριθμό στο αντίστοιχο βασικό σύνολο κατά το βαθμό συμμετοχής τους, ο
οποίος υποδεικνύεται στον κατακόρυφο άξονα στο διάστημα [0,1]. Ο βαθμός ενεργοποίησης του κάθε κανόνα ισούται με
το ελάχιστο (min) των βαθμών συμμετοχής των αριθμών x1=6 και x2=15 στα ασαφή σύνολα του αιτίου του κάθε κανόνα.
Σημειώστε ότι ο κανόνας Κ1 δεν ενεργοποιείται.
2-19
μικρή κανονική λίγη
1 1 1
Κ1:
0 1.5 6 10 10 15 19 20 50 70 100
1 1 1
Κ2: 0.5
0.4 0.4
0 4 9 10 10 12 18 20 50 60 85 100
1 1 1
Κ3: 0.75
0.167 0.167
0 1 5 9 10 10 14 20 50 80 100
x1=6 x2=15
0.4
0.167
50 60 85 100
Σχήμα 2.11 Ο βαθμός ενεργοποίησης του αιτίου του κάθε κανόνα χρησιμοποιείται για να υπολογίσει το μερικό (ασαφές)
αποτέλεσμα του κάθε κανόνα. Η (συνολοθεωρητική) ένωση του μερικού αποτελέσματος κάθε κανόνα δίνει το ολικό
αποτέλεσμα που παρουσιάζεται μόνο του κάτω από όλους τους κανόνες. Με απο-ασαφοποίηση υπολογίζεται ένας αριθμός
από το ολικό αποτέλεσμα που επισημαίνεται με μια παχιά κατακόρυφη γραμμή.
Η τελευταία πράξη που απομένει για να ολοκληρωθεί η περιγραφή του μηχανισμού του Σχήματος 2.6
είναι η απο-ασαφοποίηση (de-fuzzification), δηλ. η μετατροπή του ολικού ασαφούς αποτελέσματος σε ένα
στοιχείο του πεδίου ορισμού T της συνάρτησης f: NT. Επειδή εδώ είναι T= το ολικό ασαφές
αποτέλεσμα με χαρακτηριστική συνάρτηση έστω B(y) θα πρέπει να μετατραπεί σε έναν πραγματικό αριθμό, η
τιμή του οποίου επισημαίνεται με τη θέση της παχιάς κάθετης γραμμής στο ολικό ασαφές αποτέλεσμα του
Σχήματος 2.11. Στη βιβλιογραφία έχουν προταθεί διάφορες τεχνικές απο-ασαφοποίησης (Runkler, 1997). Στη
συνέχεια παρουσιάζουμε μερικές από αυτές.
2-20
Απο-ασαφοποίηση Μεγίστου:
yˆM argmaxB( y )
Από όλους τους αριθμούς του βασικού συνόλου επιλέγεται ο αριθμός ŷM στον οποίο μεγιστοποιείται
η συνάρτηση B(y). Αν υπάρχουν περισσότεροι από ένας τέτοιοι αριθμοί τότε επιλέγουμε κάποιον καλώς
ορισμένο «μέσο (αριθμό)». Για παράδειγμα, για το ασαφές σύνολο στο Σχήμα 2.12(α) αυτή η τεχνική απο-
ασαφοποίησης υπολογίζει yˆM argmaxB( y ) = 5. Ενώ, για το ασαφές σύνολο στο Σχήμα 2.12(β) είναι
yˆM argmaxB( y ) = (3+5)/5 = 4.
Απο-ασαφοποίηση Διχοτόμου:
yˆ
B( y )dy yˆ
B( y )dy
Από όλους τους αριθμούς του βασικού συνόλου επιλέγεται ο αριθμός yˆ , ο οποίος διαμερίζει το
εμβαδόν κάτω από τη συνάρτηση B(y) σε δύο ίσα μέρη. Για παράδειγμα, για το ασαφές σύνολο στο Σχήμα
2.12(α) αυτή η τεχνική απο-ασαφοποίησης υπολογίζει
yˆ 9
1 ( 0.25 y + 2.25)dy ( 0.25 y + 2.25)dy yˆ 2 18 yˆ 69 0 yˆ
5.536 (η άλλη λύση
5 yˆ
yˆ 12.464 απορρίπτεται). Ενώ, για το ασαφές σύνολο στο Σχήμα 2.12(β) υπολογίζει
yˆ yˆ 7
B( y )dy yˆ
B( y )dy 1.5 + 2 + 5 ( 0.3 y + 2.5)dy ( 0.3 y + 2.5)dy
yˆ
+ 2 + 0.4
0.3 yˆ 2 5 yˆ 17.8 0 yˆ 5.153 (η άλλη λύση yˆ 11.513 απορρίπτεται).
B(y)
1
0 3 5 9 10
(α)
B(y)
1
0.4
0 3 5 7 12 14 20
(β)
Σχήμα 2.12 Δύο ασαφείς αριθμοί που χρησιμοποιούνται στο κείμενο για να εξηγήσουν διάφορες τεχνικές απο-
ασαφοποίησης. (α) Οι δύο πλευρές του τριγώνου περιγράφονται από τις εξισώσεις B(y) = 0.5y-1.5 και B(y) = -0.25y+2.25.
(β) Η ευθεία στο διάστημα [5,7] περιγράφεται από την εξίσωση B(y) = -0.3y+2.5.
2-21
Απο-ασαφοποίηση Κέντρου Βάρους:
yB( y )dy
yˆ
B( y )dy
Αυτή είναι η δημοφιλέστερη μέθοδος από-ασαφοποίησης, διότι συνήθως δίνει καλά αποτελέσματα.
Ωστόσο, είναι η πιο χρονοβόρα στον υπολογισμό. Για παράδειγμα, για το ασαφές σύνολο στο Σχήμα 2.12(α)
αυτή η τεχνική απο-ασαφοποίησης υπολογίζει
5 9
yB( y )dy
yˆ =
3 y(0.5 y - 1.5)dy + 5 y(0.25 y - 2.25)dy =
17
.
B( y )dy
3 3
Ο υπολογισμός του yˆ για το ασαφές σύνολο στο Σχήμα 2.12(β) αφήνεται ως άσκηση.
Οπτικο-ακουστικό υλικό (video), όπου επιδεικνύεται η σχεδίαση του ασαφούς συστήματος Mamdani
του προηγούμενου παραδείγματος πάνω στην πλατφόρμα MATLAB είναι διαθέσιμο στο σύνδεσμο:
Multimedia File. Συγκεκριμένα, στο Σχήμα 2.13 παρουσιάζεται ένα στιγμιότυπο του εισαγωγικού παράθυρου
σχεδιασμού της εργαλειοθήκης (toolbox) «fuzzy» του MATLAB.
Σχήμα 2.13 Η εργαλειοθήκη «fuzzy» του MATLAB είναι ένα εκπαιδευτικό εργαλείο για το σχεδιασμό ασαφών συστημάτων
συμπερασμού (ΑΣΣ) τύπου Mamdani ή τύπου Sugeno. Εδώ παρουσιάζεται το εισαγωγικό παράθυρο.
2-22
Οι προηγούμενες τεχνικές παρουσιάστηκαν σε συνεχή σύνολα αναφοράς. Εφαρμογές σε διακριτά
(βλ. πεπερασμένα) σύνολα αναφοράς γίνονται απευθείας με βάση τις ίδιες αρχές. Για παράδειγμα, η απο-
ασαφοποίηση μεγίστου ενός ασαφούς συνόλου
υπολογίζεται ως yˆM arg max B( yk ) . Δηλαδή, είναι εκείνος ο αριθμός yk του συνόλου αναφοράς , ο
k{1, ,K }
οποίος χαρακτηρίζεται από το μεγαλύτερο βαθμό συμμετοχής στο ασαφές σύνολο B. Αν υπάρχουν
περισσότεροι από ένας τέτοιοι αριθμοί, τότε επιλέγουμε κάποιον καλώς ορισμένο «μέσο (αριθμό)».
K1: EAN (η είσοδος1 είναι μικρή) ΚΑΙ (η είσοδος2 είναι κανονική) ΤΟΤΕ y1(x1,x2)=2x1+x2
K2: EAN (η είσοδος1 είναι μεγάλη) ΚΑΙ (η είσοδος2 είναι χαμηλή) ΤΟΤΕ y2(x1,x2)=3x1+x2-5
K3: EAN (η είσοδος1 είναι μεσαία) ΚΑΙ (η είσοδος2 είναι υψηλή) ΤΟΤΕ y3(x1,x2)=2x1+1.2x2-1
Για απλότητα θεωρήσαμε τα αίτια των κανόνων K1, K2 και K3 ίδια με τα αίτια των κανόνων K1,
K2 και K3, αντίστοιχα, του συστήματος Mamdani που μελετήσαμε παραπάνω. Έστω, ακόμα, ότι
παρουσιάζονται οι ίδιες είσοδοι x1=6 και x2=15. Τότε, ο βαθμός ενεργοποίησης του αιτίου του κάθε κανόνα
θα είναι ακριβώς όπως προηγουμένως, και για τους ίδιους λόγους. Συγκεκριμένα, ο βαθμός ενεργοποίησης
του αιτίου του κανόνα K1 είναι K1(x1,x2) = min{0,1} = 0, του αιτίου του κανόνα K2 είναι K2(x1,x2) =
min{0.4,0.5} = 0.5, και του αιτίου του κανόνα K3 είναι K3(x1,x2) = min{0.75,0.167} = 0.167. Ωστόσο, το
αποτέλεσμα κάθε κανόνα τώρα υπολογίζεται διαφορετικά, όπως περιγράφεται στη συνέχεια. Συγκεκριμένα,
το αριθμητικό αποτέλεσμα του κανόνα K1 υπολογίζεται με τη χρήση της γραμμικής συνάρτησης
y1(x1,x2)=2x1+x2 στο «αποτέλεσμα» του κανόνα K1. Έτσι προκύπτει y1(6,15) = 2*6+ 15 = 27. Το αριθμητικό
αποτέλεσμα του κανόνα K2 υπολογίζεται ως y2(6,15) = 3*6+ 15 – 5 = 28 και του κανόνα K3 υπολογίζεται
ως y3(6,15) = 2*6+ 1.2*15 – 1 = 29. Παρατηρήστε ότι σε συστήματα Sugeno δεν υπάρχει ασάφεια στο
αποτέλεσμα του κάθε κανόνα, αφού κάθε κανόνας υπολογίζει ένα συγκεκριμένο αριθμό. Ωστόσο, η ασάφεια
υπεισέρχεται από το γεγονός ότι κάθε κανόνας έχει υπολογίσει ένα διαφορετικό αριθμητικό αποτέλεσμα και,
επιπλέον, ο βαθμός ενεργοποίησης του κάθε κανόνα είναι διαφορετικός. Συνεπώς, υπάρχει και πάλι ανάγκη
απο-ασαφοποίησης με τη συνάθροιση, κατά κάποιο τρόπο, των μερικών αποτελεσμάτων όλων των κανόνων
της βάσης, ώστε να παραχθεί η ολική έξοδος του Ασαφούς Μοντέλου Sugeno, όπως παρουσιάζεται στη
συνέχεια.
K1( x1, x2 )y1( x1, x2 ) K2( x1, x2 )y2 ( x1, x2 ) K3( x1, x2 )y3 ( x1, x2 )
yˆ ( x1, x2 ) = =
K1( x1, x2 ) K2( x1, x2 ) K3( x1, x2 )
(0)( 27) (0.4)( 28) (0.167)( 29)
= 28.2945
0 0.4 0.167
2-23
2.5.6 Μοντέλο Κατηγοριοποιητή
Έστω ένας ασαφής κανόνας είτε τύπου Mamdani «RM: Α Β», είτε τύπου Sugeno «RS: Α y = f(x)». Εάν
αντικατασταθεί το αποτέλεσμα ενός από τους προαναφερθέντες κανόνες με το στοιχείο ενός πεπερασμένου
συνόλου L, τότε προκύπτει το μοντέλο ενός κατηγοριοποιητή. Δηλ. το πεδίο ορισμού RN της συνάρτησης f:
RNT (Σχήμα 2.6) διαμερίζεται σε κατηγορίες.
2.5.7 Επεκτάσεις
Σε διάφορα στάδια υλοποίησης του μηχανισμού του Σχήματος 2.6 μπορούν να χρησιμοποιηθούν
εναλλακτικές τεχνικές. Σημειώστε ότι στα παραπάνω παραδείγματα χρησιμοποιήθηκε η ασαφής συνεπαγωγή
IM(a,b) = ab. Ωστόσο, θα μπορούσε να χρησιμοποιηθεί κάποια άλλη ασαφής συνεπαγωγή. Επίσης, για τη
σύζευξη των κατηγορηματικών προτάσεων στο αίτιο ενός κανόνα χρησιμοποιήθηκε η τ-νόρμα TM(x,y) =
min{x,y}. Ωστόσο, θα μπορούσε να χρησιμοποιηθεί κάποια άλλη τ-νόρμα. Συνήθως, η καλύτερη συνάρτηση
επιλέγεται, κατά περίπτωση, μετά από δοκιμές σε υπολογιστικά πειράματα. Συχνά επιλέγεται η απλούστερη
συνάρτηση.
Όλα τα παραπάνω ασαφή μοντέλα μπορούν εύκολα να επεκταθούν συμπεριλαμβάνοντας
περισσότερες εισόδους Α1,,ΑΝ, καθώς και περισσότερους κανόνες Κ1,, ΚL.
Αυτό το κεφάλαιο παρουσίασε τις αρχές λειτουργίας και τη χρήση ενός ασαφούς μοντέλου τύπου
Mamdani/Sugeno στο πλαίσιο της ΥΝ. Οι ασαφείς κανόνες εδώ είναι σταθεροί και αμετάβλητοι. Στο
κεφάλαιο 4 παρουσιάζονται τεχνικές μεταβολής των κανόνων ενός ασαφούς μοντέλου έτσι ώστε να
βελτιστοποιείται η προσέγγιση της συνάρτησης f: NT από δείγματά της στο Καρτεσιανό γινόμενο NT.
2-24
Οι ΑΑ2 συγκεντρώνουν σήμερα, με μεγάλη διαφορά συγκριτικά με εναλλακτικές τεχνολογίες, το
ενδιαφέρον της παγκόσμιας ερευνητικής κοινότητας που ασχολείται με ασαφή συστήματα. Από θεωρητική
άποψη έχει αναπτυχθεί επιχειρηματολογία ότι ένας ΑΑ2 μπορεί να αναπαραστήσει μια λέξη της
(ομιλούμενης) γλώσσας. Συνεπώς, υπολογισμός με λέξεις (computing with words) μπορεί να επιδιωχθεί
μέσω υπολογισμών με ΑΑ2. Από πρακτική (πειραματική) άποψη, η καλή επίδοση των ΑΑ2 αποδίδεται στο
γεγονός ότι ένας ΑΑ2 αναπαριστά επιπλέον πληροφορία στατιστικής φύσεως σχετικά με την κατανομή των
μετρήσεων μεταξύ της πρωτεύουσας και της δευτερεύουσας συνάρτησης συμμετοχής. Ήδη έχουν προταθεί
(και συνεχίζουν να προτείνονται) μεθοδολογίες που επεκτείνουν σε ΑΑ2 τις ασαφείς τεχνικές που
παρουσιάστηκαν σ’ αυτό το κεφάλαιο.
F
1 1
F(x0) t
t(x0)
f
f(x0)
(α) (β)
Σχήμα 2.14 (α) Ένας ΑΑ2 ορίζεται ανάμεσα στις δύο πρωτεύουσες συναρτήσεις συμμετοχής f (κάτω χαρακτηριστική
συνάρτηση) και F (άνω χαρακτηριστική συνάρτηση). Εδώ η πρωτεύουσα συνάρτηση συμμετοχής t ορίζει τις κορυφές των
δευτερευουσών (τριγωνικών) συναρτήσεων συμμετοχής. (β) Η τριγωνική, δευτερεύουσα συνάρτηση συμμετοχής στη θέση x
= x 0.
2-25
Ερωτήσεις Κατανόησης και Ασκήσεις
2.1) Δοθέντων των πεπερασμένων ασαφών συνόλων Α = {(1,0.1), (2,0.4), (3,0.7), (4,0.9), (*,1)}, Β =
{(α,0.4), (1,1), (2,0.5), (3,0.9), (4,0.2) } και Γ = {(α,1), (1,0.3), (2,0.1), (4,0.9), (*,0.5)} ορισμένα
στο βασικό σύνολο = {α, 1, 2, 3, 4, *} υπολογίστε τα ασαφή σύνολα ΑΒ και Α(ΒΓ) και
Α(ΒΓ).
2.2) Έστω οι παρακάτω δύο ασαφείς αριθμοί.
Α: «ασαφές 2» = {0.1/0, 0.4/1, 1/2, 0.3/3, 0.1/4}
Β: «ασαφές 4» = {0.1/2, 0.2/3, 1/4, 0.5/5, 0.1/6}
Να χρησιμοποιηθεί η Αρχή της Επέκτασης για να υπολογιστεί η απόλυτη τιμή της διαφοράς |Α – Β|
= |«ασαφές 2» - «ασαφές 4»|.
2.3) Έστω η ασαφής σχέση A(x1,x2,x3)= {((1,β,c),0.7), ((1,γ,c),0.4), ((2,α,d),0.2), ((2,α,e),1), ((2,β,e),0.3),
((3,β,c),0.4), ((3,γ,d),0.8), ((3,γ,e),1)} και ο υποχώρος H= X1 του X=X1X2X3=
{1,2,3}{α,β,γ}{c,d,e}. Να ευρεθεί η προβολή της σχέσης A(x1,x2,x3) στον υποχώρο H=X1.
2.4) Χρησιμοποιώντας την τεχνική απο-ασαφοποίησης «κέντρου βάρους» να υπολογίσετε τον αριθμό
yˆ στον οποίον απο-ασαφοποιείται το ασαφές σύνολο B(y) του Σχήματος 2.12.
2.5) Έστω ένα ασαφές μοντέλο Sugeno με δύο εισόδους (τις input1, input2) και μια έξοδο (την output1)
με τους ακόλουθους τρεις κανόνες:
S1: EAN (η input1 είναι small) ΚΑΙ (η input2 είναι low) ΤΟΤΕ y1(x1,x2)=x1+x2+4,
S2: EAN (η input1 είναι medium) ΚΑΙ (η input2 είναι normal) ΤΟΤΕ y2(x1,x2)=2x1+x2,
S3: EAN (η input1 είναι large) ΚΑΙ (η input2 είναι high) ΤΟΤΕ y3(x1,x2)=3x1+x2-3,
όπου όλα τα ασαφή σύνολα δείχνονται στο Σχήμα 2.7. Έστω οι είσοδοι x1=5 και x2=16. Να
υπολογιστεί η ολική έξοδος yˆ ( x1, x2 ) .
2.6) Έστω δύο ασαφή σύνολα Α= {(a,1) (b,1), (c,0.7), (d,0.5), (e,0.2)}, Β= {(1,0.1), (2,0.3), (3,0.6),
(4,0.8), (5,0.9), (6,1)}, ο κανόνας Κ: ΑΒ, και το αίτιο Α= {(a,0.6) (b,.8), (c,1), (d,0.7), (e,0.4)}.
Χρησιμοποιώντας τον συνθετικό συμπερασματικό κανόνα του Zadeh και τη συνεπαγωγή κατά
Lukasiewicz υπολογίστε το αποτέλεσμα Β που αντιστοιχεί στο αίτιο Α.
2-26
Βιβλιογραφία
Belohlavek, R. (2007). Do exact shapes of fuzzy sets matter?. International Journal of General Systems, 36(5),
527-555.
Goguen, J.A. (1967). L-fuzzy sets. Journal of Mathematical Analysis and Applications, 18(1), 145-174.
Guillaume, S. (2001). Designing fuzzy inference systems from data: an interpretability-oriented review. IEEE
Trans. on Fuzzy Systems, 9(3), 426-443.
Hatzimichailidis, A.G., Papakostas, G.A. & Kaburlasos, V.G. (2012). A study on fuzzy D-implications. In
Proceedings of the 10th International Conference on Uncertainty Modeling in Knowledge Engineering
and Decision Making (FLINS 2012), Istanbul, Turkey, 26-29 August.
Χατζημιχαηλίδης, Α. (2014). Στοιχεία Διακριτών Μαθηματικών. Θεσσαλονίκη, Εκδόσεις Τζιόλα.
Kaburlasos, V.G. (2006). Towards a Unified Modeling and Knowledge-Representation Based on Lattice
Theory. Heidelberg, Germany: Springer, series: Studies in Computational Intelligence, 27.
Kaburlasos, V.G. & Kehagias, A. (2007). Novel fuzzy inference system (FIS) analysis and design based on
lattice theory. IEEE Transactions on Fuzzy Systems, 15(2), 243-260.
Kaburlasos, V.G. & Kehagias, A. (2014). Fuzzy inference system (FIS) extensions based on lattice theory.
IEEE Trans. on Fuzzy Systems, 22(3), 531-546.
Karnik, N.N., Mendel, J.M. & Liang, Q. (1999). Type-2 fuzzy logic systems. IEEE Transactions on Fuzzy
Systems, 7(6), 643-658.
Klir, G.J. & Yuan, B. (1995). Fuzzy Sets and Fuzzy Logic: Theory and Applications. Upper Saddle River, NJ:
Prentice Hall.
Kóczy, L.T. & Hirota, K. (1997). Size reduction by interpolation in fuzzy rule bases. IEEE Transactions on
Systems, Man, Cybernetics – B, 27(1), 14-25.
Mamdani, E.H. & Assilian, S. (1975). An experiment in linguistic synthesis with a fuzzy logic controller. Intl.
Journal of Man-Machine Studies, 7(1), 1-13.
Margaris, A. (1990). First Order Mathematical Logic. Mineola, NY: Dover Publications.
Mendel, J.M. (2014). General type-2 fuzzy logic systems made simple: a tutorial. IEEE Trans. on Fuzzy
Systems, 22(5), 1162-1182.
Mendel, J.M. & John, R.I. (2002). Type-2 fuzzy sets made simple. IEEE Trans. on Fuzzy Systems, 10(2), 117-
127.
Nguyen, H.T. & Walker, E.A. (2005). A First Course in Fuzzy Logic. 3rd ed. Boca Raton: Chapman & Hall /CRC.
Runkler, T.A. (1997). Selection of appropriate defuzzification methods using application specific properties.
IEEE Trans. on Fuzzy Systems, 5(1), 72-79.
Sugeno, M. & Kang, G.T. (1988). Structure identification of fuzzy model. Fuzzy Sets and Systems, 28(1), 15-
33.
Takagi, T. & Sugeno, M. (1985). Fuzzy identification of systems and its applications to modeling and control.
IEEE Trans. on Systems, Man and Cybernetics, 15(1), 116-132.
Θεοδώρου, Γ.Α. (2010). Εισαγωγή στην Ασαφή Λογική (Fuzzy Logic). Θεσσαλονίκη, Εκδόσεις Τζιόλα.
Zadeh, L.A. (1965). Fuzzy sets. Information and Control, 8, 338-353.
Zadeh, L.A. (1975). The concept of a linguistic variable and its application to approximate reasoning – I.
Information Sciences, 8(3), 199-249.
Zadeh, L.A. (1999). From computing with numbers to computing with words. From manipulation of
measurements to manipulation of perceptions. IEEE Trans. on Circuits and Systems - I, 46(1), 105-119.
2-27
Κεφάλαιο 3: Εξελικτικός Υπολογισμός
Ένα σημαντικό ζητούμενο σε πρακτικές εφαρμογές ΥΝ αποτελεί κάποιου είδους βελτιστοποίηση
(optimization), η οποία τυπικά μεθοδεύεται μέσω της ελαχιστοποίησης μιας καλώς ορισμένης συνάρτησης
κόστους, που ονομάζεται αντικειμενική συνάρτηση, ενδεχομένως με ταυτόχρονη ικανοποίηση ενός συνόλου
(αλγεβρικών) περιορισμών (constraints). Η ύπαρξη κλασικών αλγόριθμων βελτιστοποίησης, όπως, για
παράδειγμα, η μέθοδος των ελαχίστων τετραγώνων (least-squares method) του Gauss, δεν αρκεί για την
αντιμετώπιση σύγχρονων προβλημάτων βελτιστοποίησης εξαιτίας της πολύμορφης πολυπλοκότητας των
σύγχρονων προβλημάτων.
Μια δημοφιλής κατηγορία αλγορίθμων βελτιστοποίησης λειτουργεί με εξομοίωση (emulation)
νόμων και αρχών που διέπουν φυσικά φαινόμενα και ζωντανούς οργανισμούς αντίστοιχα. Γι' αυτό το λόγο οι
προαναφερθέντες αλγόριθμοι βελτιστοποίησης ονομάζονται εμπνευσμένοι από τη φύση (nature inspired).
Το παρόν κεφάλαιο εστιάζει σε ένα υποσύνολο αλγόριθμων βελτιστοποίησης εμπνευσμένων από την φύση,
οι οποίοι είναι γνωστοί ως αλγόριθμοι εξελικτικού υπολογισμού. Μάλιστα, έμφαση δίνεται εδώ σε
γενετικούς αλγορίθμους (genetic algorithms).
όπου x = x1 , x 2 , x 3 ,..., x n είναι το διάνυσμα των παραμέτρων βελτιστοποίησης πλήθους n , ενώ gi x και
αi , i = 1,2,3,...,m είναι (αλγεβρικές) συναρτήσεις περιορισμών και σταθερές, αντίστοιχα. Αυτά τα
προβλήματα διακρίνονται, πρώτον, σε προβλήματα βελτιστοποίησης χωρίς περιορισμούς (unconstrained)
και, δεύτερον, σε προβλήματα βελτιστοποίησης με περιορισμούς (constrained), ανάλογα με το εάν οι
μεταβλητές βελτιστοποίησης της αντικειμενικής συνάρτησης οφείλουν να ικανοποιούν κάποιους
(αλγεβρικούς) περιορισμούς ή όχι. Η δεύτερη κατηγορία μπορεί να περιλαμβάνει περιορισμούς ισοτήτων και
περιορισμούς ανισοτήτων. Με βάση τη γενική μορφή της Εξ.(3.1) μπορούμε επίσης να διακρίνουμε τις
περιπτώσεις της γραμμικής (linear) βελτιστοποίησης και της μη-γραμμικής (non-linear) βελτιστοποίησης,
ανάλογα με το αν οι συναρτήσεις f x και gi x είναι γραμμικές ή μη-γραμμικές αντίστοιχα.
Η διαδικασία βελτιστοποίησης αναζητεί βέλτιστες τιμές των μεταβλητών x μέσα στο χώρο
(αναζήτησης) των λύσεων (solution (search) space) που ελαχιστοποιούν την αντικειμενική συνάρτηση και
ταυτόχρονα ικανοποιούν τους περιορισμούς. Σημειώστε ότι κάθε πρόβλημα βελτιστοποίησης μπορεί να
αντιμετωπιστεί ως πρόβλημα ελαχιστοποίησης, αφού ένα πρόβλημα μεγιστοποίησης μετασχηματίζεται στη
μορφή της Εξ.(3.1) είτε αντιστρέφοντας ( 1 / f x ), είτε αλλάζοντας το πρόσημο ( - f x ) της αντικειμενικής
συνάρτησης.
Ιδιαίτερο ενδιαφέρον παρουσιάζουν προβλήματα βελτιστοποίησης στα οποία οι συναρτήσεις f x
και gi x είναι κυρτές (convex), δηλαδή ικανοποιούν την ανισότητα (Bertsekas κ.ά., 2003· Deb, 2001):
f ( x1 1 x2 ) f x1 1 f x2 (3.2)
για κάθε 0 1 . Ένα παράδειγμα κυρτής συνάρτησης απεικονίζεται στο Σχήμα 3.1. Αντίθετα, οι
συναρτήσεις που δεν ικανοποιούν την Εξ.(3.2) ονομάζονται μη-κυρτές.
Η κυρτότητα αποτελεί σημαντική ιδιότητα μιας αντικειμενικής συνάρτησης προς βελτιστοποίηση
διότι το ελάχιστο μίας κυρτής συνάρτησης στο πεδίο ορισμού της είναι ολικό ελάχιστο (global minimum)
και όχι μόνον τοπικό ελάχιστο (local minimum). Αυτό σημαίνει ότι η λύση του προβλήματος είναι η
βέλτιστη λύση. Ωστόσο, οι αντικειμενικές συναρτήσεις συχνά δεν είναι κυρτές.
Ο ορισμός του προβλήματος βελτιστοποίησης της Εξ.(3.1) μπορεί να επεκταθεί ώστε να
συμπεριλάβει περισσότερες από μία αντικειμενικές συναρτήσεις. Σε αυτή την περίπτωση μιλάμε για
βελτιστοποίηση πολλαπλών στόχων (multi-objective optimization) (Deb, 2001), η οποία συνήθως είναι
3-1
σημαντικά πολυπλοκότερη ειδικά όταν οι πολλαπλές αντικειμενικές συναρτήσεις βρίσκονται σε αντίφαση
μεταξύ τους, δηλ. όταν η βελτίωση μιας αντικειμενικής συνάρτησης συνεπάγεται επιδείνωση μιας άλλης.
Επίσης, ιδιαίτερο ενδιαφέρον παρουσιάζει η βελτιστοποίηση πολυτροπικών (multi-modal) συναρτήσεων, οι
οποίες χαρακτηρίζονται από περισσότερα του ενός (ίσων μεταξύ τους) ολικών ακρότατων σε διαφορετικά
σημεία του χώρου των λύσεων. Η εύρεση όλων των ακρότατων είναι δύσκολο πρόβλημα για κλασικούς
αλγορίθμους βελτιστοποίησης.
Εν κατακλείδι, σημειώστε ότι η βελτιστοποίηση μιας αντικειμενικής συνάρτησης αποτελεί σημαντικό
πεδίο έρευνας με εφαρμογή σε πολλά επιστημονικά πεδία. Για το λόγο αυτό υπάρχει μόνιμο ενδιαφέρον για
αποτελεσματικούς αλγορίθμους βελτιστοποίησης που υπολογίζουν γρήγορα το ολικό βέλτιστο μίας
πολύπλοκης αντικειμενικής συνάρτησης.
όπου k = 0,1,... είναι ο αριθμός επανάληψης του αλγορίθμου, xk , xk+1 είναι οι τιμές της μεταβλητής της
αντικειμενικής συνάρτησης f(.) στην επανάληψη k και k + 1 αντίστοιχα. Τέλος, η παράμετρος η καλείται
μέγεθος βήματος (step size), ενώ ο όρος Δxk ονομάζεται κατεύθυνση αναζήτησης (search direction).
Χαρακτηριστικό των επαναληπτικών αλγόριθμων κατάβασης είναι ότι σε κάθε επανάληψη ισχύει
f xk+1 < f xk , δηλ. κάθε επανάληψη μειώνει την τιμή της αντικειμενικής συνάρτησης.
Όταν η κατεύθυνση αναζήτησης περιγράφεται από την παράγωγο της αντικειμενικής συνάρτησης,
δηλ. Δxk = -f xk , τότε ο αλγόριθμος ονομάζεται αλγόριθμος κατάβασης βαθμίδας (gradient descent).
Άλλες παραλλαγές του βασικού αλγορίθμου Εξ.(3.3) αποτελούν η μέθοδος του Νεύτωνα (Newton’s
method) (Coleman & Li, 1994) και οι αλγόριθμοι συζυγούς κατάβασης (conjugate descent) (Møller, 1993).
Οι προαναφερθέντες κλασικοί αλγόριθμοι βελτιστοποίησης έχουν χρησιμοποιηθεί εκτεταμένα για την
εκπαίδευση ΤΝΔ, όπως περιγράφτηκε στο Κεφάλαιο 1. Συγκεκριμένα, η κλασική εκπαίδευση ενός ΤΝΔ
αντιμετωπίζεται ως ένα πρόβλημα βελτιστοποίησης, όπου αναζητούνται τα βέλτιστα βάρη του ΤΝΔ, που
ελαχιστοποιούν την αντικειμενική συνάρτηση του σφάλματος εξόδων του ΤΝΔ χρησιμοποιώντας έναν
επαναληπτικό αλγόριθμο κατάβασης.
3-2
3.2.1 Παραδοχές Κλασικών Αλγόριθμων Βελτιστοποίησης
Οι κλασικοί αλγόριθμοι βελτιστοποίησης χρησιμοποιούνται ευρύτατα στην βελτιστοποίηση συστημάτων και
διαδικασιών. Οι αλγόριθμοι αυτοί τυπικά προϋποθέτουν κάποιες παραδοχές, οι οποίες απαριθμούνται στη
συνέχεια.
1. Μια βασική παραδοχή είναι η ύπαρξη αντικειμενικής συνάρτησης. Ωστόσο, δεν υπάρχει πάντοτε μια
αντικειμενική συνάρτηση ειδικά σε περιπτώσεις πολύπλοκων προβλημάτων.
2. Δοθείσης της αντικειμενικής συνάρτησης, μια δημοφιλής παραδοχή για την ύπαρξη (μοναδικού)
ολικού ελάχιστου είναι η παραδοχή της κυρτότητας της αντικειμενικής συνάρτησης, όπως εξηγήθηκε
στην προηγούμενη ενότητα. Ωστόσο, μια αντικειμενική συνάρτηση συχνά δεν είναι κυρτή. Επιπλέον,
στους αλγορίθμους στους οποίους γίνεται χρήση της (πρώτης) παραγώγου της αντικειμενικής
συνάρτησης είναι πιθανό το ενδεχόμενο παγίδευσης σε τοπικό ελάχιστο, όπου ο αλγόριθμος
βελτιστοποίησης τερματίζει χωρίς να εγγυάται την εύρεση του ολικού ελάχιστου. Συνεπώς, ένας
κλασικός αλγόριθμος βελτιστοποίησης μπορεί να συγκλίνει σε υποβέλτιστες λύσεις.
3. Μια επιπλέον παραδοχή των κλασικών αλγορίθμων, οι οποίοι κάνουν χρήση της πρώτης παραγώγου
της αντικειμενικής συνάρτησης, είναι και η ύπαρξη της δεύτερης παραγώγου. Ωστόσο, σε
περιπτώσεις πολύπλοκων αντικειμενικών συναρτήσεων ο υπολογισμός των δύο παραγώγων δεν είναι
δεδομένος.
Η προϋπόθεση των προαναφερθέντων παραδοχών αποτελεί το λόγο για τον οποίο οι κλασικοί
αλγόριθμοι βελτιστοποίησης συχνά αποτυγχάνουν σε πολύπλοκα προβλήματα. Η ανάγκη ύπαρξης
αποτελεσματικών αλγόριθμων, που να μπορούν να εφαρμοστούν σε διάφορα προβλήματα βελτιστοποίησης,
αποτελεί ενεργό πεδίο επιστημονικής έρευνας.
3-3
ήταν γενετικό σχέδιο (genetic plan), ο όρος γενετικός αλγόριθμος υιοθετήθηκε αργότερα για να
υπογραμμίσει τον κεντρικό ρόλο του υπολογισμού στον καθορισμό και την υλοποίηση των σχεδίων.
3-4
Σχήμα 3.2 Η βασική λειτουργική δομή ενός τυπικού ΓΑ.
Κατά τη διάρκεια της εκτέλεσης του ΓΑ θα πρέπει να επιλέγονται χρωμοσώματα (γονείς) προς
διασταύρωση και παραγωγή γόνων. Επιπλέον, η εφαρμογή του τελεστή της μετάλλαξης (mutation)
προσδίδει ποικιλομορφία με την τυχαία εμφάνιση κάποιου χρωμοσώματος το οποίο θα ήταν αδύνατο να
εμφανιστεί μέσω της διασταύρωσης. Σε περίπτωση που ο αριθμός των γόνων είναι μικρότερος ή μεγαλύτερος
από το μέγεθος του αρχικού πληθυσμού, μπορεί να γίνει επανατοποθέτηση γονέων από τον αρχικό στον
παραγόμενο πληθυσμό, ώστε το συνολικό μέγεθος του πληθυσμού να διατηρηθεί σταθερό.
Στις επόμενες παραγράφους γίνεται περιγραφή των επιμέρους λειτουργιών ενός ΓΑ με βάση τη σειρά
εφαρμογής τους, όπως φαίνεται στο Σχήμα 3.2.
3-5
Δυαδική κωδικοποίηση (binary encoding). Πρόκειται για το δημοφιλέστερο τρόπο κωδικοποίησης, με
βάση τον οποίο το χρωμόσωμα αποτελείται από μια ακολουθία δυφίων (bits) 0 ή 1. Ο συνολικός αριθμός
των δυφίων με τα οποία αναπαρίσταται κάθε λύση καθορίζεται από το πλήθος των αγνώστων μεταβλητών και
από την ακρίβεια αναπαράστασης κάθε μεταβλητής. Για παράδειγμα, αν το μήκος αναπαράστασης της i
μεταβλητής είναι li, i= 1,…,M, τότε το συνολικό μήκος (L) του κάθε χρωμοσώματος, το οποίο αποτελείται
από Μ μεταβλητές, είναι:
M
L = li (3.4)
i=1
Ο Πίνακας 3.1 δείχνει μία δυαδική κωδικοποίηση δύο χρωμοσωμάτων αποτελούμενων από τρεις
μεταβλητές Α, Β και Γ των 8 δυφίων εκάστη με συνολικό μήκος 24 δυφία.
Πίνακας 3.1 Δυαδική κωδικοποίηση δυο χρωμοσωμάτων αποτελούμενων από τρεις μεταβλητές.
Σε περίπτωση που οι άγνωστες μεταβλητές λαμβάνουν πραγματικές τιμές, τότε απαιτείται μια
γραμμική απεικόνιση των πραγματικών τιμών σε δυαδικές και αντίστροφα. Για παράδειγμα, μία τέτοια
απεικόνιση (Coley, 1999) είναι η εξής:
rmax - rmin
r= z + rmin (3.5)
2l - 1
όπου [rmin , rmax ] είναι το πεδίο ορισμού της μεταβλητής, z και l η δεκαδική αναπαράσταση και το μήκος
(βλ. αριθμός δυφίων) της δυαδικής μεταβλητής, αντίστοιχα.
Κωδικοποίηση δένδρου (tree encoding). Το χρωμόσωμα είναι ένα δένδρο κατάλληλα κωδικοποιημένων
αντικειμένων, όπου τα τελευταία (αντικείμενα) περιλαμβάνουν συναρτήσεις ή/και εντολές σε γλώσσα
προγραμματισμού. Η κωδικοποίηση δέντρων είναι ιδιαίτερα χρήσιμη για εξελισσόμενα προγράμματα
(evolving programs), κ.ά.
Κωδικοποίηση τιμών (value encoding). Χρησιμοποιείται μία ακολουθία τιμών άμεσα συσχετιζόμενων με
το προς βελτιστοποίηση πρόβλημα, όπως πραγματικοί αριθμοί, χαρακτήρες, κ.ά. Η κωδικοποίηση τιμών
χρησιμοποιείται σε προβλήματα όπου η λύση περιλαμβάνει μεγάλο αριθμό μεταβλητών διότι, λόγω της
αξιοποίησης του εύρους των λύσεων, μπορεί να καλύπτει μεγαλύτερες περιοχές του πεδίου αναζήτησης.
Αφού αποφασιστεί ο τρόπος κωδικοποίησης, επιλέγεται τυχαία ο αρχικός πληθυσμός των υποψήφιων
λύσεων, π.χ. με μια γεννήτρια τυχαίων αριθμών. Ιδιαίτερη μέριμνα λαμβάνεται, ώστε ο αρχικός πληθυσμός να
είναι όσο το δυνατόν ποικιλόμορφος, δηλ. τα χρωμοσώματα να είναι όσο το δυνατόν ομοιόμορφα
κατανεμημένα στο χώρο αναζήτησης των λύσεων, ώστε να μην περιορίζεται η αναζήτηση αποκλειστικά σε
μία μόνον περιοχή του χώρου αναζήτησης.
3-6
συγκεκριμένο πρόβλημα. Ανάλογα με την τιμή της συνάρτησης καταλληλότητας τα χρωμοσώματα του
πληθυσμού ταξινομούνται από το «πλέον κατάλληλο» προς το «λιγότερο κατάλληλο».
Σε κάποια προβλήματα οι τιμές της συνάρτησης καταλληλότητας των χρωμοσωμάτων κυμαίνονται
σε πολύ μεγάλο εύρος. Η υπολογιστική εμπειρία έχει δείξει ότι όταν η τιμή της συνάρτησης καταλληλότητας
ενός χρωμοσώματος είναι σε μεγάλη απόσταση από τις αντίστοιχες τιμές άλλων χρωμοσωμάτων, τότε το
προαναφερθέν χρωμόσωμα συχνά λειτουργεί ως υπεράτομο μέσα στον πληθυσμό και οδηγεί σε πρόωρη
σύγκλιση. Το πρόβλημα αυτό αντιμετωπίζεται με την τεχνική ανάθεσης ποιότητας με βάση την τάξη, όπου,
μετά την ταξινόμησή τους, ο αύξων αριθμός της θέσης κάθε χρωμοσώματος στην ταξινόμηση αποτελεί και το
μέτρο της ποιότητάς του. Έτσι αποφεύγεται η δημιουργία χρωμοσωμάτων που λειτουργούν ως υπεράτομα.
3.4.2.3 Επιλογή
Υπολογιστικός πειραματισμός έδειξε ότι η επιλογή των γονέων δεν πρέπει να βασίζεται αποκλειστικά στα
καλύτερα χρωμοσώματα κάθε γενεάς, διότι τότε μπορεί να αποκλείσει τη βέλτιστη λύση. Μια καλή πρακτική
είναι να επιζούν λιγότερο καλά χρωμοσώματα, ώστε να διασφαλίζεται η μετάδοση της γενετικής τους
πληροφορίας. Πάντως κατά κανόνα μια μέθοδος επιλογής επιδιώκει περισσότερους απογόνους για τα
καλύτερα χρωμοσώματα. Έχουν προταθεί και αναπτυχθεί πολλές μέθοδοι επιλογής που χωρίζονται σε
στοχαστικές (stochastic) και αιτιοκρατικές (deterministic). Οι πιο δημοφιλείς παρουσιάζονται στη
συνέχεια (Coley, 1999).
Επιλογή του καλύτερου συζύγου (top mate selection). Η απλούστερη από τις μεθόδους, εξομοιώνει το
φυσικό νόμο επιλογής του καταλληλότερου ατόμου. Σύμφωνα με αυτήν την μέθοδο, ο πληθυσμός
ταξινομείται σύμφωνα με τις τιμές καταλληλότητας των χρωμοσωμάτων του, από τα πιο κατάλληλα στα
λιγότερο κατάλληλα. Στη συνέχεια, ένα ποσοστό (συνήθως το 50%) του πληθυσμού με τα λιγότερο
κατάλληλα χρωμοσώματα αγνοείται, ενώ τα υπόλοιπα (βλ. πιο κατάλληλα) χρωμοσώματα χρησιμοποιούνται
για να παραχθεί η επόμενη γενεά. Η μέθοδος αυτή κατατάσσεται στις αιτιοκρατικές μεθόδους. Το
πλεονέκτημα αυτής της μεθόδου είναι η απλότητά της, αφού το μόνο που απαιτείται είναι η επιλογή των
καλύτερων χρωμοσωμάτων με βάση ένα προκαθορισμένο ποσοστό και στη συνέχεια τυχαίο ζευγάρωμα. Το
μειονέκτημα αυτής της μεθόδου έγκειται στο ότι η γενετική πληροφορία κάποιων αδύναμων χρωμοσωμάτων
χάνεται και μπορεί να επανεμφανιστεί μόνον τυχαία μέσω μετάλλαξης. Η μέθοδος αυτή συχνά οδηγεί στο μη-
επιθυμητό φαινόμενο της πρόωρης σύγκλισης, δηλαδή την απώλεια χαρακτηριστικών σε πρώιμο στάδιο της
εξέλιξης, με αποτέλεσμα τον εγκλωβισμό σε κάποιο τοπικό ακρότατο.
Επιλογή ρουλέτας (roulette wheel selection). Η μέθοδος αυτή κατατάσσεται στις στοχαστικές μεθόδους. Οι
γονείς επιλέγονται σύμφωνα με την καταλληλότητά τους. Συγκεκριμένα, όσο καλύτερα είναι τα
χρωμοσώματα, τόσο περισσότερες πιθανότητες έχουν να επιλεγούν, όπως εξηγείται στη συνέχεια. Έστω ένας
τροχός ρουλέτας, δηλ. ένας κύκλος όπου κάθε χρωμόσωμα του πληθυσμού είναι τοποθετημένο σε έναν τομέα
του κύκλου, έτσι ώστε το εμβαδόν του κάθε τομέα να είναι ανάλογο με την τιμή της συνάρτησης
καταλληλότητας για το αντίστοιχο χρωμόσωμα. Για παράδειγμα, στο Σχήμα 3.3 δείχνεται ένας πληθυσμός με
πέντε χρωμοσώματα, όπου το χρωμόσωμα Α (σκούρο πράσινο που αντιστοιχεί στο 30%) είναι το πιο
κατάλληλο από όλα τα υπόλοιπα στον τροχό. Η επιλογή χρωμοσώματος πραγματοποιείται με την τυχαία
επιλογή ενός σημείου εντός του κύκλου. Επειδή αυτή η μέθοδος επιλογής είναι στοχαστική, ενδέχεται να
επιλεγούν για αναπαραγωγή γονείς με κακή τιμή της συνάρτησης καταλληλότητας.
Επιλογή με διαγωνισμό (tournament selection). Aνήκει στις στοχαστικές μεθόδους. Με βάση τη μέθοδο
αυτή ένας πληθυσμός Ν χρωμοσωμάτων επιλέγεται τυχαία από τον αρχικό πληθυσμό και από αυτόν
επιλέγεται το χρωμόσωμα με τη μεγαλύτερη τιμή καταλληλότητας. Η διαδικασία συνεχίζεται μέχρι την
επιλογή ενός προκαθορισμένου αριθμού γονέων που θα συμμετάσχουν στην αναπαραγωγή.
Τοπική επιλογή (local selection). Η τοπική επιλογή ανήκει στις αιτιοκρατικές μεθόδους. Στηρίζεται στην
ύπαρξη μιας συνάρτησης απόστασης μεταξύ των χρωμοσωμάτων. Τελικά, για κάθε χρωμόσωμα ορίζεται μια
γειτονιά εντός της οποίας αποκλειστικά επιλέγονται άτομα για διασταύρωση σύμφωνα με ένα
προκαθορισμένο κριτήριο.
3-7
διαδοχικά ευθύγραμμα τμήματα πάνω σε μία ευθεία γραμμή έτσι ώστε το μήκος κάθε τμήματος να είναι
ανάλογο της καταλληλότητας του αντίστοιχου χρωμοσώματος. Σημειώστε ότι αυτή η μέθοδος δε
χρησιμοποιεί αυτές καθαυτές τις τιμές της αντικειμενικής συνάρτησης του κάθε χρωμοσώματος, αλλά τις
αντίστοιχες κανονικοποιημένες τιμές καταλληλότητας. Συγκεκριμένα, η κάθε τιμή προστίθεται στην
προηγούμενη μέχρι το ολικό άθροισμα να είναι ίσο με ένα. Για κάθε τμήμα καταχωρίζουμε τον αύξοντα
αριθμό του ως δείκτη. Στη συνέχεια επιλέγονται Ν χρωμοσώματα όπως περιγράφεται στη συνέχεια. Πρώτον,
επιλέγεται τυχαία ένα σημείο στο διάστημα [0,1/Ν] και δεύτερον, επιλέγονται Ν διαδοχικά σημεία το καθένα
σε απόσταση 1/Ν από το προηγούμενο και καταχωρίζονται οι (Ν) δείκτες των τμημάτων εντός των οποίων
κείνται τα Ν επιλεχθέντα διαδοχικά σημεία. Για παράδειγμα, αν θέλουμε να επιλέξουμε 4
χρωμοσώματα/γονείς, η απόσταση μεταξύ των δεικτών θα είναι 1/4=0.25. Τα χρωμοσώματα τα οποία
επιλέγονται συμμετέχουν στη διαδικασία της αναπαραγωγής μέσω της εφαρμογής τελεστών, όπως η
διασταύρωση, η μετάλλαξη καθώς και ο ελιτισμός, οι οποίοι παρουσιάζονται στην συνέχεια.
3.4.2.4 Διασταύρωση
Μετά την επιλογή των γονέων προς αναπαραγωγή νέων χρωμοσωμάτων εφαρμόζεται ο τελεστής της
διασταύρωσης. Σκοπός της διασταύρωσης είναι η ανάμειξη γενετικών χαρακτηριστικών (βλ. γονιδίων) των
γονέων, ώστε να δημιουργηθεί μία νέα γενεά χρωμοσωμάτων με το συνδυασμό χαρακτηριστικών των
γονέων. Σημειώστε ότι η διασταύρωση δεν εφαρμόζεται σε όλα ζεύγη των επιλεγμένων για αναπαραγωγή
ατόμων, αλλά γίνεται μια τυχαία επιλογή με πιθανότητα διασταύρωσης Pc. Αν η διασταύρωση δεν
εφαρμοστεί, τότε οι γόνοι παράγονται απλώς με επανάληψη των γονέων, δηλ. οι γονείς αντιγράφονται στην
επόμενη γενεά. Υπάρχουν διάφορες μέθοδοι διασταύρωσης. Κριτήριο για την επιλογή της μεθόδου που θα
χρησιμοποιηθεί αποτελεί τόσο το είδος του προβλήματος, όσο και το είδος της εφαρμοζόμενης
κωδικοποίησης. Μερικές δημοφιλείς μέθοδοι διασταύρωσης περιγράφονται στη συνέχεια.
Διασταύρωση πολλαπλών σημείων (multi-point crossover). Αρχικά επιλέγεται ένας αριθμός σημείων
διασταύρωσης Ν ( 1 N αριθμός χρωμοσωμάτων ) και στη συνέχεια ο κάθε γονέας τεμαχίζεται σε Ν
σημεία, όπως φαίνεται στον Πίνακα 3.2. Τελικώς, ανταλλάσσονται αμοιβαία τμήματα των χρωμοσωμάτων
των γονέων, τα οποία προέκυψαν από τη διαίρεση των χρωμοσωμάτων τους στα σημεία διασταύρωσης. Η
ιδέα πίσω από αυτήν αλλά και πίσω από άλλες μορφές διασταύρωσης είναι ότι τα τμήματα ενός
χρωμοσώματος που συμβάλλουν περισσότερο στην απόδοσή του ενδέχεται να μην είναι γειτονικά. Για τον
προαναφερθέντα λόγο, ανταλλάσσονται τμήματα των χρωμοσωμάτων με την προσδοκία βελτίωσης της
απόδοσης ενός χρωμοσώματος. Υπολογιστικά πειράματα συχνά επαληθεύουν την προσδοκία αυτήν.
3-8
Διασταύρωση oμοιόμορφη (uniform crossover). Υπενθυμίζεται ότι η διασταύρωση πολλαπλών σημείων
καθορίζει τα σημεία διασταύρωσης ως τις θέσεις όπου το χρωμόσωμα μπορεί να διαιρείται. Η ομοιόμορφη
διασταύρωση γενικεύει αυτή την ιδέα και θεωρεί κάθε θέση μέσα στο χρωμόσωμα ως σημείο διασταύρωσης.
Επιπλέον, επιλέγεται μια μάσκα διασταύρωσης (mask crossover) ίδιου μήκους με το μήκος των γονέων,
ενώ τα ψηφία της μάσκας καθορίζουν το γονέα ο οποίος θα παρέχει στον απόγονο ένα ψηφίο. Στον Πίνακα
3.2 φαίνεται η εφαρμογή της ομοιόμορφης διασταύρωσης χρησιμοποιώντας μια συγκεκριμένη μάσκα.
Συγκεκριμένα, για δυφίο “0” της μάσκας το περιεχόμενο των γονέων Α και Β αντιγράφεται στους γόνους Α
και Β αντίστοιχα, ενώ για για δυφίο “1” το περιεχόμενο των γονέων Α και Β αντιγράφεται στους γόνους Β
και Α αντίστοιχα. Σημειώστε ότι τα δυφία “0” και “1” στη μάσκα επιλέγονται τυχαία με πιθανότητα 0.5 το
καθένα (ομοιόμορφη κατανομή).
Ένας οποισδήποτε τελεστής διασταύρωσης συμβάλλει σε μια εστιασμένη εξερεύνηση περιοχών στο
χώρο αναζήτησης των λύσεων.
3.4.2.5 Μετάλλαξη
Όπως έχει προαναφερθεί, ο δεύτερος τελεστής που εφαρμόζεται στα χρωμοσώματα του πληθυσμού είναι η
μετάλλαξη. Πρόκειται για μία διαδικασία που εμφανίζεται στους ζωντανούς οργανισμούς, με βάση την οποία,
υπό ειδικές συνθήκες του περιβάλλοντος, παρατηρείται μία τυχαία αλλαγή σε κάποια χρωμοσώματα. Τελικά,
μια μετάλλαξη μπορεί να μεταβάλει κάποιες ιδιότητες του ζωντανού οργανισμού.
Στην περίπτωση των ΓΑ η εφαρμογή του τελεστή της μετάλλαξης γίνεται με μία τυχαιότητα όσον
αφορά τόσο το χρωμόσωμα, όσο και το γονίδιο στο οποίο θα εφαρμοστεί. Συγκεκριμένα, με βάση μία
πιθανότητα μετάλλαξης Pm, επιλέγονται τυχαία τα χρωμοσώματα τα οποία θα μεταλλαχτούν. Για παράδεγμα
παράγεται ένας τυχαίος αριθμός στο διάστημα [0,1] για κάθε χρωμόσωμα, ο οποίος αν είναι μικρότερος από
την πιθανότητα μετάλλαξης Pm, τότε και μόνο τότε εφαρμόζεται μετάλλαξη σε αυτό το χρωμόσωμα. Στη
συνέχεια, πάλι τυχαία, κάποιο γονίδιο του χρωμοσώματος μπορεί να μεταλλαχθεί, δηλ. να αλλάξει τιμή, π.χ.
από 0 σε 1, αν χρησιμοποιείται η δυαδική αναπαράσταση του χρωμοσώματος. Ο Πίνακας 3.3 παρουσιάζει
την εφαρμογή του τελεστή μετάλλαξης για τρεις από τις μεθόδους κωδικοποίησης χρωμοσωμάτων που
προαναφέρθηκαν.
Ένας τελεστής μετάλλαξης διασφαλίζει την ποικιλομορφία του πληθυσμού, αφού είναι ο μόνος
μηχανισμός που επιτρέπει τον τυχαίο σχηματισμό χρωμοσωμάτων και επομένως συμβάλλει στη διεύρυνση
της εξερεύνησης του χώρου των λύσεων.
Πίνακας 3.3 Εφαρμογή του τελεστή μετάλλαξης (το μεταλλαγμένο γονίδιο δίνεται με έντονη γραφή) για τρεις διαφορετικές
κωδικοποιήσεις.
3-9
Εκτός από τους προαναφερθέντες τελεστές της διασταύρωσης και της μετάλλαξης δημοφιλής είναι
ένας επιπλέον τελεστής, ο ελιτισμός (elitism), με βάση τον οποίο ένας προκαθορισμένος αριθμός
χρωμοσωμάτων που κρίνονται ως τα «πλέον κατάλληλα», επαναλαμβάνονται αυτούσια στο νέο πληθυσμό.
Με τον τρόπο αυτό εξασφαλίζεται ότι κάποια «πλέον κατάλληλα», χρωμοσώματα θα συμπεριληφθούν στον
νέο πληθυσμό και δε θα εξαφανιστούν ως αποτέλεσμα της εφαρμογής των υπόλοιπων τελεστών.
3.4.2.6 Επανατοποθέτηση
Μετά την εφαρμογή των προαναφερθέντων τελεστών παράγονται νέα χρωμοσώματα με σκοπό την
επανατοποθέτησή (reinsertion) τους στον παλαιό πληθυσμό, ώστε να δημιουργηθεί ένας νέος πληθυσμός
υποψήφιων λύσεων. Νέα χρωμοσώματα αντικαθιστούν παλαιά χρωμοσώματα στον πληθυσμό διατηρώντας,
τυπικά, σταθερό το μέγεθος του πληθυσμού. Με την επανατοποθέτηση των νέων χρωμοσωμάτων και το
σχηματισμό του νέου πληθυσμού ολοκληρώνεται μία επανάληψη του ΓΑ που ονομάζεται γενεά και ο
αλγόριθμος επαναλαμβάνεται εκ νέου, μέχρι να ικανοποιηθεί ένα από τα ακόλουθα δύο κριτήρια
τερματισμού (termination criteria):
T
n-διάστατο χώρο των λύσεων και μία αντίστοιχη ταχύτητα ui ui1 ,ui2 ,ui3 ,..,uin , οι οποίες
αρχικοποιούνται τυχαία. Δοθείσης της αντικειμενικής συνάρτησης f x ο αλγόριθμος ΒΣΣ αναζητάει
λύσεις κινούμενος στο χώρο αναζήτησης των λύσεων μέσω της προσαρμογής των τροχιών που διαγράφουν
τα σωματίδια. Συγκεκριμένα, η κίνηση των σωματιδίων έχει δύο συνιστώσες: μία στοχαστική και μία
αιτιοκρατική. Επιπλέον, κάθε σωματίδιο, κατά την κίνησή του, έλκεται τόσο από το (τρέχον) ολικά καλύτερο,
όσο και από το ατομικά καλύτερό του, ενώ συγχρόνως υπάρχει και μια τυχαία συνιστώσα της κίνησης.
Όταν ένα σωματίδιο i , i{1,…,M} βρεθεί σε θέση x*i καλύτερη από οποιαδήποτε άλλη είχε στο
παρελθόν, τότε αυτή η θέση κρατείται ως η καλύτερη θέση του σωματιδίου. Ο στόχος του αλγορίθμου είναι η
εύρεση του ολικά καλύτερου g* πάνω σε όλα τα ατομικά καλύτερα x*i μέχρι να ικανοποιηθεί ένα από τα
προαναφερθέντα δύο κριτήρια τερματισμού. Ο ψευδοκώδικας του βασικού αλγoρίθμου ΒΣΣ περιγράφεται στο
Σχήμα 3.4.
3-10
Σε κάθε επανάληψη (t) του αλγορίθμου ο υπολογισμός της επόμενης θέσης και της αντίστοιχης
ταχύτητας κάθε σωματιδίου υπολογίζεται ως εξής:
uit+1 ωuit αr1 g* - xit βr2 x*i - xit (3.6)
όπου οι παράμετροι ω,α, β καθορίζουν την συμπεριφορά του αλγορίθμου και επομένως η επιλογή τους
διαμορφώνει την τελική απόδοση του αλγορίθμου. Η κατάλληλη επιλογή των παραμέτρων αποτελεί
αντικείμενο έρευνας, ενώ μία «κατευθυντήρια» οδηγία είναι η επιλογή παραμέτρων ίδιας τιμής α, β 2
(Yang, 2008). Σημειώστε ότι παρά το γεγονός ότι η ταχύτητα μπορεί να πάρει οποιαδήποτε τιμή, συνήθως η
ταχύτητα φράσσεται σε ένα διάστημα [0,umax], όπου umax είναι ένα προκαθορισμένο άνω όριο. Επίσης, οι
παράμετροι r1, r2 0,1 λαμβάνουν τυχαίες τιμές ώστε να διατηρηθεί η ποικιλομορφία του πληθυσμού.
Στην βιβλιογραφία έχουν προταθεί διάφορες παραλλαγές του βασικού αλγορίθμου ΒΣΣ σε συγκεκριμένες
εφαρμογές με σκοπό τόσο να επιταχυνθεί η σύγκλιση όσο και να βελτιωθεί η απόδοσή του (Parsopoulos
&Vrahatis, 2002· del Valle κ.ά., 2008).
Έναρξη
Καθορισμός της αντικειμενικής συνάρτησης f x
Αρχικοποίηση των θέσεων xi και ταχυτήτων ui των Μ σωματιδίων
t=0
Αρχικό καλύτερο f min = min f x1 ,..., f xM
Επανέλαβε μέχρι να ικανοποιηθεί ένα από τα κριτήρια τερματισμού
t = t +1 (αύξηση του μετρητή επανάληψης)
Για κάθε σωματίδιο και κάθε διάσταση εκτέλεσε τα παρακάτω
Παρήγαγε τυχαίες τιμές r1, r2 0,1
Υπολογισμός της νέας ταχύτητας σύμφωνα με την Εξ.(3.6)
Υπολογισμός της νέας θέσης σύμφωνα με την Εξ.(3.7)
Υπολογισμός της αντικειμενικής συνάρτησης f(xi), i=1,…,M
t+1
Υπολ/σμός του τρέχοντος καλύτερου f min = min f x1 ,..., f xM
τέλος επαναλήψεων
Εύρεση του ατομικά καλύτερου x*i και του ολικά καλύτερου g*
τερματισμός (ικανοποίηση ενός από τα κριτήρια τερματισμού)
Τελικά αποτελέσματα x*i και g*
Τέλος
3-11
έχει βελτιωμένη απόδοση συγκριτικά με τους ΓΑ. Και οι δύο αυτοί αλγόριθμοι έχουν χρησιμοποιηθεί
ευρύτατα για τη βελτιστοποίηση πολύπλοκων αντικειμενικών συναρτήσεων.
Δύο άλλοι ενδιαφέροντες αλγόριθμοι βελτιστοποίησης περιλαμβάνουν τη βελτιστοποίηση αποικίας
μυρμηγκιών (ant colony) (Colorni κ.ά., 1991) και την τεχνητή αποικία μελισσών (artificial bee colony)
(Karaboga, 2005). Αυτοί ανήκουν σε μία ευρύτερη κατηγορία αλγορίθμων γνωστών με το όνομα νοημοσύνη
σμήνους (swarm intelligence) και εξομοιώνουν τη συμπεριφορά σμηνών μυρμηγκιών και μελισσών για την
εύρεση τροφής αντίστοιχα. Αρκετά νεότερος από τους προαναφερθέντες δύο αλγορίθμους είναι ο αλγόριθμος
βαρυτικής αναζήτησης (gravitational search) (Rashedi κ.ά., 2009), ο οποίος εξομοιώνει την έλξη μαζών σε
βαρυτικό πεδίο και συνήθως έχει υψηλή απόδοση. Επιπλέον αλγόριθμοι βελτιστοποίησης οι οποίοι
προτάθηκαν στη βιβλιογραφία περιλαμβάνουν τον αλγόριθμο της πυγολαμπίδας (firefly) (Yang, 2008), τη
μέθοδο αναζήτησης του κούκου (cuckoo search method) (Yang & Deb, 2009), τον αλγόριθμο της
νυχτερίδας (bat) (Yang, 2010) και τη βελτιστοποίηση βιογεωγραφίας (biogeography-based optimization)
(Simon, 2008). Οι προαναφερθέντες αλγόριθμοι αποτελούν ένα (μικρό) υποσύνολο αλγόριθμων
βελτιστοποίησης εξελικτικού υπολογισμού ή/και εμπνευσμένων από τη φύση που συνεχίζουν να προτείνονται
στην βιβλιογραφία.
3.1) Δοθέντων δύο χρωμοσωμάτων (γονέων) ενός γενετικού αλγορίθμου σε δυαδική αναπαράσταση
00010110 και 00100101 να βρεθούν τα χρωμοσώματα (απόγονοι) που παράγονται με την εφαρμογή
της διασταύρωσης ενός σημείου της επιλογής σας.
3.2) Να υπολογιστεί το πλήθος των δυφίων που θα υποστούν μετάλλαξη στα χρωμοσώματα ενός
γενετικού αλγορίθμου δυαδικής αναπαράστασης μήκους 10, όταν η πιθανότητα μετάλλαξης είναι
Pm= 0.1.
3.3) Έστω ένα χρωμόσωμα αποτελούμενο από 3 μεταβλητές, κάθε μία από τις οποίες αναπαρίσταται με
4 δυφία. Θεωρώντας ότι και οι 3 μεταβλητές έχουν το ίδιο πεδίο τιμών xi 0,10 ,i = 1,2,3 να
βρεθούν οι πραγματικές τιμές των μεταβλητών, όταν το χρωμόσωμα έχει τη μορφή 010100110010.
3.4) Έστω ένα σωματίδιο, το οποίο ανήκει στον πληθυσμό ενός αλγορίθμου ΒΣΣ, έχει θέση
x 12.3,2.3,3.1 και ταχύτητα u 3,7.1,2.8 . Για τιμές των παραμέτρων ω,α, β 1, 2, 2
T T
να υπολογιστεί η θέση και η ταχύτητα του σωματιδίου τη χρονική στιγμή (t+1), εάν είναι γνωστό
ότι η ολικά καλύτερη λύση συμπίπτει με την ατομικά καλύτερη θέση του σωματιδίου και είναι ίση
με x * 10,3,4 .
T
3.5) Ποια η μορφή της συνάρτησης αντικειμενικότητας στην περίπτωση εφαρμογής ενός γενετικού
αλγορίθμου στην εκπαίδευση ενός νευρωνικού δικτύου perceptron με ένα κρυφό στρώμα, δέκα
εισόδους, τρεις εξόδους και Μ σύνολα εκπαίδευσης;
3.6) Να χρησιμοποιηθεί ο γενετικός αλγόριθμος του Global Optimization Toolbox του MATLAB για
την ελαχιστοποίηση της παρακάτω συνάρτησης Schwefel τριών μεταβλητών (p=3). Ποια είναι η
απόκλιση από τη θεωρητικά ελάχιστη τιμή x * 0,0,0,0,0 , f x* = 0 ;
2
p i
f x = x j , xi 65.536, 65.536
i=1 j1
3.7) Να χρησιμοποιηθεί ο γενετικός αλγόριθμος του Global Optimization Toolbox του MATLAB για
την ελαχιστοποίηση της παρακάτω πολυτροπικής συνάρτησης Rastrigin πέντε μεταβλητών (p=5).
Ποια είναι η απόκλιση από τη θεωρητικά ελάχιστη τιμή x * 0,0,0,0,0 , f x* = 0 ;
p
f x = 10p + xi2 - 10cos 2πxi , xi 2.048, 2.048
i=1
3-12
3.8) Να αναπτυχθεί κώδικας σε περιβάλλον MATLAB, ο οποίος να υλοποιεί τον τελεστή της
διασταύρωσης πολλαπλών σημείων για χρωμοσώματα δυαδικής αναπαράστασης.
3.9) Να αναπτυχθεί κώδικας σε περιβάλλον MATLAB, ο οποίος να υλοποιεί το βασικό αλγόριθμο ΒΣΣ.
3.10) Να αναπτυχθεί κώδικας σε περιβάλλον MATLAB, ο οποίος να υλοποιεί την εκπαίδευση ενός
perceptron νευρωνικού δικτύου με τη χρήση γενετικού αλγορίθμου. Σημειώνεται ότι το
εκπαιδευμένο νευρωνικό δίκτυο θα πρέπει να είναι ικανό να μοντελοποιεί την τριγωνομετρική
συνάρτηση του ημιτόνου (sin(x)).
Βιβλιογραφία
Bertsekas, D.P., Nedić, A. & Ozdaglar, A.E. (2003). Convex Analysis and Optimization. Belmont, MA:
Athena Scientific.
Boyd, S. & Vandenberghe, L. (2004). Convex Optimization. UK: Cambridge University Press.
Coleman, T.F. & Li, Y. (1994). On the convergence of interior-reflective Newton methods for nonlinear
minimization subject to bounds. Mathematical Programming, 67(1-3), 189-224.
Coley, D.A. (1999). An Introduction on Genetic Algorithms for Scientists and Engineers. Singapore: World
Scientific Publishing.
Colorni, A., Dorigo, M. & Maniezzo, V. (1991). Distributed Optimization by Ant Colonies. Actes de la
première conférence européenne sur la vie artificielle, Paris, France, Elsevier Publishing, 134-142.
Darwin, C. (2014) On the Origin of Species by Means of Natural Selection. Tustin, CA: Xist Publishing.
Deb, K. (2001). Multi-Objective Optimization using Evolutionary Algorithms. UK: John Wiley & Sons, 2001.
Eberhart, R.C. & Kennedy, J. (1995). A new optimizer using particle swarm theory. In Proceedings of the 6th
International Symposium on Micro Machine and Human Science, 39-43, Nagoya - Japan.
Holland, J.H. (1992). Adaptation in Natural and Artificial Systems. USA: MIT Press.
Karaboga, D. (2005). An Idea Based On Honey Bee Swarm for Numerical Optimization. Technical Report-
TR06, Erciyes University, Engineering Faculty, Computer Engineering Department.
Mitchell, M. (1998). An Introduction to Genetic Algorithms. USA: MIT Press.
Møller, M.F. (1993). A scaled conjugate gradient algorithm for fast supervised learning. Neural Networks,
6(4), 525-533.
Parsopoulos, K.E. & Vrahatis, M.N. (2002). Recent approaches to global optimization problems through
Particle Swarm Optimization. Natural Computing, 1(2-3), 235-306.
Rashedi, E., Nezamabadi-pour, H. & Saryazdi, S. (2009). GSA: a gravitational search algorithm. Information
Sciences, 179(13), 2232-2248.
Rechenberg, I. (1971). Evolutionsstrategie – Optimierung technischer Systeme nach Prinzipien der
biologischen Evolution. Phd Thesis.
Simon, D. (2008). Biogeography-based optimization. IEEE Transactions on Evolutionary Computation, 12,
702-713.
Storn, R., & Price, K. (1997). Differential evolution - a simple and efficient heuristic for global optimization
over continuous spaces. Journal of Global Optimization, 11, 341-359.
Toffolo, A. & Benini, E. (2003). Genetic diversity as an objective in multi-objective evolutionary algorithms.
Evolutionary Computation, 11(2), 151-167.
del Valle, Y., Venayagamoorthy, G.K., Mohagheghi, S., Hernandez, J.-C. & Harley, R.G. (2008). Particle
Swarm Optimization: basic concepts, variants and applications in power systems. IEEE Transactions on
Evolutionary Computation, 12(2), 171-195.
Yang, X.S. (2008). Nature-Inspired Metaheuristic Algorithms. Luniver Press.
Yang, X.S. (2010). A new metaheuristic Bat-inspired algorithm. In: J. R. Gonzalez et al., eds., Nature
Inspired Cooperative Strategies for Optimization (Studies in Computational Intelligence 284: 65-74).
Berlin, Germany: Springer.
Yang, X.S. & Deb, S. (2009). Cuckoo search via Lévy flights. In World Congress on Nature & Biologically
Inspired Computing (NaBIC, 2009), 210-214.
3-13
Μέρος-ΙΙ: Διευρυμένη Υπολογιστική Νοημοσύνη
Εισαγωγή στο Μέρος-ΙΙ
Στη βάση τεχνολογιών κλασικής ΥΝ προτάθηκαν δημιουργικοί συνδυασμοί, όπως είναι τα νευρο-
ασαφή συστήματα. Κάποιες από τις τεχνικές της κλασικής ΥΝ διευρύνθηκαν εύκολα, για παράδειγμα
τεχνικές της κλασικής ΥΝ στη βάση κατανομών εφικτότητας επεκτάθηκαν σε τεχνικές ΥΝ στη βάση
κατανομών πιθανότητας. Περαιτέρω υπολογιστικές επεκτάσεις συμπεριέλαβαν μη-αριθμητικά
δεδομένα (βλ. γράφους), όπως είναι οι οντολογίες. Ακόμη υπολογιστικές τεχνικές από τα
εφαρμοσμένα μαθηματικά (Duda κ.ά., 2001), όπως τεχνικές ομαδοποίησης, μπορούν να ενταχθούν
στο πλαίσιο της διευρυμένης ΥΝ. Επιπλέον, η διευρυμένη ΥΝ μπορεί να περιλαμβάνει και
εναλλακτικές υπολογιστικές μεθοδολογίες, όπως είναι ο φυσικός υπολογισμός (natural computing),
ο οποίος σχεδιάζει υπολογιστικές τεχνικές τυποποιώντας διαδικασίες που παρατηρούνται σε
ζωντανούς οργανισμούς (Pal & Meher, 2013).
Κάποιες από τις προαναφερθείσες υπολογιστικές μεθοδολογίες και τεχνικές ενδεικτικά θα
παρουσιαστούν στα επόμενα κεφάλαια αυτού του βιβλίου.
Βιβλιογραφία
Duda, R.O., Hart, P.E. & Stork, D.G. (2001). Pattern Classification (2nd ed.). New York, N.Y.: John
Wiley & Sons.
Pal, S.K. & Meher, S.K. (2013). Natural computing: A problem solving paradigm with granular
information processing. Applied Soft Computing, 13(9), 3944-3955.
II-2
Κεφάλαιο 4: Επεκτάσεις της Κλασικής Υπολογιστικής Νοημοσύνης
Η κλασική ΥΝ διευρύνθηκε κατ’ αρχάς σε μια προσπάθεια να ξεπεραστούν κάποια από τα επιμέρους
μειονεκτήματα τεχνολογιών της κλασικής ΥΝ, όπως εξηγείται στη συνέχεια.
έννοια, στο πραγματικό f(x0), δηλαδή η υπολογισθείσα συνάρτηση fˆ να έχει καλή ικανότητα γενίκευσης.
Συναρτήσεις συμμετοχής υπάρχουν αποθηκευμένες: (1) στα βάρη που συνδέουν τους νευρώνες του
στρώματος εισόδου με εκείνους του στρώματος εξόδου και (2) στους νευρώνες του στρώματος εξόδου. Οι
μηχανισμοί ασαφοποίησης /συμπερασμού /από-ασαφοποίησης είναι σταθεροί και γνωστοί από τα ΑΣΣ.
Εκείνο το οποίο προσαρμόζεται κατά τη διαδικασία της μάθησης είναι τόσο το σχήμα, όσο και η θέση των
συναρτήσεων συμμετοχής που εμπλέκονται στους υπολογισμούς, ώστε να ελαχιστοποιείται μια καλώς
ορισμένη συνάρτηση σφάλματος.
1 Μ
1 Ν
Σχήμα 4.1 Νευρο-ασαφές σύστημα το οποίο υλοποιεί ένα ασαφές σύστημα συμπερασμού τύπου Mamdani. Κάθε νευρώνας
του στρώματος εξόδου αντιστοιχεί σε έναν ασαφή κανόνα.
4-1
Επεκτάσεις του ΠΝΑΣΣ, ώστε να υλοποιεί ένα ΑΣΣ τύπου Sugeno, υλοποιούνται με την
αντικατάσταση των συναρτήσεων συμμετοχής στους νευρώνες του στρώματος εξόδου με αλγεβρικές (π.χ.
γραμμικές) εξισώσεις. Σ’ αυτήν την περίπτωση η προσαρμογή κατά τη διαδικασία της μάθησης επίσης
περιλαμβάνει τη βέλτιστη εκτίμηση των παραμέτρων των αλγεβρικών εξισώσεων στους νευρώνες του
στρώματος εξόδου.
Σύμφωνα με το παραπάνω ΔΑΒ ένα διάνυσμα εισόδων x x1, x 2 , x 3,..., x N εφαρμόζεται στο
στρώμα εισόδου, ένα σύνολο συναρτήσεων ενεργοποίησης ακτινωτής βάσης F f1, f 2 , f3,..., f K
χρησιμοποιείται στους νευρώνες του κρυφού στρώματος και τελικά κάθε νευρώνας εξόδου (γραμμικός
νευρώνας) υπολογίζει το σταθμισμένο άθροισμα των εξόδων των κρυφών νευρώνων, υπολογίζοντας μία
έξοδο ως εξής:
w f x c b
K
yi ji j j i (4.1)
j1
Στην Εξ.(4.1) w ji είναι το βάρος σύνδεσης του j κρυφού νευρώνα με τον i νευρώνα εξόδου, f j είναι
η συνάρτηση ενεργοποίησης, c j το διάνυσμα των κέντρων του j κρυφού νευρώνα και bi είναι η σταθερά
πόλωσης του i νευρώνα εξόδου. Σημειώστε ότι ως συναρτήσεις ενεργοποίησης συνήθως χρησιμοποιούνται
συναρτήσεις με Gaussian βάση της μορφής
4-2
xc 2
f x c exp (4.2)
2 2
όπου η παράμετρος ελέγχει το εύρος (spread) της συνάρτησης, ώστε η τιμή της να μειώνεται καθώς το x
απομακρύνεται από το c , δηλ. καθώς αυξάνεται το x c . Για τον υπολογισμό της νόρμας (||.||) στην
Εξ.(4.2) συνήθως χρησιμοποιείται η Ευκλείδεια απόσταση, όμως και άλλες αποστάσεις (π.χ. Minkowski,
Mahalanobis) είναι δυνατόν να εφαρμοστούν.
Συνήθως για την επιλογή του αριθμού των νευρώνων του κρυφού στρώματος, εφαρμόζεται ένας
απλός κανόνας σύμφωνα με τον οποίο ο αριθμός των νευρώνων είναι ίσος με τον αριθμό των δεδομένων
εκπαίδευσης (Looney, 1997). Αυτός ο κανόνας έχει το μειονέκτημα να δημιουργεί μεγάλα δίκτυα σε
προβλήματα με πολλά δεδομένα εκπαίδευσης.
Όπως έχει αποδειχθεί, ένα ΔΑΒ αποτελεί καθολικό προσεγγιστή (universal approximator) (Poggio
& Girosi, 1990· Park & Sandberg, 1991), δηλ. έχοντας τον κατάλληλο αριθμό κρυφών νευρώνων, ένα ΤΝΔ
είναι ικανό να προσεγγίσει οποιαδήποτε συνάρτηση.
Η λειτουργία των ΔΑΒ βασίζεται στην αρχή του μετασχηματισμού του προβλήματος από το χώρο
των εισόδων στο χώρο των χαρακτηριστικών πολύ μεγαλύτερης διάστασης όπως προτάθηκε από τον Cover
(1965): Ένα μη-γραμμικώς διαχωρίσιμο πρόβλημα κατηγοριοποίησης μπορεί να μετασχηματιστεί σε
γραμμικώς διαχωρίσιμο σε ένα χώρο αρκετά μεγάλης διάστασης. Σημειώστε ότι ο ίδιος μετασχηματισμός
(δηλ. στο χώρο των χαρακτηριστικών πολύ μεγαλύτερης διάστασης) αποτελεί την αρχή λειτουργίας και των
μη-γραμμικών Μηχανών Διανυσμάτων Στήριξης.
4.2.1 Εκπαίδευση
Επισημαίνουμε ότι ένα ΔΑΒ αποτελείται από δύο τμήματα που λειτουργούν εντελώς διαφορετικά μεταξύ
τους. Επομένως, η εκπαίδευση των κρυφών νευρώνων και των νευρώνων εξόδου θα μπορούσε να γίνει με
διαφορετικό τρόπο και σε διαφορετικό χρόνο.
Σε ένα ΔΑΒ οι παράμετροι που θα πρέπει να βελτιστοποιηθούν ως προς μία αντικειμενική
συνάρτηση είναι τα διανύσματα κέντρων C c1, c2 ,..., cK των κρυφών στρωμάτων όπως και τα βάρη
M
W w1j, w 2 j,..., w Kj των συνδέσεων με το στρώμα εξόδου. Συγκεκριμένα, από τη μια μεριά, τα κέντρα
j1
C c1, c2 ,..., cK των κρυφών νευρώνων μπορούν να επιλεγούν με τους εξής τρόπους: (1) τυχαία από το
σύνολο των δεδομένων εκπαίδευσης, (2) με την εφαρμογή μίας μεθόδου ομαδοποίησης στα δεδομένα
εκπαίδευσης, π.χ. με τον αλγόριθμο κ-μέσων (k-means algorithm), ώστε τα κέντρα να τοποθετηθούν σε
περιοχές μεγάλης συγκέντρωσης δεδομένων και (3) με την εφαρμογή μίας μεθόδου εκπαίδευσης με εποπτεία,
π.χ. με τη μέθοδο κατάβασης βαθμίδας. Από την άλλη μεριά, για την εύρεση των βαρών
M
W w1j, w 2 j,..., w Kj έχουν προταθεί διάφοροι αλγόριθμοι εκπαίδευσης (Looney, 1997· Haykin, 1999).
j1
Η μέθοδος του ψευδο-αντίστροφου (pseudo-inverse) (Broomhead & Lowe, 1988), αποτελεί μία
συνηθισμένη επιλογή για την εύρεση των βαρών. Σύμφωνα με την προαναφερθείσα μέθοδο τα βάρη
υπολογίζονται ως εξής:
w F t (4.3)
όπου t είναι το διάνυσμα των επιθυμητών εξόδων του συνόλου εκπαίδευσης και F είναι ο ψευδο-
αντίστροφος του πίνακα F f ji που περιγράφει τις χρησιμοποιούμενες συναρτήσεις ενεργοποίησης. Για
τον υπολογισμό του ψευδοαντίστροφου μπορούν να χρησιμοποιηθούν διάφορες μέθοδοι παραγοντοποίησης,
π.χ. η μέθοδος της ανάλυσης ίδιων τιμών (singular value decomposition). Τέλος, για την εύρεση των
βαρών του στρώματος εξόδου μπορεί εναλλακτικά να εφαρμοστεί ένας συνηθισμένος αλγόριθμος μάθησης
με εποπτεία, με χρήση του κανόνα δέλτα όπως και στα δίκτυα οπισθόδρομης εκμάθησης.
4-3
4.3 Μοντέλα κ Πλησιέστερων Γειτόνων
Ένα απλό στη χρήση, αλλά με υψηλή απόδοση, μη-γραμμικό μοντέλο υπολογιστικής νοημοσύνης που
εφαρμόζεται σε προβλήματα κατηγοριοποίησης και παλινδρόμησης, είναι το λεγόμενο μοντέλο των κ
Πλησιέστερων Γειτόνων (κΠΓ) (k nearest neighbors (kNN) model).
Το βασικό χαρακτηριστκό της λειτουργίας του κΠΓ αποτελεί ο υπολογισμός των αποστάσεων μεταξύ
του προς επεξεργασία δεδομένου με το σύνολο των δεδομένων εκπαίδευσης. Στη συνέχεια της ανάλυσής μας
θα περιοριστούμε στην εφαρμογή του κΠΓ μοντέλου για αναγνώριση προτύπων.
x , t
N
Έστω, ένα σύνολο Ν δεδομένων εκπαίδευσης j j j1 , όπου x j n
είναι το διάνυσμα εισόδου
και t j 1, 1 η ετικέτα της κατηγορίας του j δείγματος. Έστω ότι το σύνολο των δεδομένων περιγράφει
ένα πρόβλημα δυο κατηγοριών, οι ετικέτες των οποίων πρέπει να είναι εκ των προτέρων γνωστές. Επομένως
το κΠΓ μοντέλο κατηγοριοποίησης αποτελεί μία μέθοδο μηχανικής μάθησης με επίβλεψη.
Όταν ένα νέο δεδομένο x 0 εμφανιστεί στην είσοδο του μοντέλου κΠΓ για να κατηγοριοποιηθεί, τότε
θα πρέπει να υπολογιστούν οι αποστάσεις με τη χρήση μίας προ-επιλεγμένης συνάρτησης απόστασης dist(.,.)
του δεδομένου x 0 από κάθε ένα από τα δεδομένα εκπαίδευσης, ως ακολούθως:
Σχήμα 4.3 Γραφική απεικόνιση της λειτουργίας του κΠΓ μοντέλου για ένα πρόβλημα δυο κατηγοριών και για τις
περιπτώσεις κ=3 (συμπαγής γραμμή) και κ=5 (διακεκκομένη γραμμή).
Από το παραπάνω παράδειγμα γίνεται φανερή η εξάρτηση της απόδοσης του κΠΓ μοντέλου από την
επιλογή της παραμέτρου κ. Μία μεγάλη τιμή στην παράμετρο κ έχει ως αποτέλεσμα το μοντέλο κΠΓ να είναι
πιο εύρωστο στο θόρυβο (δεδομένα τα οποία δεν ακολουθούν τη γενική συμπεριφορά της κατηγορίας στην
οποία ανήκουν). Επίσης, η απόδοση του κΠΓ επηρρεάζεται σημαντικά από την ύπαρξη δεδομένων με
4-4
διαφορετική δυναμική περιοχή ή ακόμη και δεδομένων που δεν περιγράφουν με την ίδια ακρίβεια την ίδια
κατηγορία. Για το σκοπό αυτό έχουν προταθεί διάφορες μέθοδοι προ-επεξεργασίας των δεδομένων, ώστε
δεδομένα τις ίδιας κατηγορίας να κείνται σχετικά κοντά μεταξύ τους.
Υπάρχουν πολλές συναρτήσεις για τη μέτρηση της απόστασης των δεδομένων (Paredes & Vidal,
2006), με τις ακόλουθες συναρτήσεις να είναι οι πιο δημοφιλείς:
distEuclidean x0 , x j x xij
n 2
i
0 (4.5)
i 1
1
PB P PB (4.8)
e
όπου PB είναι το βέλτιστο Bayesian σφάλμα. Το παραπάνω σφάλμα του κΠΓ μοντέλου είναι μικρότερο από
το αντίστοιχο σφάλμα των προσωτροφοδοτούμενων ΤΝΔ, ενώ αυτό το σφάλμα μηδενίζεται καθώς .
4.4.1 Γενικά
Η βασική λειτουργία των ΜΔΣ εντοπίζεται στην κατασκευή ενός υπερ-επίπεδου που παίζει το ρόλο
επιφάνειας λήψης απόφασης, ώστε το περιθώριο διαχωρισμού των κατηγοριών να μεγιστοποιείται (Haykin,
1999), όπως εξηγείται παρακάτω. Αξίζει να σημειωθεί ότι οι ΜΔΣ αρχικά προτάθηκαν σε προβλήματα δύο
κατηγοριών, ενώ με την εφαρμογή κατάλληλων τεχνικών αργότερα επεκτάθηκαν και σε προβλήματα πολλών
κατηγοριών.
Ένα χαρακτηριστικό των ΜΔΣ που προσδιορίζει τη λειτουργία τους είναι τα λεγόμενα διανύσματα
στήριξης (support vectors), τα οποία αποτελούν ένα μικρό υποσύνολο των χρησιμοποιούμενων δεδομένων
εκπαίδευσης όπως εξηγείται στη συνέχεια.
Για να γίνει καλύτερα κατανοητή η λειτουργία των ΜΔΣ ας θεωρήσουμε το πρόβλημα
κατηγοριοποίησης δύο κατηγοριών, όπως περιγράφεται στο επίπεδο στο Σχήμα 4.4(α). Είναι φανερό ότι οι
δύο κατηγορίες που σημειώνονται με τις ετικέτες «+» και «ο» είναι γραμμικώς διαχωρίσιμες. Αυτό σημαίνει
ότι μία ευθεία γραμμή είναι ικανή να διαχωρίσει τη μία κατηγορία από την άλλη. Ωστόσο, όπως φαίνεται και
από το Σχήμα 4.4(α), υπάρχουν πολλές ευθείες (ε1, ε2, ε3, ...) οι οποίες μπορούν να πετύχουν το ίδιο
αποτέλεσμα. Οι ΜΔΣ αναζητούν τη μοναδική ευθεία (ε*) που διαχωρίζει τις κατηγορίες με τέτοιο τρόπο,
ώστε το περιθώριο μεταξύ των κατηγοριών να μεγιστοποιείται, όπως φαίνεται στο Σχήμα 4.4(β).
4-5
(α) (β)
Σχήμα 4.4 Πρόβλημα δύο γραμμικώς διαχωρίσιμων κατηγοριών (α) πολλαπλές ενδεχόμενες επιφάνειες απόφασης ε1, ε2, ε3
κ.λπ. και (β) η βέλτιστη επιφάνεια απόφασης ε*.
Στη συνέχεια θα αναφερθούμε μόνο στην εφαρμογή των ΜΔΣ σε πρόβλημα κατηγοριοποίησης. Για
την επίλυση αυτού του προβλήματος διακρίνουμε τις γραμμικές ΜΔΣ και τις μη-γραμμικές ΜΔΣ (Suykens
κ.ά., 2002) οι οποίες περιγράφονται στη συνέχεια.
ετικέτα της κατηγορίας του k δείγματος. Ανάλογα με τη φύση των προς κατηγοριοποίηση δεδομένων
διακρίνουμε τις εξής δύο περιπτώσεις: γραμμικώς διαχωρίσιμα ή μη-γραμμικώς διαχωρίσιμα δεδομένα.
wT x b 0 (4.9)
όπου x είναι το διάνυσμα εισόδου, w και b είναι το διάνυσμα των βαρών και η σταθερά πόλωσης,
αντίστοιχα, που θα πρέπει να υπολογιστούν. Επειδή τα δεδομένα είναι γραμμικώς διαχωρίσιμα, ο
κατηγοριοποιητής περιγράφεται από τις παρακάτω εξισώσεις:
w T x k b 1, t k 1
(4.10)
w T x k b 1, t k 1
t k wT xk b 1, k 1, 2, 3,..., N (4.11)
Όπως έχει ήδη αναφερθεί, ο βασικός στόχος των ΜΔΣ είναι η εύρεση της επιφάνειας λήψης
απόφασης μέσω της μεγιστοποίησης του περιθωρίου (το οποίο ισούται με 2 / w 2 ) που χωρίζει τις
κατηγορίες. Τα διανύσματα για τα οποία ισχύει η ισότητα στην Εξ.(4.11) αποτελούν τα λεγόμενα διανύσματα
4-6
στήριξης και είναι εκείνα τα διανύσματα που βρίσκονται πιο κοντά στην επιφάνεια λήψης απόφασης και
επομένως εκείνα που κατηγοριοποιούνται πιο δύσκολα από το σύνολο των διανυσμάτων εκπαίδευσης.
Επομένως, το πρόβλημα της κατηγοριοποίησης ανάγεται σε πρόβλημα βελτιστοποίησης, κατά το οποίο
1
επιδιώκεται η εύρεση της βέλτιστης επιφάνειας w * , b* η οποία μειώνει το κόστος J w w T w ,
2
ικανοποιώντας κάποιους περιορισμούς και το οποίο ορίζεται ως εξής:
1
min J w w T w , έτσι ώστε
w ,b 2 (4.12)
t k w x k b 1, k 1, 2, 3,..., N
T
N
1
L w, b, w T w k t k w T xk b 1 (4.13)
2
k 1
Λαμβάνοντας τις παραγώγους της Εξ.(4.13) και θέτοντάς τες ίσες με μηδέν, προκύπτουν οι δύο
παρακάτω συνθήκες:
L w, b,
0
w
(4.15)
L w, b,
0
b
Από τις δύο συνθήκες της Εξ.(4.15) προκύπτουν οι ακόλουθες χρήσιμες εξισώσεις:
N
w t x
k 1
k k k
N
(4.16)
t
k 1
k k 0
Αντικαθιστώντας την παραπάνω τιμή του w στην Εξ.(4.13) προκύπτει το δυϊκό πρόβλημα (dual
problem) βελτιστοποίησης, το οποίο ορίζεται ως εξής:
N N N
k
1
min Q mt t m xT x m , έτσι ώστε
2
k 1 1 m 1
N
(4.17)
t
k 1
k k 0, k 0, k 1,..., N.
4-7
Το παραπάνω είναι ένα πρόβλημα τετραγωνικού προγραμματισμού (quadratic programming), το
οποίο καταλήγει σε αρκετές μη-μηδενικές λύσεις k που είναι τα ζητούμενα διανύσματα στήριξης.
Με την εύρεση των βέλτιστων πολλαπλασιαστών Lagrange k* , το σύνολο βαρών w * υπολογίζεται
από την Εξ.(4.16), ενώ η αντίστοιχη πόλωση b * υπολογίζεται από μία εκ των εξισώσεων (4.10).
t k wT xk b 1 k , k 1, 2, 3,..., N (4.18)
όπου k 0 είναι οι χαλαρές παράμετροι, ενώ το αντίστοιχο πρωταρχικό πρόβλημα βελτιστοποίησης της
Εξ.(4.12) μετασχηματίζεται ως εξής:
N
1
min J w, w T w c k , έτσι ώστε
w,b
2 k 1 (4.19)
t k w T x k b 1 k , k 0, k 1, 2, 3,..., N
N N N
k t k w T x k b 1 k v k k
1 T
L w, b, , w w c k (4.20)
2
k 1 k 1 k 1
όπου vk 0, k 1,..., N, είναι ένα δεύτερο σύνολο πολλαπλασιαστών Lagrange, πέραν των k . Σε αυτή την
περίπτωση το πρόβλημα βελτιστοποίησης περιγράφεται ως ακολούθως:
N N N
k
1
min Q mt t m xT x m , έτσι ώστε
2
k 1 1 m 1
N
(4.22)
t
k 1
k k 0, 0 k c, k 1,..., N
και είναι ίδιο με αυτό της Εξ.(4.17) με τον επιπλέον περιορισμό k c . Το σύνολο των βέλτιστων βαρών
w * υπολογίζεται από την Εξ.(4.16), ενώ η αντίστοιχη πόλωση b * υπολογίζεται για εκείνα τα k c για τα
οποία ισχύει k 0 (Haykin, 1999).
4-8
4.4.3 Μη-γραμμικές ΜΔΣ
Μεγάλη ώθηση στην εφαρμογή των ΜΔΣ σε πραγματικά προβλήματα αποτέλεσε η ανάπτυξη των μη-
γραμμικών ΜΔΣ από τον Vapnik (1995). Η βασική αρχή λειτουργίας των μη-γραμμικών ΜΔΣ βασίζεται στο
θεώρημα του Cover (1965) περί της διαχωρισιμότητας των κατηγοριών Το θεώρημα του Cover αναφέρει ότι:
Ο μετασχηματισμός από έναν χώρο λίγων διαστάσεων (χώρος εισόδων) σε έναν χώρο πολλών διαστάσεων
(χώρος χαρακτηριστικών) μπορεί να επιτευχθεί με την εφαρμογή μίας μη-γραμμικής απεικόνισης x . Σε
αυτή την περίπτωση η επιφάνεια λήψης απόφασης ορίζεται ως εξής (Cristianini & Shawe-Taylor, 2000):
m
w x b 0
i 1
i i (4.23)
όπου m είναι η διάσταση του συνόλου των μη-γραμμικών μετασχηματισμών x , δηλ. η διάσταση του
χώρου των χαρακτηριστικών η οποία τυπικά είναι πολύ μεγαλύτερη από τη διάσταση n του χώρου των
εισόδων. Υποθέτοντας ότι 0 x 1, x , w 0 b και φ x 0 x ,1 x ,...,m x , η Εξ.(4.23) μπορεί
T
w x w φ x 0
i 0
i i
T
(4.24)
Θεωρώντας ότι με τη χρήση των συναρτήσεων απεικόνισης φ x το πρόβλημά μας έχει αναχθεί σε
γραμμικό με διαχωρίσιμα δεδομένα στο χώρο των χαρακτηριστικών και εργαζόμενοι με παρόμοιο τρόπο με
την περίπτωση Α, θα έχουμε τη λύση της συνάρτησης Lagrange για το σύνολο των βαρών με τη μορφή:
N
w t φ x
k 1
k k k (4.25)
t φ x φ x 0
k 1
k k
T
k (4.26)
K x k , x φT x k φ x (4.27)
m
K xk , x x x ,
i 0
i k i k 1, 2,..., N (4.28)
που ονομάζεται τρικ του πυρήνα (kernel trick). Επομένως, με τη βοήθεια της Εξ.(4.28) η επιφάνεια λήψης
απόφασης θα έχει την μορφή:
4-9
N
t K x , x 0
k 1
k k k (4.29)
N N N
1
min Q k mt t m K x , x m , έτσι ώστε
2
k 1 1 m 1
(4.30)
N
t
k 1
k k 0, k 0, k 1,..., N.
N
w* t x
k 1
*
k k k (4.31)
K x, x k xTk x
d
1
K x, x k exp 2 x x k
2
(4.32)
2 2
K x, x k tanh 1xTk x 2
Ο πρώτος πυρήνας της Εξ.(4.32) είναι πολυωνυμικής μορφής με βαθμό d και μετατόπιση τ, ο δεύτερος είναι
μορφής δικτύου ακτινωτής βάσης με τυπική απόκλιση σ και ο τρίτος είναι μορφής perceptron πολλαπλών
στρωμάτων. Σημειώστε ότι ενώ οι δύο πρώτοι πυρήνες ικανοποιούν τον περιορισμό του Mercer για όλο το
σύνολο των ελεύθερων παραμέτρων (d, τ, σ), δεν ισχύει το ίδιο για τον τρίτο πυρήνα και το σύνολο των
παραμέτρων 1, 2 .
4.4.4 Διάσταση VC
Μηχανές (βλ. αλγόριθμοι) μάθησης σε κάποιες περιπτώσεις χαρακτηρίζονται από έναν ακέραιο αριθμό, ο
οποίος καλείται διάσταση Vapnik-Chervonenkis (διαVC) (VC dimension (VCdim)). Η διαVC μιας
μηχανής συνήθως οριοθετεί, με όρους στατιστικής (Vapnik, 1995), την ικανότητα μηχανής για μάθηση όπως
εξηγείται παρακάτω. Ορίζουμε τη διαVC μιας μηχανής στη βάση της έννοιας του θρυμματισμού στη συνέχεια.
Χρησιμοποιούμε την ορολογία που εν μέρει παρουσιάζεται στην ενότητα 5.1.3. Συγκεκριμένα, έστω
X το σύνολο των δεδομένων ενδιαφέροντος. Μία έννοια c πάνω στο Χ ορίζεται ως ένα υποσύνολο του Χ, δηλ.
cX. Έστω C το σύνολο όλων των εννοιών τις οποίες δυνητικά μπορεί να μάθει μια συγκεκριμένη μηχανή
μάθησης. Εστιάζουμε το ενδιαφέρον μας σε διακριτά υποσύνολα S του Χ. Έστω DX το σύνολο των διακριτών
υποσυνόλων του Χ. Δοθέντος του συνόλου C εννοιών ορίζουμε τη συνάρτηση ΠC: DX 2 DX με τον τύπο
ΠC(S)= {cS| cC}. Κάθε στοιχείο του συνόλου ΠC(S) καλείται διχοτόμηση (dichotomy) του S. Εάν ισχύει
η ισότητα |ΠC(S)| = 2|S|, τότε λέμε ότι το υποσύνολο S θρυμματίζεται (shattered) από το σύνολο C. Με άλλα
λόγια, λέμε ότι το υποσύνολο S θρυμματίζεται από το C, εάν το C μπορεί να υλοποιήσει όλες τις δυνατές
διχοτομήσεις του S.
4-10
Η διαVC ορίζεται ως η μεγαλύτερη πληθικότητα (cardinality) ενός συνόλου SX το οποίο μπορεί
να θρυμματιστεί από το C. Προκειμένου να δείξουμε ότι η διαVC ενός συνόλου C είναι τουλάχιστον d, αρκεί
να παρουσιάσουμε ένα θρυμματισμένο σύνολο πληθικότητας d. Περαιτέρω, προκειμένου να δείξουμε ότι η
διαVC ενός συνόλου C είναι το πολύ d, αρκεί να δείξουμε ότι κανένα σύνολο πληθικότητας d+1 δεν μπορεί
να θρυμματιστεί (Kearns & Vazirani, 1994). Τα ακόλουθα παραδείγματα είναι ενδεικτικά.
Παράδειγμα Α
Ως σύνολο X δεδομένων θεωρήστε την ευθεία των πραγματικών αριθμών, ενώ ως σύνολο C εννοιών
θεωρήστε το σύνολο των (κλειστών) διαστημάτων της μορφής [a,b]. Το σύνολο C μπορεί να θρυμματίσει ένα
οποιοδήποτε σύνολο 2 σημείων, αλλά δεν μπορεί ποτέ να θρυμματίσει ένα σύνολο 3 σημείων, διότι δεν
μπορεί να πραγματοποιήσει τη διχοτόμηση που φαίνεται στο Σχήμα 4.5. Συνεπώς, η διάσταση VC σ’ αυτό το
πρόβλημα είναι διαVC = 2.
+ - +
Σχήμα 4.5 Ένα σύνολο τριών σημείων δεν μπορεί να θρυμματιστεί από το σύνολο C των διαστημάτων διότι η διχοτόμηση
του σχήματος δεν μπορεί να πραγματοποιηθεί.
Παράδειγμα Β
Ως σύνολο X δεδομένων θεωρήστε το σύνολο των σημείων στον Ευκλείδειο χώρο Rd, ενώ ως σύνολο C
εννοιών θεωρήστε τους γραμμικούς ημιχώρους, οι οποίοι ορίζονται από υπερ-επίπεδα στο χώρο Rd.
Συγκεκριμένα, για d= 2 (βλ. επίπεδο) ο αντίστοιχος γραμμικός ημιχώρος είναι ένα ημι-επίπεδο, όπως φαίνεται
στο Σχήμα 4.6(α). Παρατηρήστε ότι, από τη μια μεριά, υπάρχει τουλάχιστον ένα σύνολο τριών σημείων στο
επίπεδο το οποίο μπορεί να θρυμματιστεί χρησιμοποιώντας ημι-επίπεδα, όπως φαίνεται στο Σχήμα 4.6(α).
Από την άλλη μεριά, δεν υπάρχει ούτε ένα σύνολο τεσσάρων σημείων στο επίπεδο το οποίο να μπορεί να
θρυμματιστεί χρησιμοποιώντας ημι-επίπεδα, όπως φαίνεται στο Σχήμα 4.6 (β) και (γ). Συνεπώς, η διάσταση
VC σ’ αυτό το πρόβλημα είναι διαVC = 3.
Το Παράδειγμα Β μπορεί να επεκταθεί σε γενικό χώρο Rd, όπου προκύπτει διαVC= d+1. Συνεπώς,
ένα γραμμικό ΤΝΔ τύπου Perceptron με d εισόδους και 1 έξοδο αποτελεί μια μηχανή μάθησης με VC
διάσταση ίση με d+1.
+ + +
+ -
+ -
-
+
+
-
Σχήμα 4.6 (α) Τουλάχιστον ένα σύνολο τριών σημείων στο επίπεδο μπορεί να θρυμματιστεί με τη χρήση του συνόλου C
των ημι-επιπέδων. (β) και (γ) Καμιά από τις διχοτομήσεις των τεσσάρων σημείων που φαίνονται δεν μπορεί να
πραγματοποιηθεί χρησιμοποιώντας το σύνολο των ημι-επίπεδων.
4-11
Παράδειγμα Γ
Ως σύνολο X δεδομένων θεωρήστε το σύνολο των σημείων στο επίπεδο, ενώ ως σύνολο C εννοιών θεωρήστε
το σύνολο των ορθογώνιων παραλληλογράμμων. Παρατηρήστε ότι από τη μια μεριά υπάρχει τουλάχιστον
ένα σύνολο τεσσάρων σημείων στο επίπεδο το οποίο μπορεί να θρυμματιστεί χρησιμοποιώντας ορθογώνια
παραλληλόγραμμα, όπως φαίνεται στο Σχήμα 4.7(α). Από την άλλη μεριά δεν υπάρχει ούτε ένα σύνολο πέντε
σημείων στο επίπεδο το οποίο να μπορεί να θρυμματιστεί χρησιμοποιώντας ορθογώνια παραλληλόγραμμα.
Συγκεκριμένα, θεωρήστε το ελάχιστο ορθογώνιο παραλληλόγραμμο π το οποίο περιλαμβάνει όλα τα πέντε
σημεία στο επίπεδο, όπως φαίνεται στο Σχήμα 4.7 (β). Στη γενική περίπτωση, θα υπάρχει τουλάχιστον ένα
σημείο εντός του π στο οποίο τοποθετούμε την ετικέτα πλην (-), ενώ σε όλα τα άλλα τέσσερα σημεία
τοποθετούμε την ετικέτα συν (+). Η διχοτόμηση που προκύπτει δεν μπορεί να πραγματοποιηθεί. Συνεπώς η
VC διάσταση σ’ αυτήν την περίπτωση είναι διαVC = 4.
+
+
- +
-
- π
+ +
+
(α) (β)
Σχήμα 4.7 (α) Τουλάχιστον ένα σύνολο τεσσάρων σημείων στο επίπεδο μπορεί να θρυμματιστεί χρησιμοποιώντας το
σύνολο των ορθογώνιων παραλληλογράμμων. (β) Η διχοτόμηση των πέντε σημείων που φαίνονται δεν μπορεί να
πραγματοποιηθεί χρησιμοποιώντας το σύνολο των ορθογώνιων παραλληλογράμμων.
Η VC διάσταση χρησιμοποιείται στη στατιστική θεωρία μάθησης, διότι υπολογίζει ένα πιθανοτικό
άνω όριο στο σφάλμα εξέτασης ενός μοντέλου κατηγοριοποίησης σύμφωνα με την ακόλουθη εξίσωση:
h(log(2N / h) + 1) - log( / 4)
P ά έ ά ί 1 όπου h είναι
N
η VC διάσταση του μοντέλου κατηγοριοποίησης, 0 η 1 και N είναι το μέγεθος του υποσυνόλου
εκπαίδευσης (θεωρούμε ότι h << N).
4-12
τιμές σταθερών πόλωσης στους νευρώνες του κρυμμένου στρώματος, ενώ τα βάρη στην έξοδο του ΤΝΔ
υπολογίζονται με έναν μόνο πολλαπλασιασμό πινάκων. Μια ΜΑΜ μπορεί να μάθει με ακρίβεια Ν δείγματα
(Huang, 2003), ενώ η ταχύτητα μάθησης μπορεί να είναι ακόμα και χιλιάδες φορές μεγαλύτερη από την
ταχύτητα των συμβατικών ΤΝΔ τριών στρωμάτων με οπισθόδρομη μάθηση.
Πέρα από τα κλασικά μοντέλα ΥΝ, τα οποία λαμβάνουν ως εισόδους διανύσματα πραγματικών
αριθμών, έχουν προταθεί ΤΝΔ με εισόδους διανύσματα μιγαδικών αριθμών (Hirose, 2003), με σκοπό να
βελτιώσουν την αναπαράσταση των εισόδων τους. Παρά τα οριακά πλεονεκτήματα της αναπαράστασης με
μιγαδικούς αριθμούς τα συνηθισμένα μειονεκτήματα των ΤΝΔ, όπως είναι η ερμηνεία των απαντήσεών τους,
παραμένουν.
Αναφορικά με τα ασαφή συστήματα, έχουν προταθεί πολλές επεκτάσεις της έννοιας ασαφές σύνολο,
όπως για παράδειγμα τραχιά σύνολα (rough sets) (Pawlak, 1991), διαισθητικά ασαφή σύνολα (Atanassov,
2012) κ.ά. με μαθηματικό κυρίως ενδιαφέρον.
6 ο
5 ο
4 * ο ο
3 *
1 *
2 4 6 8 10
4.3) Ως σύνολο X δεδομένων θεωρήστε το σύνολο των σημείων μιας ευθείας, ενώ ως σύνολο C εννοιών
θεωρήστε όλες τις ημι-ευθείες. Υπολογίστε την διάσταση VC σ’ αυτό το πρόβλημα.
4.4) Βρείτε τον ορισμό του διαισθητικού συνόλου από τη βιβλιογραφία. Σχολιάστε πλεονεκτήματα και
μειονεκτήματα του διαισθητικού συνόλου σε σύγκριση με τα συνηθισμένα ασαφή σύνολα.
4.5) Να αναπτυχθεί στο MATLAB ο κατάλληλος κώδικας ο οποίος να υλοποιεί το κΠΓ μοντέλο.
Εφαρμόστε τον προκύπτοντα κώδικα για την κατηγοριοποίηση των δεδομένων του Iris dataset.
4.6) Η συζήτηση για τις ΜΔΣ περιορίστηκε σε προβλήματα κατηγοριοποίησης δυο κατηγοριών.
Προτείνετε τον τρόπο με τον οποίο οι ΜΔΣ μπορούν να εφαρμοστούν σε προβλήματα
κατηγοριοποίησης πολλών κατηγοριών (>2).
4.7) Να αναπτυχθεί στο MATLAB ο κατάλληλος κώδικας ο οποίος να υλοποιεί τη λειτουργία και την
εκπαίδευση μίας ΜΔΣ για την κατηγοριοποίηση διαχωρίσιμων δεδομένων δυο κατηγοριών.
4-13
Βιβλιογραφία Κεφαλαίου
Atanassov, Κ.Τ. (2012). On Intuitionistic Fuzzy Sets Theory. Berlin, Germany: Springer.
Boser, B.E., Guyon, I.M. & Vapnik, V.N. (1992). A training algorithm for optimal margin classifiers. In 5th
Annual Workshop on Computational Learning Theory (COLT'92), 144-152.
Broomhead, D.S. & Lowe, D. (1988). Multivariable functional interpolation and adaptive networks. Complex
Systems, 2, 321–355.
Cambria, E. (2013). Extreme learning machines. IEEE Intell. Syst., 28(6), 30-59.
Cortes, C. & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20, 273-297.
Cover, T.M. (1965). Geometrical and statistical properties of systems of linear inequalities with applications
in pattern recognition. IEEE Transactions on Electronic Computers, EC-14, 326-334.
Cristianini, N. & Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and Other Kernel-
based Learning Methods. Cambridge, UK: Cambridge University Press.
Domingos, P. (1996). Unifying instance-based and rule-based induction. Machine Learning, 24(2), 141-168.
Haykin, S. (1999). Neural Networks - A Comprehensive Foundation. 2nd Ed., New Jersey, USA: Prentice-
Hall.
Herbrich, R. (2002). Learning Kernel Classifiers: Theory and Algorithms. Cambridge, MA: The MIT Press.
Hirose A. (Ed.). (2003). Complex-Valued Neural Networks: Theories and Applications (Series on Innovative
Intelligence, 5). Singapore: World Scientific.
Huang, G.-B. (2003). Learning capability and storage capacity of two-hidden-layer feedforward networks.
IEEE Transactions on Neural Networks, 14(2), 274-281.
Huang, G.-B., Chen L. & Siew, C.-K. (2006). Universal approximation using incremental constructive
feedforward networks with random hidden nodes. IEEE Transactions on Neural Networks, 17(4), 879-
892.
Jain, A.K., Murty, M.N. & Flynn, P.J. (1999). Data clustering: a review. ACM Computing Surveys, 31(3),
264-323.
Jang, J.S.R., Sun, C.T. & Mizutani, E. (1997). Neuro-fuzzy and Soft Computing A Computational Approach
to Learning and Machine Intelligence. Upper Saddle River, NJ: Prentice Hall.
Kaburlasos, V.G. & Kehagias, Α. (2014). Fuzzy inference system (FIS) extensions based on lattice theory.
IEEE Transactions on Fuzzy Systems, 22(3), 531-546.
Kearns, M.J. & Vazirani, U.V. (1994). An Introduction to Computational Learning Theory. Cambridge, MA:
The MIT Press.
Kolodner, J. (1993). Case-Based Reasoning. San Mateo, CA: Morgan Kaufmann.
Looney, C.G. (1997). Pattern Recognition Using Neural Networks. New York, USA: Oxford University
Press.
Mercer, J. (1909). Functions of positive and negative type and their connection with the theory of integral
equations. Philos. Trans. Roy. Soc. London A, 209, 415-446.
Mitchell, T.M. (1997). Machine Learning. New York, NY: McGraw-Hill.
Mitra, S. & Hayashi, Y. (2000). Neuro-fuzzy rule generation: survey in soft computing framework. IEEE
Transactions on Neural Networks, 11(3), 748-768.
Mitra, S., Pal, S.K. & Mitra, P. (2002). Data mining in soft computing framework: A survey. IEEE
Transactions on Neural Networks, 13(1), 3-14.
Paredes, R. & Vidal, E. (2006). Learning weighted metrics to minimize nearest-neighbor classification error.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(7), 1100-1110.
Park, J. & Sandberg, I.W. (1991). Universal approximation using radial-basis-function networks. Neural
Computation, 3, 246-257.
Pawlak, Z. (1991). Rough Sets: Theoretical Aspects of Reasoning About Data. Boston, MA: Kluwer.
Pearl, J. (2000). Causality. Cambridge, UK: Cambridge University Press.
Poggio, T. & Girosi, F. (1990). Networks for approximation and learning. Proc. IEEE, 78(9), 1484-1497.
Schölkopf, B. & Smola, A.J. (2002). Learning with Kernels Support Vector Machines, Regularization,
Optimization, and Beyond. Cambridge, MA: The MIT Press.
Suykens, J.A.K., Gestel, T.V., De Brabanter, J., De Moor, B. & Vandewalle, J. (2002). Least Squares Support
Vector Machines. Singapore: World Scientific Publishing.
4-14
Theodoridis, S. & Koutroumbas, K. (2003). Pattern Recognition (2nd ed.). Amsterdam, The Netherlands:
Academic Press - Elsevier.
Vapnik, V. (1995). The Nature of Statistical Learning Theory. New York, USA: Springer.
Wikipedia, (2015). k-nearest neighbors algorithm. https://en.wikipedia.org/wiki/K-
nearest_neighbors_algorithm.
4-15
Κεφάλαιο 5: Μεθοδολογίες Στατιστικές, Πιθανοτήτων, Δυνατοτήτων
Πολλές μεθοδολογίες της κλασικής ΥΝ, συμπεριλαμβανομένων των ΤΝΔ, παρουσιάζονται ως στατιστικές
μεθοδολογίες. Σε ένα τέτοιο πλαίσιο, μεθοδολογίες στατιστικής μάθησης έχουν ιδιαίτερο ενδιαφέρον (Jain
κ.ά., 2000· Vapnik, 1999). Στη βάση θεωρητικών εργασιών, οι οποίες συσχετίζουν τη στατιστική με
πιθανότητες ή/και συναφείς έννοιες της ΥΝ (Kuncheva, 1996), αυτό το κεφάλαιο παρουσιάζει ενδεικτικά στο
προαναφερθέν πλαίσιο έναν αριθμό μεθοδολογιών της διευρυμένης ΥΝ.
Αλγόριθμος AdaBoost
Δεδομένα εισόδου: Μια ακολουθία (x1, y1),…,(xN, yN) από N κατηγοριοποιημένα δεδομένα, όπου X = { x1,…,
xN}, μια κατανομή D βαρών πάνω στα N δεδομένα, ένας ασθενής κατηγοριοποιητής WeakLearn, και ένας
ακέραιος αριθμός T, ο οποίος καθορίζει το πλήθος των επαναλήψεων.
2. Κάλεσε τον κατηγοριοποιητή WeakLearn με την κατανομή p t . Κατάγραψε την υπόθεση ht: X[0,1].
3. Υπολόγισε το σφάλμα εt της υπόθεσης ht ως εξής: t i 1 pit ht ( xi ) yi .
N
4. Όρισε t t / (1 t ) .
1 ht ( xi ) yi
5. Όρισε τα νέα βάρη ως wit 1 wit t
5-1
Η τελική υπόθεση είναι η ακόλουθη
1 T
log1 / βt
T
1, (log1 / βt )ht ( x)
h f ( x) t =1
2 t 1
0, διαφορετικά
5-2
1
για μεγάλες τιμές του n, ένα υποσύνολο Di, i{1,…,m} αναμένεται να έχει ένα ποσοστό 1 (περίπου)
e
63.2% των δεδομένων του διαφορετικά μεταξύ τους, ενώ τα υπόλοιπα δεδομένα αναμένεται να είναι
επαναλαμβανόμενα. Στη συνέχεια χρησιμοποιούνται m διαφορετικά μοντέλα, καθένα από τα οποία
εκπαιδεύεται με ένα διαφορετικό υποσύνολο Di, i{1,…,m}. Τελικά, οι έξοδοι των m μοντέλων
συνδυάζονται είτε με τον υπολογισμό του μέσου όρου αυτών (για εφαρμογές παλινδρόμησης), είτε με
ψηφοφορία (για εφαρμογές κατηγοριοποίησης).
Πολλαπλά μοντέλα τα οποία περιλαμβάνουν δένδρα αποφάσεων (decision trees) καλούνται
στοχαστικά δάση (random forests) (Breiman, 2001). Αυτή η μέθοδος συνδυάζει την τεχνική της πολλαπλής
δειγματοθέτησης με μια τυχαία επιλογή χαρακτηριστικών (Ho, 1998). Σημειώστε ότι τα στοχαστικά δάση
τυπικά διορθώνουν το πρόβλημα της αποστήθισης που χαρακτηρίζει τα δένδρα αποφάσεων.
y -
+
-
-
+ +
x
-
Σχήμα 5.1 Όλα τα σημεία εντός του ορθογώνιου παραλληλόγραμμου R θεωρούνται θετικά (+), ενώ όλα τα σημεία εκτός
του R θεωρούνται αρνητικά (-).
5-3
y -
+ -
- + R +
+
R
x
-
Σχήμα 5.2 Το R ορίζεται ως το ελάχιστο ορθογώνιο παραλληλόγραμμο το οποίο περιέχει όλα τα θετικά δείγματα (+).
Έστω η λωρίδα Τ η οποία αντιστοιχεί ακριβώς σε σφάλμα ε/4. Προφανώς η λωρίδα Τ εμπεριέχει τη
λωρίδα T. Παρατηρήστε ότι για κάθε πλευρά του R υπάρχει ένα ζεύγος λωρίδων Τ και T, άρα συνολικά
υπάρχουν τέσσερα ζεύγη από λωρίδες Τ και T.
Η πιθανότητα η επιλογή ενός σημείου p στο επίπεδο x-y να μην είναι πάνω στη λωρίδα Τ είναι
ακριβώς 1-ε/4. Άρα, η πιθανότητα όλες οι m ανεξάρτητες επιλογές σημείων να μην είναι πάνω στη λωρίδα Τ
είναι ακριβώς (1-ε/4)m. Συνεπώς, η πιθανότητα όλες οι m ανεξάρτητες επιλογές σημείων να μην είναι πάνω
στη λωρίδα Τ είναι το πολύ (1-ε/4)m. Τελικά, η πιθανότητα όλες οι m ανεξάρτητες επιλογές σημείων να μην
είναι πάνω σε κάποια από τις τέσσερις λωρίδες Τ είναι το πολύ 4(1-ε/4)m.
Επιλέγουμε έναν αριθμό m δειγμάτων, ο οποίος να ικανοποιεί τη σχέση 4(1-ε/4)m δ όπως εξηγείται
m
στη συνέχεια. Συγκεκριμένα, μπορούμε να επιλέξουμε ένα m έτσι ώστε να ισχύει 4e 4
.
m m
m
Χρησιμοποιώντας την γνωστή ανισότητα (1-x) e-x έπεται 4 1 4e 4 . Συνεπώς, για 4e 4 m
4
(4/ε)ln(4/δ) έπεται 4(1-ε/4) δ.
m
y -
Τ
T
+ + -
- +
R +
R
x
-
Σχήμα 5.3 Δοθέντος του (μικρού) σφάλματος ε, η λωρίδα Τ αντιστοιχεί ακριβώς σε σφάλμα ε/4. Υπάρχει ένας ελάχιστος
αριθμός m δειγμάτων ζευγών (p, R(p)) τέτοιος, ώστε το σφάλμα το οποίο αντιστοιχεί στη λωρίδα T να είναι λιγότερο από
ε/4.
5-4
Το προαναφερθέν παράδειγμα στη συνέχεια γενικεύεται, ώστε να οριστεί η έννοια του ΠΟΠ
χρησιμοποιώντας την ορολογία που εν μέρει παρουσιάζεται στην ενότητα 4.4.4. Συγκεκριμένα, έστω X το
σύνολο των δεδομένων που ενδιαφέρουν (σημειώστε ότι στο προηγούμενο παράδειγμα X ήταν το σύνολο
όλων των σημείων επάνω στο επίπεδο x-y). Μία έννοια c πάνω στο Χ ορίζεται ως ένα υποσύνολο του Χ, δηλ.
cX. Σημειώστε ότι στο προηγούμενο παράδειγμα μία έννοια c ήταν ένα ορθογώνιο παραλληλόγραμμο
επάνω στο επίπεδο x-y. Έστω C το σύνολο όλων των εννοιών τις οποίες δυνητικά μπορεί να μάθει μια
συγκεκριμένη μηχανή μάθησης. Συγκεκριμένα, στο προηγούμενο παράδειγμα C είναι το σύνολο όλων των
ορθογώνιων παραλληλόγραμμων επάνω στο επίπεδο x-y. Έστω ΕΧ(c, D) μια διαδικασία που ονομάζεται
μαντείο (oracle), η οποία κάθε φορά που καλείται επιστρέφει ένα ζεύγος (x, c(x)), όπου το στοιχείο xX
επιλέγεται σύμφωνα με την κατανομή D, με c(x)=1 αν και μόνο αν xc, διαφορετικά c(x)=0.
Λέμε ότι κάποιος αλγόριθμος L μπορεί να μάθει τη συλλογή C κατά ΠΟΠ, εάν ο αλγόριθμος L έχει
την ακόλουθη ιδιότητα: Για κάθε έννοια cC, για κάθε κατανομή D πάνω στο Χ, για κάθε ε(0,0.5) και
δ(0,0.5), εάν ο αλγόριθμος L μπορεί λαμβάνει δεδομένα ΕΧ(c, D), τότε με πιθανότητα τουλάχιστον 1-δ
μπορεί να υπολογίζει μια έννοια hC της οποίας το σφάλμα θα είναι μικρότερο από ε.
Σημειώστε ότι τεχνικές ΠΟΠ εφαρμόστηκαν με ορθογώνια παραλληλεπίπεδα σε περισσότερες των
δύο διαστάσεων. Επίσης, εκτός από τον Ευκλείδειο χώρο, τεχνικές ΠΟΠ έχουν εφαρμοστεί για την μάθηση
Boolean συναρτήσεων (Kearns κ.ά., 1994).
Υποθέτουμε ότι τα δείγματα επιλέγονται τυχαία ως εξής: Πρώτον, επιλέγεται μια κατηγορία wj με
πιθανότητα P(wj) και δεύτερον, επιλέγεται ένα δείγμα x με πιθανότητα p(x/wj,θj).
Συνεπώς, η πυκνότητα πιθανότητας για τα δείγματα δίδεται ως:
5-5
c
p(x|θ)= p(x|wj,θj)P(wj), (5.1)
j 1
όπου θ= (θ1,…,θc)t. Η παραπάνω συνάρτηση πυκνότητας πιθανότητας καλείται μίξη πυκνότητας (mixture
density), οι δεσμευμένες πυκνότητες p(x/wj,θj) καλούνται συστατικές πυκνότητες (πιθανότητας)
(component (probability) densities), και οι προγενέστερες πιθανότητες P(wj) καλούνται παράμετροι
ανάμιξης (mixing parameters). Κατ’ αρχάς θεωρούμε ότι το διάνυσμα θ είναι άγνωστο προς εύρεση. Στόχος
μας είναι μια εκτίμηση του διανύσματος παραμέτρων θ από δείγματα x. Όταν υπολογίσουμε το θ, τότε
μπορούμε να χρησιμοποιήσουμε έναν κατηγοριοποιητή, ο οποίος ενσωματώνει εμπειρία (a posteriori).
Προτού αναζητήσουμε συστηματικά έναν κατηγοριοποιητή θα μελετήσουμε τη δυνατότητα υπολογισμού του
διανύσματος παραμέτρων θ.
Ας υποθέσουμε ότι έχουμε στη διάθεσή μας απεριόριστα δείγματα x και έστω ότι υπολογίζουμε την
τιμή πιθανότητας p(x|θ) για κάθε θ. Εάν υπάρχει μια και μόνο τιμή του θ η οποία θα μπορούσε να παράγει τις
παρατηρούμενες τιμές για το p(x|θ), τότε μια λύση είναι δυνατή. Ωστόσο εάν διάφορες τιμές του θ μπορούν
να παράγουν τις παρατηρούμενες τιμές για το p(x|θ), τότε είναι αδύνατη η εύρεση μιας μοναδικής λύσης για
το θ. Συνεπεία των παραπάνω προτείνονται οι παρακάτω ορισμοί.
Μια πυκνότητα πιθανότητας p(x|θ) καλείται ανιχνεύσιμη (identifiable), εάν θ θ συνεπάγεται ότι
υπάρχει ένα x τέτοιο, ώστε p(x|θ) p(x|θ). Μια πυκνότητα πιθανότητας p(x|θ) καλείται μη ανιχνεύσιμη, εάν
δεν είναι δυνατός ο υπολογισμός ενός μοναδικού διανύσματος θ, ακόμη και για άπειρα διαθέσιμα δείγματα.
Παράδειγμα 1
Έστω ότι δείγματα επιλέγονται σύμφωνα με την παρακάτω δυαδική μίξη πυκνότητας:
1
1 x 1 (θ 1 θ 2 ) if x 1
P(x|θ)= θ1 (1-1)1-x + θ 2x (1-2)1-x = 2
2 2 1
1 (θ 1 θ 2 ) if x 0
2
Έστω ότι, κατά κάποιον τρόπο, γνωρίζουμε ότι P(x=1|θ) = 0.6, συνεπώς P(x=0|θ) = 0.4. Συνεπώς,
έχουμε υπολογίσει τη συνάρτηση P(x|θ) σε αυτό το παράδειγμα, αλλά δεν μπορούμε να υπολογίσουμε το
διάνυσμα θ=[θ1, θ2]. Το περισσότερο που μπορούμε να πούμε για το θ είναι θ1+θ2=1.2. Οπότε δεν μπορούμε
να γνωρίζουμε τις συστατικές πυκνότητες πιθανότητας σ’ αυτήν την περίπτωση.
Η εκτίμηση μεγίστης πιθανοφάνειας θ̂ είναι εκείνη η τιμή του θ, η οποία μεγιστοποιεί τη συνάρτηση
πιθανοφάνειας p(D|θ). Συγκεκριμένα, αν υποθέσουμε ότι η p(D|θ) είναι παραγωγίσιμη συνάρτηση του θ, τότε
προκύπτουν αναγκαίες συνθήκες για το θ̂ . Έστω l ο λογάριθμος της συνάρτησης πιθανοφάνειας και έστω
θi l ο ρυθμός μεταβολής του l ως προς το θ. Τότε:
n
l= ln p(D|θ)= ln p(xk|θ)
k 1
συνεπώς:
n
1 c
θi l= p ( x k | θ)
θ i p ( x k | w j , θ j ) P ( w j )
k 1 j 1
5-6
Εάν θεωρήσουμε:
τότε συνεπάγεται:
n n n
1 1
θi l= p(x | θ)
θi p(xk|θ)= P(wi | x k , θ) p(x | wi , θ i ) P( wi )
θi p(xk|θi)= P(wi|xk, θ) θi ln p(xk|θi).
k 1 k k 1 k k 1
n
P(wi|xk, θ) θi ln p(xk|θi) = 0, i= 1,…,c.
k 1
Ανάμεσα στις λύσεις των παραπάνω εξισώσεων για θ̂ i θα ψάξουμε να βρούμε την εκτίμηση μεγίστης
πιθανοφάνειας.
Μπορούμε εύκολα να γενικεύσουμε τα προηγούμενα αποτελέσματα, ώστε να συμπεριλάβουμε τις
προγενέστερες πιθανότητες P(wj) ανάμεσα στους αγνώστους. Στην τελευταία περίπτωση η αναζήτηση
βέλτιστης (μέγιστης) τιμής της συνάρτησης p(D|θ) περιλαμβάνει τα θ και P(wi), τα τελευταία υπόκεινται
στους παρακάτω περιορισμούς:
c
P(wi) 0, i=1,…c και P(wi) = 1.
i 1
Έστω ότι το Pˆ ( w j ) συμβολίζει την εκτίμηση της μέγιστης πιθανοφάνειας του P(wi), και έστω θ̂ i
συμβολίζει την εκτίμηση της μέγιστης πιθανοφάνειας του θi. Μπορεί να δειχθεί ότι, εάν η συνάρτηση
πιθανοφάνειας είναι παραγωγίσιμη και εάν Pˆ ( wi ) ≠0 για όλα τα i, τότε Pˆ ( wi ) και θ̂ i ικανοποιούν τις
παρακάτω ισότητες Εξ.(5.2) και Εξ.(5.3):
1 n
Pˆ ( wi ) = Pˆ ( wi | xˆ k , θˆ ) (5.2)
n k 1
n
Pˆ (wi | x k , θˆ ) θi ln p(x k | θˆ i ) =0 (5.3)
k 1
όπου,
p(x k | wi , θˆ i ) Pˆ ( wi )
Pˆ ( wi | x k , θˆ ) (5.4)
j 1 p(x k | w j , θˆ j ) Pˆ (w j )
c
Οι παραπάνω εξισώσεις έχουν την ακόλουθη ερμηνεία. Η Εξ.(5.2) δηλώνει ότι η εκτίμηση μέγιστης
πιθανοφάνειας της πιθανότητας μιας κατηγορίας ισούται με το μέσο όρο όλων των εκτιμήσεων μέγιστης
πιθανοφάνειας που υπολογίστηκαν από κάθε δείγμα, όπου η εκτίμηση την μέγιστης πιθανοφάνειας κάθε
δείγματος ζυγιάζεται εξίσου. Η Εξ.(5.4) τελικά σχετίζεται με το θεώρημα του Bayes. Να σημειωθεί όμως ότι
για την εκτίμηση της πιθανότητας της κατηγορίας wi ο αριθμητής στο δεξί μέλος της εξίσωσης εξαρτάται από
το θ̂ i , όχι όμως από ολόκληρο το θ̂ .
5-7
Η περίπτωση 1 είναι η απλούστερη. Η περίπτωση 2 είναι πιο ρεαλιστική, ενώ η περίπτωση 3 δεν
μπορεί να αντιμετωπιστεί με τεχνικές μεγίστης πιθανοφάνειας.
Περίπτωση I i P(wi) c
1 ?
2 ? ? ?
3 ? ? ? ?
1
ln p(x|wj,i) = -ln [(2)d/2|i|1/2] - (x-i)t Σ i1 (x-i),
2
k 1 P(wi | x k , μˆ )x k
n
μ̂ i = (5.5)
k 1 P(wi | x k , μˆ )
n
Η παραπάνω εξίσωση δείχνει ότι η εκτίμηση μεγίστης πιθανοφάνειας για το i είναι απλώς ένας
ζυγιασμένος μέσος όρος των δειγμάτων. Συγκεκριμένα, το βάρος του δείγματος xk αποτελεί μια εκτίμηση του
πόσο πιθανόν είναι ότι το δείγμα xk ανήκει στην κατηγορία “i”. Παραδείγματος χάρη, εάν το P(wi|xk, μ̂ )
συμβεί να είναι 1.0 για μερικά δείγματα και 0.0 για τα υπόλοιπα δείγματα, τότε το μ̂ i θα ισούται με το μέσο
όρο εκείνων των δειγμάτων που εκτιμήθηκαν ότι ανήκουν στην κατηγορία “i”.
Δυστυχώς η παραπάνω εξίσωση δε δίνει το μ̂ i ξεκάθαρα στο ένα μέλος της. Έτσι, αν στην ακόλουθη
έκφραση:
p(x k | wi , μˆ i ) P( wi )
P( wi | x k , μˆ )
p(x k | w j , μˆ j ) Pˆ (w j )
c
j 1
χρησιμοποιήσουμε την έκφραση p(x/wj, μ̂ i ) Ν( μ̂ i , i), προκύπτει ένα σύνολο πολυπλεγμένων μη-
γραμμικών εξισώσεων που δύσκολα επιλύονται. Επιπλέον, δεν υπάρχει μοναδική λύση, οπότε από το σύνολο
των υποψήφιων λύσεων που υπάρχουν θα πρέπει να επιλέξουμε εκείνη τη λύση που μεγιστοποιεί τη
συνάρτηση πιθανοφάνειας.
Εάν είχαμε στη διάθεσή μας κάποιες «καλές» αρχικές εκτιμήσεις μˆ i (0) για τις άγνωστες μέσες τιμές,
τότε θα μπορούσαμε να χρησιμοποιήσουμε την παρακάτω επαναληπτική φόρμουλα (τεχνική) για να
βελτιώσουμε τις εκτιμήσεις μας:
k 1 P(wi | x k , μˆ ( j ))x k
n
μˆ i ( j 1) = (5.6)
k 1 P(wi | x k , μˆ ( j ))
n
5-8
Η Εξ.(5.6) περιγράφει μια τεχνική αναρρίχησης λόφων για τη μεγιστοποίηση της συνάρτησης
πιθανοφάνειας. Συνεπώς, όταν ο παραπάνω αλγόριθμος συγκλίνει, το μόνο που μπορούμε να πούμε με
σιγουριά είναι ότι έχουμε βρει ένα τοπικό μέγιστο.
Παράδειγμα 2
Για να δείξουμε τι μπορεί να συμβεί κατά την αναρρίχηση λόφων σε τεχνικές μάθησης με ομαδοποίηση,
θεωρήστε μια μονοδιάστατη κανονική μίξη με δύο συνιστώσες:
1 1 2 1
p(x/μ1,μ2)= exp ( x 1 ) 2 exp ( x 2 ) 2
3
2 2 2
3 2
w1 w2
Χρησιμοποιώντας την παραπάνω μίξη με μ1= -2 και μ2= 2 επιλέχθηκαν τα 25 δείγματα που δείχνονται
στον Πίνακα 5.2. Χρησιμοποιήσαμε τα δείγματα του πίνακα για να υπολογίσουμε την ακόλουθη λογαριθμική
συνάρτηση πιθανοφάνειας:
n
l(μ1, μ2)= ln p( x k | 1 , 2 )
k 1
για διάφορες τιμές των μ1 και μ2. Η μέγιστη τιμή της l επιτυγχάνεται στη θέση ̂1 = -2.130 και ̂ 2 = 1.668, η
οποία είναι στην εγγύτητα της πραγματικής θέσης μ1= -2 και μ2= 2. Ωστόσο, η l επιτυγχάνει ακόμη ένα
(τοπικό) μέγιστο στη θέση ̂1 = 2.085 και ̂ 2 = -1.257. Η τελευταία λύση αντιστοιχεί στην εναλλαγή των μ1
και μ2. Σημειώστε ότι, εάν οι προγενέστερες πιθανότητες ήταν ίσες, τότε καμιά αλλαγή στην παραπάνω
λογαριθμική συνάρτηση πιθανοφάνειας δε θα παρατηρούνταν. Έτσι, όπως έχει σημειωθεί παραπάνω, όταν η
πυκνότητα μίξης δεν είναι ανιχνεύσιμη, τότε η λύση μέγιστης πιθανοφάνειας δεν είναι μοναδική.
k xk ω1 ω2 k xk ω1 ω2 k xk ω1 ω2
1 0.608 9 0.262 17 -3.458
2 -1.590 10 1.072 18 0.257
3 0.235 11 - 19 2.569
1.773
4 3.949 12 0.537 20 1.415
5 -2.249 13 3.240 21 1.410
6 2.704 14 2.400 22 -2.653
7 -2.473 15 - 23 1.396
2.499
8 0.672 16 2.608 24 3.286
25 -0.712
Εάν η Eξ.(5.6) χρησιμοποιηθεί για την επαναληπτική επίλυση της Eξ.(5.5), τα αποτελέσματα
εξαρτώνται από τις αρχικές τιμές των ̂1 (0) και ̂ 2 (0). Να σημειωθεί ότι για αρχικές τιμές ̂1 (0)= ̂ 2 (0) η
σύγκλιση σε κάποιο σαγματικό σημείο συμβαίνει σε ένα βήμα ακριβώς, διότι για τέτοιες αρχικές τιμές ισχύει
P(ωi|xk, ̂1 (0), ̂ 2 (0)) = P(ωi). Σε μια τέτοια περίπτωση η Eξ.(5.6) υπολογίζει τη μέση τιμή όλων των
δειγμάτων για τα ̂1 (0) και ̂ 2 (0) για όλες τις επόμενες επαναλήψεις.
Εάν τα μεγέθη i, Σi, και P(wi) είναι όλα άγνωστα, και δεν υπάρχουν περιορισμοί για τον πίνακα
συνδιασποράς, τότε η εκτίμηση μεγίστης πιθανοφάνειας θα μπορούσε να παράγει μη-αποδεκτές λύσεις, όπως
εξηγείται στο ακόλουθο παράδειγμα.
5-9
Παράδειγμα 3
Έστω p(x|μ,σ²) μιά κανονική μίξη με δύο συνιστώσες:
1 1 x 2 1 1
p(x|μ,σ²)= exp exp x 2 .
2 2 2 2 2 2
Η συνάρτηση πιθανοφάνειας n δειγμάτων που επιλέγονται σύμφωνα με την παραπάνω πυκνότητα
πιθανότητας ισούται με το γινόμενο n πυκνοτήτων p(x|μ,σ²). Θεωρήστε ότι επιλέγουμε μ= x1, έτσι ώστε:
1 1 1
p(x1|μ,σ²)= exp x12 .
2 2 2 2 2
Έτσι, εάν το σ τείνει στο μηδέν τότε η συνάρτηση πιθανοφάνειας γίνεται απεριόριστα μεγάλη, οπότε
η λύση μέγιστης πιθανοφάνειας είναι μη-αποδεκτή. Στην πράξη εστιάζουμε την προσοχή μας στο μεγαλύτερο
από τα πεπερασμένα τοπικά ελάχιστα της συνάρτησης πιθανοφάνειας. Τελικά χρησιμοποιούμε τις εξισώσεις
(5.2) - (5.4) για να εκτιμήσουμε τα μεγέθη i, Σi, και P(wi).
Όταν περιλαμβάνουμε στοιχεία του πίνακα Σi στο διάνυσμα παραμέτρων θi, πρέπει να θυμόμαστε ότι
μόνον τα μισά των στοιχείων εκτός διαγωνίου είναι ανεξάρτητα. Επιπλέον να σημειωθεί ότι είναι πιο βολικό
να χρησιμοποιούνται τα ανεξάρτητα στοιχεία του πίνακα i1 , παρά τα αντίστοιχα του πίνακα Σi. Ο
υπολογισμός της παραγώγου της συνάρτησης:
| i1 |1 / 2 1 t 1
ln p(xk|wi,θi) = ln (x k μ i ) i (x k μ i )
(2 )
d /2
2
ως προς i και i1 είναι σχετικά εύκολος. Έστω ότι xp(k) είναι το p στοιχείο του xk, μp(i) είναι το p στοιχείο
του μi, σpq(i) είναι το pq στοιχείο του Σi, και σpq(i) είναι το pq στοιχείο του i1 . Η παραγώγιση δίνει:
όπου δpq είναι το δέλτα του Kronecker. Με αντικατάσταση στην Εξ.(5.3) και πράξεις καταλήγουμε στις
παρακάτω εξισώσεις για τοπικά βέλτιστες εκτιμήσεις μ̂ i , ̂ i , και Pˆ ( wi ) μεγίστης πιθανοφάνειας:
1 n
Pˆ ( wi ) = Pˆ ( wi | x k , θ̂) (5.7)
n k 1
k 1 Pˆ (wi | x k , θˆ )x k
n
μ̂ i = (5.8)
k 1 Pˆ (wi | x k , θˆ )
n
k 1 Pˆ (wi | x k , θˆ )( x k μˆ i )(x k μˆ i )t
n
i1 = (5.9)
k 1 Pˆ (wi | x k , θˆ )
n
όπου:
5-10
p(x k | wi , θˆ i ) Pˆ ( wi )
Pˆ (wi | x k , θˆ ) = =
j 1 k j j ˆ ) Pˆ ( w )
c
p ( x | w , θ j
1
| ˆ i | 1 / 2 exp (x k μˆ i ) ˆ i1 (x k μˆ i ) Pˆ ( wi )
2 . (5.10)
1 ˆ
j 1| j | exp 2 (x k μˆ j ) i (x k μˆ j ) P(w j )
ˆ 1 / 2 ˆ 1
c
Από τις διάφορες τεχνικές που μπορούν να χρησιμοποιηθούν για επίλυση, η πλέον προφανής είναι να
χρησιμοποιηθούν αρχικές εκτιμήσεις των μ̂ i , ̂ i , και Pˆ ( wi ) , ώστε να υπολογιστεί μία τιμή Pˆ (wi | x k , θˆ ) από
την Εξ.(5.10), κατόπιν να χρησιμοποιηθούν οι εξισώσεις (5.7) - (5.9) για να υπολογιστούν βελτιωμένες
εκτιμήσεις των μ̂ i , ̂ i , και Pˆ ( wi ) , κ.λπ. Προφανώς τα τελικά αποτελέσματα εξαρτώνται από τις αρχικές
εκτιμήσεις που επιλέχτηκαν.
Α. Αλγόριθμος κ-μέσων
Στη συνέχεια παρουσιάζεται ένας δημοφιλής αλγόριθμος, ο οποίος χρησιμοποιείται για να απλοποιηθούν οι
παραπάνω υπολογισμοί και για να επιταχυνθεί η σύγκλιση. Ο συγκεκριμένος αλγόριθμος είναι ευρύτερα
γνωστός ως αλγόριθμος κ-μέσων (k-means algorithm), όπου κ είναι ο αριθμός των κέντρων των σμηνών
που τυπικά υπολογίζονται ως οι αντίστοιχοι μέσοι όροι (Duda κ.ά., 2001).
Από την Εξ.(5.10) είναι φανερό ότι η πιθανότητα Pˆ (wi | x k , θˆ ) είναι μεγάλη, όταν η απόσταση
1
Mahalanobis, η οποία δίδεται από την έκφραση (x k μˆ i )ˆ i1 (x k μˆ i ) , είναι μικρή. Ακολουθώντας την
2
προαναφερθείσα λογική, έστω ότι υπολογίζουμε την Ευκλείδεια απόσταση ||xk- μ̂ i ||2, κατόπιν βρίσκουμε το
μέσο μ̂ που είναι κοντύτερα στο xk, τέλος προσεγγίζουμε το Pˆ (w | x , θˆ ) ως:
m i k
1, για i m
Pˆ ( wi | x k , θˆ ) .
0, διαφορετικ ά
Υπο τις παραπάνω παραδοχές έπεται ο παρακάτω αλγόριθμος για τον υπολογισμό των μ1,μ2,…,μc.
Εδώ και στη συνέχεια χρησιμοποιούμε το γράμμα n για να συμβολίσουμε το γνωστό πλήθος των δειγμάτων
και χρησιμοποιούμε το γράμμα c για να συμβολίσουμε το γνωστό πλήθος των ομάδων.
5-11
Β. Αλγόριθμος Ασαφών κ-μέσων
Στον κλασικό αλγόριθμο κ-μέσων, κάθε δεδομένο υποτίθεται ότι ανήκει ακριβώς σε μια ομάδα. Σ’ αυτήν την
ενότητα θεωρούμε ότι κάθε δεδομένο μπορεί να ανήκει σε περισσότερες από μια ομάδες, για την ακρίβεια
θεωρούμε ότι κάθε δεδομένο χαρακτηρίζεται από ένα βαθμό ασαφούς συμμετοχής σε περισσότερες από μια
ομάδες. Οι προαναφερθέντες βαθμοί ασαφούς συμμετοχής θα είναι οι πιθανότητες Pˆ (wi | x k , θˆ ) , όπως
φαίνονται στην Εξ.(5.10), όπου θ̂ είναι το διάνυσμα παραμέτρων των ασαφών συναρτήσεων συμμετοχής.
Ο αλγόριθμος ασαφών κ-μέσων (fuzzy k-means algorithm) (Duda κ.ά., 2001) επιδιώκει την
ελαχιστοποίηση της ακόλουθης συνάρτησης κόστους:
c n
Jfuz= [ Pˆ (wi | x j , θˆ )]b || x j μ i ||2
i 1 j 1
όπου b είναι μια ελεύθερη παράμετρος που ρυθμίζει την ανάμιξη των διαφόρων ομάδων.
Οι πιθανότητες συμμετοχής στις ομάδες κανονικοποιούνται με τέτοιο τρόπο ώστε το συνολικό
άθροισμα να είναι μηδέν:
c
Pˆ (wi | x j ) 1 , j = 1,…,n, (5.11)
i 1
όπου για λόγους απλότητας δεν παρουσιάζεται η συναρτησιακή εξάρτηση από το θ̂ . Επιπλέον, στη συνέχεια
θα χρησιμοποιήσουμε το απλούστερο σύμβολο P̂j αντί του συμβόλου Pˆ ( w j ) . Τότε, σε (τοπικό) ελάχιστο της
συνάρτησης Jfuz θα ισχύουν:
J fuz J fuz
0 και 0,
i Pˆj
οπότε τελικά προκύπτουν οι παρακάτω λύσεις:
i , (5.12)
j 1[ Pˆ (wi | x j )]b
n
(1 / d ij )1 /(b 1)
Pˆ ( wi | x j ) και dij = ||xj-μi||2. (5.13)
(1 / d rj )1 /(b 1)
c
r 1
Επειδή οι εξισώσεις (5.12) και (5.13) σπάνια έχουν αναλυτικές λύσεις, τα κέντρα των ομάδων καθώς
και οι προγενέστερες πιθανότητες υπολογίζονται επαναληπτικά σύμφωνα με τον παρακάτω αλγόριθμο.
Προφανώς, ο κλασικός αλγόριθμος κ-μέσων είναι μια ειδική περίπτωση, όπου οι συναρτήσεις
συμμετοχής όλων των σημείων ικανοποιούν την παρακάτω σχέση:
5-12
Η χρήση πιθανοτήτων, ως ασαφών βαθμών συμμετοχής, μερικές φορές βελτιώνει τη σύγκλιση του
αλγόριθμου σε σχέση τον κλασικό αλγόριθμο κ-μέσων. Ένα μειονέκτημα του αλγόριθμου, όπως φαίνεται και
στην Εξ.(5.11), είναι ότι η πιθανότητα συμμετοχής ενός σημείου xj σε ένα σμήνος i εξαρτάται από τον αριθμό
των σμηνών, οπότε όταν ο προαναφερθείς αριθμός υπολογίζεται λανθασμένα, τότε προκύπτουν σοβαρά
προβλήματα.
Α. Κατηγοριοποιητής Bayes
Σ’ αυτήν την ενότητα θα προσεγγίσουμε το πρόβλημα της ομαδοποίησης με χρήση του τύπου του Bayes
(Looney, 1997). Συγκεκριμένα, εδώ θα θεωρήσουμε ότι το διάνυσμα είναι μια τυχαία μεταβλητή με γνωστή
προγενέστερη πυκνότητα πιθανότητας p() και θα χρησιμοποιήσουμε τα δεδομένα εκπαίδευσης στο σύνολο
D για να υπολογίσουμε τη μεταγενέστερη πυκνότητα πιθανότητας p(|D).
Επειδή οι πιθανότητες P(wi) των ομάδων είναι ανεξάρτητες από την επιλογή του συνόλου D των
δειγμάτων, δηλ. P(wi|D) = P(wi), έπεται ο ακόλουθος απλούστερος τύπος για τον κατηγοριοποιητή Bayes:
p(x| wi ,D) P( wi )
P( wi | x,D) . (5.14)
c
j 1
p ( x| w j , D ) P ( w j )
Για τον παραπάνω υπολογισμό είναι απαραίτητη η ποσότητα p(x|wi,D), η οποία υπολογίζεται ως:
p(x|wi,D)= p(x, θ | wi , D)dθ = p(x | θ, wi , D) p(θ | wi , D)dθ .
5-13
Σ’ αυτό το σημείο δύο απλοποιήσεις είναι δυνατές. Πρώτον, η επιλογή του x είναι ανεξάρτητη από το
δείγμα D, συνεπώς p(x|θ,wi,D) = p(x|wi,θi). Δεύτερον, γνώση για τις κατηγορίες όταν το x επιλέγεται δε δίνει
καμιά πληροφορία για την κατανομή του θ, συνεπώς p(θ|wi,D) = p(θ|D). Οπότε τελικά προκύπτει:
Δηλαδή, η καλύτερη εκτίμηση για το p(x|wi) υπολογίζεται ως ο μέσος όρος του p(x|wi,θi) ως προς το
θi. Το πόσο καλή είναι η προηγούμενη εκτίμηση εξαρτάται από τη συνάρτηση p(|D). Στη συνέχεια
μελετούμε τον υπολογισμό του p(|D).
p( D | θ ) p(θ )
p(|D)= . (5.16)
p( D| θ ) p(θ )dθ
Η ανεξαρτησία των δειγμάτων συνεπάγεται την ακόλουθη συνάρτηση πιθανοφάνειας:
n
p(D|)= p ( x k | θ) .
k 1
Συνεπώς, εάν Dn συμβολίζει το σύνολο των n δειγμάτων, η Εξ.(5.16) μπορεί να γραφεί στην
παρακάτω επαναληπτική μορφή:
Οι παραπάνω είναι οι βασικές εξισώσεις για μάθηση /ομαδοποίηση τύπου Bayes. Η Εξ.(5.16) δείχνει
τη σχέση ανάμεσα στη λύση Bayes και στη λύση με εκτίμηση μέγιστης πιθανοφάνειας. Ας υποθέσουμε ότι η
πιθανότητα p() είναι κατά προσέγγιση ομοιόμορφη στην περιοχή όπου η συνάρτηση πιθανοφάνειας p(D|)
μεγιστοποιείται. Τότε η p(|D) μεγιστοποιείται στο ίδιο σημείο. Εάν το μόνο σημαντικό μέγιστο συμβαίνει
στο σημείο θ = θ̂ και εάν, επιπλέον, η μέγιστη κορυφή είναι πολύ απότομη, τότε η Εξ.(5.15) συνεπάγεται:
p(x|wi,D) p(x|wi, θ̂ ),
p(x| w i ,θˆ i ) P ( w i )
P( w i | x,D) .
p(x| w j ,θˆ i ) P (w j )
c
j 1
Συνεπώς, υπό τις προαναφερθείσες συνθήκες, επιτρέπεται η χρήση της εκτίμησης μέγιστης
πιθανοφάνειας θ̂ σαν λύση με κατηγοριοποιητή τύπου Bayes.
Στο όριο για μεγάλο αριθμό δεδομένων η τεχνική μέγιστης πιθανοφάνειας και η μέθοδος Bayes
δίνουν τα ίδια (ή σχεδόν τα ίδια) αποτελέσματα, ενώ για μικρό αριθμό δεδομένων τα σχετικά αποτελέσματα
μπορεί να είναι διαφορετικά. Το τελευταίο οφείλεται στο ότι η τεχνική μέγιστης πιθανοφάνειας στοχεύει στον
υπολογισμό ενός ολικού μέγιστου θ̂ , ενώ η μέθοδος του Bayes υπολογίζει το ολοκλήρωμα επάνω σε όλο το
πεδίο ορισμού της παραμέτρου θ. Από υπολογιστική άποψη η τεχνική μέγιστης πιθανοφάνειας εφαρμόζεται,
συνήθως, ευκολότερα από τη μέθοδο του Bayes.
5-14
5.3 Τεχνικές της Θεωρίας Τεκμηρίων
Η θεωρία τεκμηρίων (evidence theory) προτάθηκε για το συγκερασμό διαφορετικών εκτιμήσεων
εμπειρογνωμόνων σε μια μόνο εκτίμηση με σκοπό τη λήψη μιας απόφασης, η οποία συνυπολογίζει με
ουσιαστικό τρόπο τις διαφορετικές εκτιμήσεις από τις οποίες προέκυψε. Για παράδειγμα, θεωρήστε ότι ένας
ασθενής λαμβάνει τις ακόλουθες εκτιμήσεις (βλ. γνώμες) δύο διαφορετικών γιατρών: Ο γιατρός-1 τον
πληροφορεί ότι πάσχει μόνον από την ασθένεια Α με πιθανότητα 60% ή μόνον από την ασθένεια Β με
πιθανότητα 30% ή μόνον από την ασθένεια Γ με πιθανότητα 10%. Ο γιατρός-2 τον πληροφορεί ότι πάσχει
μόνον από την ασθένεια Α με πιθανότητα 30% ή μόνον από την ασθένεια Β με πιθανότητα 20% ή μόνον από
την ασθένεια Γ με πιθανότητα 50%. Ο ασθενής οφείλει ο ίδιος να αποφασίσει ποια θεραπευτική αγωγή θα
ακολουθήσει. Η θεωρία τεκμηρίων προτείνει έναν τρόπο συγκερασμού των διαφορετικών εκτιμήσεων
(γνωμών) των ειδικών γιατρών ώστε να προκύψει μια μόνο εκτίμηση, βάσει της οποίας ο ασθενής θα λάβει
την τελική απόφαση.
Όταν πρόκειται για ένα τόσο σοβαρό θέμα όσο είναι η υγεία, το πιθανότερο είναι ότι οι περισσότεροι
άνθρωποι θα αναζητήσουν την γνώμη γιατρών που εμπιστεύονται, παρά θα καταφύγουν στη θεωρία
τεκμηρίων. Ωστόσο η θεωρία τεκμηρίων μπορεί να είναι πολύ χρήσιμη σε άλλες περιπτώσεις, όπως η
ακόλουθη. Έστω ότι κάποιο (ημι-)αυτόνομο ρομπότ, εφοδιασμένο με διάφορους ηλεκτρονικούς αισθητήρες,
πρέπει συχνά να αποφασίζει μόνο του τις πράξεις του στη βάση των δεδομένων από τους αισθητήρες του.
Έστω ότι, αναλόγως με το τι βρίσκεται εμπρός του, το ρομπότ θα κινηθεί είτε δεξιά είτε αριστερά. Υποθέστε,
όμως, ότι στη βάση των δεδομένων από διαφορετικούς ηλεκτρονικούς αισθητήρες το ρομπότ υπολογίζει μία
σημαντικά διαφορετική εκτίμηση ανά ηλεκτρονικό αισθητήρα σχετικά με το τι ακριβώς βρίσκεται εμπρός
του. Η θεωρία τεκμηρίων μπορεί, στη βάση όλων των διαθέσιμων (διαφορετικών) εκτιμήσεων, να υπολογίσει
μία μόνον εκτίμηση. Στη συνέχεια περιγράφεται η θεωρία τεκμηρίων και δίδονται παραδείγματα χρήσης της.
(basic belief assignment) ή ανάθεση μάζας πιθανότητας (probability mass assignment), με τις ακόλουθες
δύο ιδιότητες:
Β1. m() = 0, και
Β2.
A X
m( A) 1 .
Η ιδιότητα Β1 απαιτεί το κενό σύνολο () να έχει μάζα ίση με μηδέν, ενώ η ιδιότητα Β2 απαιτεί το
συνολικό άθροισμα όλων των μαζών να ισούται με ένα. Σημειώστε ότι η μάζα m(A) του υποσυνόλου AX
εκφράζει την πεποίθηση ότι η πραγματική κατάσταση ανήκει στο σύνολο A και όχι σε κάποιο συγκεκριμένο
υποσύνολο του A.
Οι δύο προαναφερθείσες συναρτήσεις συνδέονται με τη σχέση: pl(A) + bel(A) = 1, όπου A= X\A
είναι το συμπλήρωμα (complement) του Α. Η συνάρτηση πεποίθησης bel(.) μπορεί να υπολογιστεί από τις
μάζες σύμφωνα με τον παραπάνω ορισμό της. Αντιστρόφως, για πεπερασμένο A η συνάρτηση μάζας m(.)
μπορεί να υπολογιστεί ως ακολούθως:
m(A) = (1)
B| B A
| A B|
bel( B) ,
όπου |A-B| ισούται με τη διαφορά της πληθικότητας των δύο συνόλων A και B.
5-15
Το ακόλουθο απλό παράδειγμα δείχνει τον υπολογισμό των συναρτήσεων πεποίθησης και
λογικοφάνειας δοθείσης της συνάρτησης μάζας.
Παράδειγμα 4
Ένας αυτόπτης μάρτυρας καταθέτει με απόλυτη βεβαιότητα, ότι το χρώμα ενός αυτοκινήτου ήταν είτε
πράσινο, είτε μπλε, αλλά δεν είναι σίγουρος. Την ανάθεση βασικής πεποίθησής του (βλ. συνάρτηση μάζας)
την όρισε όπως φαίνεται στον ακόλουθο Πίνακα, όπου οι τιμές των συναρτήσεων πεποίθησης και
λογικοφάνειας υπολογίστηκαν από τους αντίστοιχους μαθηματικούς τύπους.
Τιμή συνάρτησης
μάζας πεποίθησης λογικοφάνειας
κανένα χρώμα 0 0 0
πράσινο 0.2 0.2 0.5
μπλέ 0.5 0.5 0.8
πράσινο ή μπλέ 0.3 1.0 1.0
Από τα προηγούμενα συμπεραίνουμε ότι για πεπερασμένο σύνολο αναφοράς X, αρκεί να γνωρίζουμε
μόνο μία από τις τρεις συναρτήσεις μάζα, πεποίθηση και λογικοφάνεια, προκειμένου να υπολογίσουμε τις
άλλες δύο συναρτήσεις. Έχει αποδειχθεί μαθηματικά ότι ισχύει η ανισότητα: bel(A) pl(A). Επιπλέον, έχει
συμφωνηθεί ότι η (κλασική) πιθανότητα P(A) επαληθεύει την ανισότητα: bel(A) P(A) pl(A).
Σε κάποιες περιπτώσεις, δύο διαφορετικές πηγές (π.χ. εμπειρογνώμονες ή/και ηλεκτρονικά
αισθητήρια όργανα) προτείνουν διαφορετικές συναρτήσεις μάζας. Σε μια τέτοια περίπτωση, και προκειμένου
να μπορέσουμε να λάβουμε μια απόφαση, οι δύο διαφορετικές συναρτήσεις μάζας συγχωνεύονται σε μία
συνάρτηση με το συνδυαστικό κανόνα του Dempster, όπως περιγράφεται στη συνέχεια.
Έστω m1: 2X[0,1] και m2: 2X[0,1] δύο συναρτήσεις μαζών. Ο συνδυαστικός κανόνας του
Dempster (Dempster’s rule of combination) υπολογίζει την από κοινού συνάρτηση μάζας (joint mass
function) m1,2= m1m2: 2X[0,1] έτσι, ώστε:
1) m1,2() = 0, και
1
2) m1,2(A) = (m1m2)(A) = m1 ( B)m2 (C ) , όπου K B
1 K B C A C
m1 ( B)m2 (C ) .
Το νόημα του παραπάνω συντελεστή κανονικοποίησης 1-Κ είναι να προκύψει μια συνάρτηση η
οποία ικανοποιεί τις δύο ιδιότητες Β1 και Β2 του ορισμού μιας συνάρτησης μάζας. Το ακόλουθο παράδειγμα
δείχνει πως ο συνδυαστικός κανόνας του Dempster οδηγεί σε «διαισθητικά» αποτελέσματα.
Υποθέστε ότι η Ελένη και ο Πάρης αποφασίζουν να παρακολουθήσουν μια ταινία επιλέγοντας από
συνολικά τρεις ταινίες Χ, Υ και Ζ που υπάρχουν. Η Ελένη εκφράζει την επιθυμία να παρακολουθήσει την
ταινία Χ με βεβαιότητα 99% και την ταινία Υ με βεβαιότητα 1%, ενώ ο Πάρης εκφράζει την επιθυμία να
παρακολουθήσει την ταινία Ζ με βεβαιότητα 99% και την ταινία Υ με βεβαιότητα 1%. Όταν συνδυάσουμε τις
επιθυμίες των δύο με το συνδυαστικό κανόνα του Dempster προκύπτουν μόνον τέσσερις μη-μηδενικοί όροι
που είναι οι ακόλουθοι (1) m1({X})m2({Y})= (m1m2)({})= (0.99)(0.01), (2) m1({X})m2({Z})=
(m1m2)({})= (0.99)(0.99), (3) m1({Y})m2({Y})= (m1m2)({Y})= (0.01)(0.01), και (4) m1({Y})m2({Z})=
(0.01)(0.01)
(m1m2)({})= (0.01)(0.99). Έπεται Κ= (1.01)(0.99), άρα (m1m2)({Y})= = 1. Με άλλα λόγια,
1 (1.01)(0.99)
η ταινία Υ τελικά επιλέγεται με βεβαιότητα 100%. Αυτό το αποτέλεσμα θεωρείται «διαισθητικό», διότι αυτή
είναι η ταινία την οποία συμφωνούν και οι δύο να παρακολουθήσουν.
Ωστόσο, ο συνδυαστικός κανόνας του Dempster δέχτηκε σοβαρή κριτική, διότι μπορεί να οδηγήσει
σε «μη-διαισθητικά» αποτελέσματα, όπως δείχνει και το ακόλουθο παράδειγμα. Έστω ότι ένας ασθενής
συμβουλεύεται δύο εξίσου αξιόπιστους γιατρούς. Ο πρώτος γιατρός εκτιμά ότι ο ασθενής είτε έχει κακοήθη
όγκο στον εγκέφαλο (με βεβαιότητα 99%), είτε πάσχει από μηνιγγίτιδα (με βεβαιότητα 1%), ενώ ο δεύτερος
5-16
γιατρός εκτιμά ότι ο ασθενής είτε έχει πάθει εγκεφαλική διάσειση (με βεβαιότητα 99%), είτε πάσχει από
μηνιγγίτιδα (με βεβαιότητα 1%). Εφαρμόζοντας το συνδυαστικό κανόνα του Dempster προκύπτει με
βεβαιότητα 100% ότι ο ασθενής πάσχει από μηνιγγίτιδα. Το προαναφερθέν αποτέλεσμα θεωρείται «μη-
διαισθητικό», διότι αν και οι δύο γιατροί συμφωνούν ότι το ενδεχόμενο μηνιγγίτιδας είναι αμελητέο,
εντούτοις ο συνδυαστικός κανόνας του Dempster μας οδηγεί στο συμπέρασμα ότι ο ασθενής πάσχει από
μηνιγγίτιδα με 100% βεβαιότητα.
Ένας τρόπος αποφυγής «μη-διαισθητικών» αποτελεσμάτων είναι να ερμηνεύεται ο συνδυαστικός
κανόνας του Dempster ως μια μέθοδος συγκερασμού περιορισμών στις πεποιθήσεις (Jøsang & Simon, 2012).
Έχει υποστηριχτεί η άποψη ότι η θεωρία τεκμηρίων των Dempster & Shafer είναι μια γενίκευση της
θεωρίας πιθανοτήτων (και τελικά του τύπου του Bayes), όπως εξηγείται στη συνέχεια. Θα γνωρίσουμε στην
ενότητα 7.3.2 ότι ένας χώρος πιθανότητας (probability space) επαληθεύει τις ιδιότητες Β1 και Β2 μιας
συνάρτησης μάζας. Επιπλέον, ένας χώρος πιθανότητας απαιτεί την ισότητα m(A) + m(A) = 1, ενώ μια
συνάρτηση μάζας δεν έχει τέτοια απαίτηση. Ο πρακτικός αντίκτυπος φαίνεται στο ακόλουθο παράδειγμα.
Έστω ότι το ενδεχόμενο χρώμα ενός αυτοκίνητου ανήκει αποκλειστικά στο σύνολο {κόκκινο,
πράσινο, μπλε} και κάποιος αυτόπτης μάρτυρας καταθέτει ότι το χρώμα του αυτοκίνητου είναι είτε πράσινο,
είτε μπλε. Από τη μια μεριά, το πιθανοτικό μοντέλο απαιτεί την ισότητα «πιθανότητα(πράσινο ή μπλε) =
πιθανότητα(πράσινο) + πιθανότητα(μπλε)», ενώ από την άλλη μεριά, για το μοντέλο πεποιθήσεων μπορεί να
ισχύει είτε η ισότητα «πιθανότητα(πράσινο ή μπλε) = πιθανότητα(πράσινο) + πιθανότητα(μπλε)», είτε η
ανισότητα «πιθανότητα(πράσινο ή μπλε) ≠ πιθανότητα(πράσινο) + πιθανότητα(μπλε)». Σε κάθε περίπτωση η
θεωρία τεκμηρίων θα πρέπει να χρησιμοποιείται προσεκτικά.
Μια συνάρτηση μάζας m: 2X[0,1] τυπικά ορίζεται πάνω στο δυναμοσύνολο πλέγμα (2X,) ενός
γενικού συνόλου αναφοράς X. Σημειώστε ότι έχουν προταθεί επεκτάσεις της θεωρίας τεκμηρίων,
μαθηματικού κυρίως ενδιαφέροντος, όπου μια συνάρτηση μάζας m: L[0,1] ορίζεται σε γενικό πλέγμα (L,⊑)
έτσι, ώστε ο συνδυαστικός κανόνας του Dempster να ισχύει (Grabisch, 2009).
0.8
R
0.5
0.2 0.7 1
5-17
5.2) Να αποδειχθεί ότι εάν η συνάρτηση πιθανοφάνειας είναι παραγωγίσιμη, και εάν Pˆ ( wi ) ≠0 για όλα
τα i, τότε Pˆ ( wi ) και θ̂ i ικανοποιούν τις ισότητες Εξ.(5.2) και Εξ.(5.3)
1 x
5.3) Στο Παράδειγμα 1 δείγματα επιλέγονται σύμφωνα με τη μίξη πυκνότητας P(x|θ)= θ (1-1)1-x +
2 1
1
1 x (θ 1 θ 2 ) if x 1
θ 2 (1-2) = 2
1-x
, με P(x=1|θ) = 0.6 και τελικά επισημάνθηκε ότι «το
2 1
1 (θ 1 θ 2 ) if x 0
2
περισσότερο που μπορούμε να πούμε για το θ είναι θ1+θ2=1.2». Πώς αιτιολογείτε την
προαναφερθείσα επισήμανση;
5.4) Να αναπτυχθεί στο MATLAB ο κατάλληλος κώδικας που υλοποιεί τον αλγόριθμο κ-μέσων.
5.5) Να αναπτυχθεί στο MATLAB ο κατάλληλος κώδικας που υλοποιεί τον αλγόριθμο ασαφών κ-
μέσων.
5.6) Έστω ότι το ενδεχόμενο χρώμα ενός αυτοκίνητου ανήκει αποκλειστικά στο σύνολο {(Κ)όκκινο,
(Π)ράσινο, (Μ)πλε}. Δύο αυτόπτες μάρτυρες καταθέτουν αντικρουόμενες μαρτυρίες δίνοντας δύο
διαφορετικές συναρτήσεις μάζας όπως φαίνεται στον ακόλουθο Πίνακα.
Χρησιμοποιήστε το συνδυαστικό κανόνα του Dempster για να υπολογίσετε την από κοινού
συνάρτηση μάζας m1,2= m1m2. Ποια είναι η πιθανότερη εκδοχή χρώματος του αυτοκινήτου
σύμφωνα με τη συνάρτηση μάζας m1,2;
5-18
Βιβλιογραφία
Breiman, L. (1996). Bagging Predictors. Machine Learning, 24(2), 123-140.
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32.
Breiman, L., Friedman, J.H., Olshen, R.A. & Stone, C.J. (1998). Classification and Regression Trees. Boca
Raton, FL: Chapman & Hall /CRC.
Dempster, A.P. (1967). Upper and lower probabilities induced by a multivalued mapping. The Annals of
Mathematical Statistics, 38(2), 325–339.
Duda, R., Hart, P.E. & Stork, D.G. (2001). Pattern Classification (2nd edition). New York, NY: Wiley & Sons
– A Wiley-Interscience Publication.
Freund, Y. & Schapire, R.E. (1997). A decision-theoretic generalization of on-line learning and an application
to boosting. J. of Computer and System Sciences, 55, 119-139.
Freund, Y. & Schapire, R.E. (1999). A short introduction to boosting. J. Japan Soc. Artificial Intelligence,
14(5), 771-780.
Grabisch, M. (2009). Belief functions on lattices. International Journal of Intelligent Systems, 24(1), 76-95.
Ho, T.K. (1998). The Random Subspace Method for Constructing Decision Forests. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 20(8), 832–844.
Jain, A.K., Duin, R.P.W. & Mao, J. (2000). Statistical pattern recognition: a review. IEEE Transactions on
Pattern Analysis Machine Intelligence, 22(1), 4-37.
Jøsang, A. & Simon, P. (2012). Dempster's rule as seen by little colored balls. Computational Intelligence,
28(4), 453-474.
Kearns, M.J. & Vazirani, U.V. (1994). An Introduction to Computational Learning Theory. Cambridge, MA:
The MIT Press.
Kearns, M., Li, M. & Valiant, L. (1994) Learning Boolean formulas. Journal of the Association of Computing
Machinery, 41(6), 1298-1328.
Kittler, J., Hatef, M., Duin, R.P.W. & Matas, J. (1998). On combining classifiers. IEEE Transactions on
Pattern Analysis Machine Intelligence, 20(3), 226-239.
Kuncheva, L.I. (1996). On the equivalence between fuzzy and statistical classifiers. Intl. J. Uncertainty,
Fuzziness and Knowledge-Based Systems, 4(3), 245-253.
Kuncheva, L.I. (2004). Combining Pattern Classifiers: Methods and Algorithms. Cambridge, UK: Wiley-
Interscience.
Long, P.M. & Tan, L. (1998). PAC learning axis-aligned rectangles with respect to product distributions from
multiple-instance examples. Machine Learning, 30(1), 7-21.
Looney, C.G. (1997). Pattern Recognition Using Neural Networks. New York, NY: Oxford University Press.
Opitz, D. & Maclin, R. (1999). Popular ensemble methods: an empirical study. J. Artificial Intelligence
Research, 11, 169-198.
Pearson, K. (1894). Contributions to the mathematical theory of evolution. Phil. Trans. Roy. Soc. London A,
185, 71-110.
Schapire, R.E. (1990). The strength of weak learnability. Machine Learning, 5(2), 197-227.
Shafer, G. (1976). A Mathematical Theory of Evidence. Princeton, NJ: Princeton University Press.
Tuia, D., Volpi, M., Copa, L., Kanevski, M. & Muñoz-Marí, J. (2011). A survey of active learning algorithms
for supervised remote sensing image classification. IEEE Journal of Selected Topics in Signal
Processing, 5(3), 606-617.
Valiant, L.G. (1984). A theory of the learnable. Comm ACM, 27(11), 1134-1142.
Vapnik, V.N. (1999). An overview of statistical learning theory. IEEE Transactions on Neural Networks,
10(5), 988-999.
Zhou, Z.-H. (2012). The term boosting refers to a family of algorithms that are able to convert weak learners
to strong learners. Ensemble Methods: Foundations and Algorithms (p. 23). Boca Raton, FL: Chapman
& Hall /CRC.
5-19
Κεφάλαιο 6: Μεθοδολογίες με Γράφους
Σε πολλές περιπτώσεις στα δεδομένα του προβλήματος υπάρχει δομή η οποία μπορεί να αναπαρασταθεί με
έναν γράφο. Απόψεις της κλασικής θεωρίας γράφων (graph theory) παρουσιάζονται από το Μανωλόπουλο
(2000). Στο πλαίσιο αυτού του βιβλίου ένας γράφος μπορεί να μελετηθεί ως μια δυαδική σχέση RP2 στο
Καρτεσιανό γινόμενο PP, όπως περιγράφεται στο Παράρτημα του Κεφαλαίου 7. Στο προαναφερθέν πλαίσιο
σημειώστε ότι ένα πλέγμα, ως μια συγκεκριμένη δυαδική σχέση εφοδιασμένη με χρήσιμα μαθηματικά
εργαλεία, μπορεί να χρησιμοποιηθεί για μελέτη ειδικών κατηγοριών γράφων, π.χ. δένδρων, όπως
περιγράφεται στο Κεφάλαιο 7. Στη συνέχεια παρουσιάζονται επιλεγμένες μεθοδολογίες με γράφους.
6.1.1 Συμπερασμός με ΔΒ
Ένα ΔΒ υποστηρίζει τους ακόλουθους δύο τύπους συμπερασμού:
(α) Συμπερασμό πρόβλεψης (prediction) για έναν κόμβο Xi χρησιμοποιώντας γνώση των γονέων κόμβων
του Xi ή/και άλλων κόμβων συνδεδεμένων με τους γονείς κόμβους του Xi Αυτός ο συμπερασμός
εναλλακτικά καλείται συλλογιστική από πάνω προς τα κάτω (top-down reasoning).
(β) Συμπερασμό διάγνωσης (diagnosis) για έναν κόμβο Xi χρησιμοποιώντας γνώση των παιδιών κόμβων
του Xi ή/και άλλων κόμβων συνδεδεμένων με τα παιδιά κόμβους του Xi Αυτός ο συμπερασμός
εναλλακτικά καλείται συλλογιστική από κάτω προς τα πάνω (bottom-up reasoning).
Στη συνέχεια παρουσιάζουμε ένα παράδειγμα συμπερασμού διάγνωσης με αναφορά στο Σχήμα 6.1.
Συγκεκριμένα, έστω ότι ένας άνθρωπος υποφέρει από πόνο στη μέση. Χρησιμοποιώντας συλλογιστική από
κάτω προς τα πάνω μπορούμε να υπολογίσουμε την πεποίθηση ότι υπάρχει μη-αναπαυτική καρέκλα στο
γραφείο, ως ακολούθως:
6-1
P ( T , T )
P(Κ=T|Π=T)= , όπου
P ( T )
P(Κ=T,Π=T)= {T , F }
P( T )P() P( | T ) P( | , T ) P( T | ) , και
P(Π=T)= {T , F }
P( )P() P( | ) P( | , ) P( T | ) .
Σημειώστε ότι τα ΔΒ είναι δημοφιλή σε εφαρμογές στατιστικής, μηχανικής μάθησης και TN.
Κ P(Σ=Τ|Κ) P(Σ=F|Κ)
Τ 0.9 0.1
F 0.01 0.99
Κ Α P(Μ=Τ|Κ,Α) P(Μ=F|Κ,Α)
Συνεργάτης (Σ) Μέση (Μ) Τ Τ 0.9 0.1
Τ F 0.2 0.8
F Τ 0.9 0.1
Μ P(Π=Τ|Μ) P(Π=F|Μ) F F 0.01 0.99
Τ 0.7 0.3
F 0.1 0.9
Πόνος (Π)
6-2
ουρανός
ηλιόλουστος βροχερός
συννεφιασμένος
υγρασία άνεμος
Σχήμα 6.2 Δένδρο απόφασης για το αν θα πάμε περίπατο ανάλογα με τις καιρικές συνθήκες. Τα φύλλα του δένδρου
παριστάνονται με διακεκομμένο περίγραμμα.
1. Το σύνολο Τ περιλαμβάνει ένα ή περισσότερα δεδομένα τα οποία ανήκουν σε μία μόνον κατηγορία,
έστω Cj. Σ’ αυτήν την περίπτωση το δένδρο απόφασης είναι ένα φύλλο, το οποίο αντιστοιχεί στην
κατηγορία Cj.
2. Το σύνολο Τ είναι κενό. Σ’ αυτήν την περίπτωση θεωρούμε ότι το δένδρο απόφασης είναι και πάλι
ένα φύλλο, το οποίο αντιστοιχεί σε μια κατηγορία, που τυπικά προσδιορίζεται από την πλειοψηφία
των δεδομένων του γονέα (κόμβου) στο δένδρο.
3. Το σύνολο Τ περιλαμβάνει δεδομένα τα οποία ανήκουν σε περισσότερες από μία κατηγορίες. Στόχος
είναι ο διαμερισμός (partition) του συνόλου Τ σε υποσύνολα, των οποίων όλα τα δεδομένα ανήκουν
σε μία μόνον κατηγορία, όπως περιγράφεται στη συνέχεια. Συγκεκριμένα, επιλέγουμε μια κατάλληλη
δοκιμασία (test), η οποία τυπικά χρησιμοποιεί ένα μόνον γνώρισμα, με ένα μόνον αποτέλεσμα στο
σύνολο {O1, O2,…, On}. Μ’ αυτόν τον τρόπο το σύνολο Τ διαμερίζεται σε υποσύνολα Τ1, Τ2,…, Τn,
όπου το υποσύνολο Ti περιλαμβάνει όλα τα δεδομένα του T για τα οποία προέκυψε το αποτέλεσμα
Οi. Εν κατακλείδι, το δένδρο απόφασης περιλαμβάνει (α) έναν κόμβο απόφασης όπου εκτελείται η
δοκιμασία που επιλέχθηκε και (β) έναν κλάδο για κάθε ένα αποτέλεσμα O1, O2,…, On.
Οι προαναφερθείσες τρεις περιπτώσεις εξετάζονται εκ νέου για κάθε νέο κόμβο στο δένδρο, ώσπου
να προκύψουν φύλλα τα οποία αντιστοιχούν σε μία μόνον κατηγορία. Στη συνέχεια παρουσιάζουμε ένα απλό
παράδειγμα υπολογισμού δένδρου απόφασης. Θεωρήστε το μικρό σύνολο Τ δεδομένων στο Σχήμα 6.3 με
τέσσερα γνωρίσματα και δύο δυνατές κατηγορίες.
Επειδή όλα τα δεδομένα στο Σχήμα 6.3 ανήκουν σε περισσότερες από μία κατηγορίες, θα
χρησιμοποιήσουμε μια υπολογιστική τεχνική τύπου διαίρει-και-βασίλευε προκειμένου να προκύψουν
υποσύνολα, των οποίων τα δεδομένα ανήκουν σε μία μόνον κατηγορία. Για το σκοπό αυτό έστω ότι
επιλέγουμε μια δοκιμασία με βάση το (πρώτο) γνώρισμα «ουρανός» για το οποίο υπάρχουν τρία δυνατά
αποτελέσματα: «ηλιόλουστος», «συννεφιασμένος» και «βροχερός». Από την τελευταία στήλη παρατηρούμε
ότι μόνον το υποσύνολο δεδομένων που αντιστοιχούν στο αποτέλεσμα «συννεφιασμένος» ανήκει όλο σε μία
κατηγορία (βλ. «περίπατος»), ενώ το υποσύνολο δεδομένων είτε του αποτελέσματος «ηλιόλουστος», είτε του
αποτελέσματος «βροχερός» ανήκει σε δύο κατηγορίες (βλ. «περίπατος» και «όχι περίπατος»).
Το πρώτο υποσύνολο, δηλ. αυτό που αντιστοιχεί στο αποτέλεσμα «ηλιόλουστος», μπορεί να
διαμεριστεί περαιτέρω αν επιλέξουμε μια δοκιμασία με βάση το (τρίτο) γνώρισμα «υγρασία» με δύο δυνατά
αποτελέσματα: «υγρασία 75%» και «υγρασία > 75%». Ενώ, το τρίτο υποσύνολο, δηλ. αυτό που αντιστοιχεί
στο αποτέλεσμα «βροχερός», μπορεί να διαμεριστεί περαιτέρω, αν επιλέξουμε μια δοκιμασία με βάση το
(τέταρτο) γνώρισμα «άνεμος» με δύο δυνατά αποτελέσματα: «δυνατός» και «ασθενής». Μετά από τις
προαναφερθείσες δύο δοκιμασίες προκύπτουν τα υποσύνολα διαμερισμού στο Σχήμα 6.4. Το αντίστοιχο
6-3
δένδρο απόφασης φαίνεται στο Σχήμα 6.5. Παρατηρήστε ότι το δένδρο στο Σχήμα 6.5 συμφωνεί με το δένδρο
στο Σχήμα 6.2. Ωστόσο η σημαντική διαφορά είναι ότι το δένδρο απόφασης στο Σχήμα 6.2 δόθηκε από
κάποιον εμπειρογνώμονα, ενώ το δένδρο απόφασης στο Σχήμα 6.5 υπολογίστηκε με επαγωγή από
καταγεγραμμένα δεδομένα. Στη συνέχεια μελετάμε τρόπους επιλογής κατάλληλων δοκιμασιών με σκοπό τον
υπολογισμό όσο το δυνατόν μικρότερων δένδρων απόφασης.
Σχήμα 6.3 Ένα μικρό σύνολο Τ δεδομένων για την επαγωγή ενός δένδρου απόφασης.
6-4
ουρανός = ηλιόλουστος
υγρασία 75%
ουρανός θερμοκρασία (oC) υγρασία (%) άνεμος κατηγορία
ηλιόλουστος 20 70 δυνατός περίπατος
ηλιόλουστος 18 70 ασθενής περίπατος
ουρανός = συννεφιασμένος
ουρανός θερμοκρασία (oC) υγρασία (%) άνεμος κατηγορία
συννεφιασμένος 19 90 δυνατός περίπατος
συννεφιασμένος 26 78 ασθενής περίπατος
συννεφιασμένος 17 65 δυνατός περίπατος
συννεφιασμένος 25 75 ασθενής περίπατος
ουρανός = βροχερός
άνεμος = δυνατός
ουρανός θερμοκρασία (oC) υγρασία (%) άνεμος κατηγορία
βροχερός 19 80 δυνατός όχι περίπατος
βροχερός 15 70 δυνατός όχι περίπατος
άνεμος = ασθενής
ουρανός θερμοκρασία (oC) υγρασία (%) άνεμος κατηγορία
βροχερός 20 80 ασθενής περίπατος
βροχερός 18 80 ασθενής περίπατος
βροχερός 19 96 ασθενής περίπατος
ουρανός = ηλιόλουστος:
υγρασία 75%: περίπατος
υγρασία > 75%: όχι περίπατος
ουρανός = συννεφιασμένος: περίπατος
ουρανός = βροχερός:
άνεμος = δυνατός: όχι περίπατος
άνεμος = ασθενής: περίπατος
Σχήμα 6.5 Δένδρο απόφασης που αντιστοιχεί στο διαμερισμό του Σχήματος 6.4.
6-5
Έστω ότι είναι δυνατόν να συμβούν n πιθανά γεγονότα A1,…,An με πιθανότητες P1,…,Pn, αντίστοιχα.
Τότε ως εντροπία (entropy), συμβολικά info(A1,…,An), ορίζεται ο μέσος όρος της πληροφορίας όλων των
n
γεγονότων, δηλ. info(A1,…,An) = Pi log 2 ( Pi ) . Τα προηγούμενα χρησιμοποιούνται στη συνέχεια για να
i 1
οριστεί μια ευρετική συνάρτηση κέρδους.
Έστω ένα σύνολο Τ δεδομένων πληθικότητας |Τ| και έστω freq(Cj,T) ο συνολικός αριθμός των
δεδομένων της κατηγορίας Cj, j{1,…,k}. Σύμφωνα με τα προηγούμενα, θεωρούμε ότι η κατηγορία Cj
freq(C j , T )
μεταφέρει πληροφορία ίση με log 2 bits. Άρα, η εντροπία του συνόλου των κατηγοριών στο
|T |
σύνολο Τ είναι:
k freq(C , T )
freq(C j , T )
info(T)=
j
log 2 .
j 1 |T | |T |
Στη συνέχεια υπολογίζουμε τη μέση πληροφορία στο διαμερισμό του συνόλου Τ σε n υποσύνολα
n
|T |
Τ1,…,Tn ως αποτέλεσμα εφαρμογής μιας δοκιμασίας X: infoX(T)= i info(Ti ) . Η ποσότητα gain(X) =
i 1 | T |
info(T) - infoX(T) ονομάζεται κέρδος πληροφορίας (information gain) ή εναλλακτικά ονομάζεται αμοιβαία
πληροφορία (mutual information), όταν το σύνολο T διαμερίζεται με τη δοκιμασία X. Η επιδίωξή μας είναι
να επιλέξουμε μια δοκιμασία η οποία να μεγιστοποιεί το κέρδος πληροφορίας.
Θεωρήστε το σύνολο T των δεδομένων στο Σχήμα 6.3. Υπάρχουν δύο κατηγορίες: η κατηγορία
«περίπατος» με 9 δεδομένα και η κατηγορία «όχι περίπατος» με 5 δεδομένα. Η εντροπία του συνόλου T είναι
9 9 5 5
info(T) = log 2 log 2 = 0.940 bits.
14 14 14 14
Χρησιμοποιώντας το γνώρισμα «ουρανός» ως δοκιμασία X διαμερίζουμε το σύνολο T σε τρία
5 2 2 3 3 4 4 4 0 0
υποσύνολα με εντροπία infoX(T) = log 2 log 2 + log 2 log 2 +
14 5 5 5 5 14 4 4 4 4
5 3 3 2 2
log 2 log 2 = 0.694 bits. Άρα, το κέρδος πληροφορίας σ’ αυτήν την περίπτωση είναι 0.940
14 5 5 5 5
- 0.694 = 0.246 bits.
Στη συνέχεια, αντί του γνωρίσματος «ουρανός» χρησιμοποιούμε εναλλακτικά το γνώρισμα «άνεμος»
ως δοκιμασία X, οπότε το σύνολο T διαμερίζεται σε δύο υποσύνολα με εντροπία infoX(T) =
6 3 3 3 3 8 6 6 2 2
log 2 log 2 + log 2 log 2 = 0.892 bits. Άρα, το κέρδος πληροφορίας σ’
14 6 6 6 6 14 8 8 8 8
αυτήν την περίπτωση είναι 0.940 - 0.892 = 0.048 bits. Συνεπώς, σύμφωνα με το κριτήριο κέρδους (gain
criterion) η δοκιμασία με το γνώρισμα «ουρανός» είναι προτιμότερη.
Σε πολλές περιπτώσεις, το κριτήριο κέρδους υπολογίζει μικρά δένδρα απόφασης. Ωστόσο, το
κριτήριο κέρδους είναι μεροληπτικό υπέρ δοκιμασιών με πολλά αποτελέσματα όπως εξηγείται στο ακόλουθο
παράδειγμα. Θεωρήστε μια διαδικασία ιατρικής διάγνωσης όπου καταγράφονται τα δεδομένα ασθενών έτσι
ώστε ένα από τα γνωρίσματα που καταγράφονται είναι ο αριθμός ταυτότητας του ασθενούς. Επειδή κάθε
αριθμός ταυτότητας είναι μοναδικός, επιλέγοντας ως δοκιμασία το γνώρισμα του αριθμού ταυτότητας θα
προκύψει ένα φύλλο (στο δένδρο απόφασης) για κάθε δεδομένο όπου κάθε ασθενής θα θεωρείται ως μια
διαφορετική κατηγορία. Επομένως, σ’ αυτήν την περίπτωση η μέση πληροφορία είναι infoX(T) =
n
1
info(Ti ) = 0 διότι info(Ti) = 0. Οπότε, επιλέγοντας ως δοκιμασία το γνώρισμα του αριθμού
i 1 | T |
ταυτότητας, μεγιστοποιείται το κριτήριο κέρδους. Ωστόσο, για εφαρμογές πρόβλεψης, η επιλογή αυτής της
δοκιμασίας είναι άχρηστη.
Η προαναφερθείσα μεροληψία του κριτηρίου κέρδους μπορεί να αρθεί με κανονικοποίηση
(normalization) η οποία επιτυγχάνεται διαιρώντας το κέρδος πληροφορίας με την ποσότητα χώρισμα
6-6
n
| Ti | |T |
πληροφορίας (split information) που ορίζεται ως split info(X) = log 2 i . Τελικά, προκύπτει η
i 1 | T | |T |
gain(X)
ευρετική συνάρτηση λόγος κέρδους (gain ratio) gain ratio(X) = , η οποία είναι
split info(X)
αποτελεσματική για την επιλογή μιας δοκιμασίας όπως εξηγείται στη συνέχεια. Συγκεκριμένα, ο
παρονομαστής του λόγου κέρδους είναι split info(X) = log2(n), όπου n είναι ο συνολικός αριθμός των
ασθενών στο σύνολο T· παρατηρήστε ότι καθώς ο αριθμός n αυξάνει, ο λόγος κέρδους μειώνεται.
Μια αποτελεσματική ευρετική συνάρτηση μπορεί να επιλέξει τη βέλτιστη δοκιμασία σε ένα σύνολο
«υποψήφιων» δοκιμασιών, όπως εξηγήθηκε παραπάνω. Μένει τώρα να ορίσουμε το σύνολο «υποψήφιων»
δοκιμασιών, όπως εξηγείται στη συνέχεια.
Από τη μια μεριά, για ένα γνώρισμα που λαμβάνει διακριτές τιμές μπορούμε να επιλέξουμε ένα
διαφορετικό αποτέλεσμα είτε (α) για κάθε διαφορετική τιμή που λαμβάνει το συγκεκριμένο γνώρισμα, είτε
(β) για κάθε ομάδα ενός διαμερισμού των τιμών που λαμβάνει το συγκεκριμένο γνώρισμα. Ενώ, από την
άλλη μεριά, για ένα γνώρισμα που λαμβάνει συνεχείς αριθμητικές τιμές, μπορούμε να επιλέξουμε μια
δυαδική δοκιμασία με αποτελέσματα AZ και A>Z, όπου A είναι η (συνεχής) τιμή του γνωρίσματος και Z
είναι μια προεπιλεγμένη τιμή κατωφλίου (threshold).
6-7
6.3.1 Ασαφείς Γνωσιακοί Χάρτες
Οι ασαφείς γνωσιακοί χάρτες (ΑΓΧ) (fuzzy cognitive maps (FCM)) προτάθηκαν ως επέκταση των
κλασικών γνωσιακών χαρτών που αναπτύχθηκαν στην προηγούμενη παράγραφο. Οι ΑΓΧ έχουν τέσσερις
σημαντικές διαφορές από τους ΓΧ:
1. Οι ακμές μεταξύ των κόμβων μπορούν να λαμβάνουν αριθμητικές τιμές που ονομάζονται βάρη και τα
οποία περιγράφουν το βαθμό αιτιότητας.
2. Οι ΑΓΧ μπορούν να μοντελοποιούν πολύπλοκα σενάρια της καθημερινής ζωής και δυναμικά
συστήματα που μεταβάλλονται με το χρόνο. Σε αυτή τη μορφή τους οι ΑΓΧ μοιάζουν με τα
ανατροφοδοτούμενα ΤΝΔ (βλ. Κεφάλαιο 1).
3. Η αποθηκευμένη γνώση σε έναν ΑΓΧ μπορεί να επαυξηθεί με το συνδυασμό ενός αριθμού ΑΓΧ.
4. Όπως τα ΤΝΔ, οι ΑΓΧ μπορούν να προσαρμόζουν τα βάρη τους μέσω της διαδικασίας της μάθησης.
Σημειώνεται ότι οι αρχικές τιμές των βαρών καθορίζονται από ειδικούς που είναι γνώστες του προς
μοντελοποίηση συστήματος.
Όπως μπορεί να γίνει αντιληπτό από το παραπάνω Σχήμα 6.7, ένας ΑΓΧ αποτελείται από κόμβους
(έννοιες), Ci, i=1,2,3,…,N, όπου N είναι ο συνολικός αριθμός των εννοιών, οι οποίες είναι χαρακτηριστικά,
κύριοι παράγοντες ή ιδιότητες του προς μοντελοποίηση συστήματος. Οι έννοιες ενώνονται μεταξύ τους με
συνδέσμους που έχουν συγκεκριμένα βάρη, που δηλώνουν την επίδραση που έχουν οι έννοιες μεταξύ τους.
Υπάρχουν τρεις πιθανοί τύποι (Stylios & Groumpos, 1998) αιτιατών σχέσεων μεταξύ δύο εννοιών Ci και Cj :
(α) θετική, που δηλώνει ότι μία αύξηση ή μείωση της τιμής μίας έννοιας αίτιο (cause), προκαλεί την έννοια
αιτιατό (effect) να κινηθεί προς την ίδια κατεύθυνση και περιγράφεται με ένα θετικό βάρος Wij, (β) αρνητική,
που δηλώνει ότι οι αλλαγές στις έννοιες αίτιο και αιτιατό λαμβάνουν χώρα σε αντίθετες κατευθύνσεις, με το
βάρος Wij να έχει αρνητικό πρόσημο και (γ) ανύπαρκτη, με μηδενικό βάρος. Η τιμή του βάρους, π.χ. Wij,
περιγράφει το κατά πόσο η έννοια Ci επηρεάζει την έννοια Cj και έχει πεδίο ορισμού το διάστημα [-1,1].
Κάθε χρονική στιγμή η τιμή κάθε έννοιας Ai υπολογίζεται από το άθροισμα των επιρροών όλων των
υπολοίπων εννοιών σε αυτή την έννοια και τον περιορισμό της συνολικής επίδρασης με τη χρήση μίας
συνάρτησης φραγής f σύμφωνα με τον παρακάτω κανόνα:
Ait 1 f Ait W ji Atj , (6.1)
i 1,i j
6-8
όπου Ait 1 και Ait είναι οι τιμές της έννοιας Ci τις χρονικές στιγμές t+1 και t αντίστοιχα, A tj η τιμή της
έννοιας Cj τη χρονική στιγμή t, Wji το βάρος της σύνδεσης με κατεύθυνση από την έννοια Cj στην Ci και f η
συνάρτηση φραγής που χρησιμοποιείται για τον περιορισμό της τιμής της έννοιας σε ένα συγκεκριμένο
εύρος, συνήθως στο διάστημα [0,1].
Σε κάθε βήμα μία νέα κατάσταση των εννοιών προκύπτει μέσω της Εξ.(6.1) και μετά από έναν
συγκεκριμένο αριθμό επαναλήψεων ο ΑΓΧ μπορεί να καταλήξει σε μία από τις παρακάτω καταστάσεις
(Stylios & Groumpos, 1998):
1. Σε ένα συγκεκριμένο σημείο ισορροπίας.
2. Σε έναν περιορισμένο κύκλο.
3. Σε χαοτική συμπεριφορά.
Όταν ο ΑΓΧ καταλήγει σε ένα συγκεκριμένο σημείο ισορροπίας, μπορούμε να συμπεράνουμε ότι ο
χάρτης έχει συγκλίνει και η τελική κατάσταση αντιστοιχεί στην πραγματική κατάσταση του συστήματος στην
οποία μεταπίπτει, όταν οι αρχικές τιμές των βαρών εφαρμοστούν στο χάρτη.
wij
i j
w t A t A t wt , A t 0
t 1 ij t ij i
(6.2)
wij t , At
0
i
όπου
Ai Ai Ai
t t t 1
(6.3)
Η παράμετρος t αντιστοιχεί στο ρυθμό μάθησης ο οποίος μειώνεται σε κάθε επανάληψη του
αλγορίθμου ως ακολούθως:
t
t 0.1 1 , (6.4)
1.1N
όπου t είναι η τρέχουσα επανάληψη του αλγορίθμου και Ν μία σταθερά που εξασφαλίζει ότι ο ρυθμός
μάθησης δε θα λάβει αρνητικές τιμές. Συνήθως, επιλέγεται να είναι ίση με το μέγιστο αριθμό των
επαναλήψεων του αλγορίθμου.
6-9
Β. Μη-γραμμική Μάθηση τύπου Hebb (ΜΓΗ)
Ο αλγόριθμος ΜΓΗ προτάθηκε από τους Papageorgiou κ.ά. (2004). Κάνει χρήση του τροποποιημένου από
τον Oja (1989) κανόνα δέλτα (Εξ.(6.5)), ο οποίος αντιμετωπίζει τα προβλήματα ευστάθειας που παρουσιάζει
ο κλασικός κανόνας, και ορίζεται ως εξής:
wij n 1 yi n x j n yi n wij n (6.5)
Η παραπάνω εξίσωση υπολογίζει την ανανέωση του βάρους που συνδέει τον κόμβο j με τον κόμβο i
στην επανάληψη n+1, με ρυθμό μάθησης η. Για την ανανέωση λαμβάνονται υπόψη τα προ-σύναψης
(είσοδος) x j και μετά-σύναψης (έξοδος) yi σήματα. Η ανανέωση των βαρών ενός ΑΓΧ με τον αλγόριθμο
ΜΓΗ επιτυγχάνεται μέσω του παρακάτω κανόνα:
t t
wij wij Aj Ai Aj wij
t 1 t t t
(6.6)
Επιπλέον, έχουν προταθεί δύο παραλλαγές του παραπάνω αλγορίθμου (Papageorgiou κ.ά., 2006), με
στόχο να εξασφαλίσουν τη σύγκλιση του αλγορίθμου σε πιο βέλτιστες λύσεις βαρών. Στην πρώτη παραλλαγή
έχει προστεθεί η συνάρτηση προσήμου sgn(.), ώστε να διατηρείται το πρόσημο του βάρους, σύμφωνα με τον
παρακάτω κανόνα:
t t
wij wij Aj Ai sgn wij Aj wij
t 1 t t t t
(6.7)
Τέλος, η δεύτερη παραλλαγή του ΜΓΗ αλγορίθμου, περιλαμβάνει την εφαρμογή ενός παράγοντα
μείωση (γ) της επίδρασης του προηγούμενου βάρους του κόμβου, που περιγράφεται ως εξής:
t t
t
wij wij Aj Ai sgn wij Aj wij
t 1 t t t
(6.8)
t N
Ai f Ai
t 1
W ji Aj
act t
(6.9)
i 1,i j
t
t t
wij 1 wij Ai Aj wij Ai
t 1 t t t act t
(6.10)
όπου ο ρυθμός μάθησης η και ο παράγοντας μείωσης των βαρών στην επανάληψη t, υπολογίζονται από τις
σχέσεις
t b1e t
1
(6.11)
t b2 e t
2
όπου 0.01<b1<0.09, 0.1<λ1<1, ενώ b2, λ2 είναι θετικοί σταθεροί αριθμοί που επιλέγονται με δοκιμή και
παρατήρηση.
Σημειώστε ότι όλοι οι προηγούμενοι αλγόριθμοι εκτελούνται επαναληπτικά, μέχρι να ικανοποιηθεί
κάποιο κριτήριο τερματισμού (μέγιστος αριθμός επαναλήψεων ή σύγκλιση σε επιθυμητό σφάλμα με βάση
κάποιο μέτρο καταλληλότητας).
6-10
6.3.1.2 Σύγχρονες Αρχιτεκτονικές Δομές ΑΓΧ
Τα τελευταία χρόνια παρατηρείται έντονη κινητικότητα στην ανάπτυξη νέων αρχιτεκτονικών δομών ΑΓΧ με
απώτερο στόχο την αύξηση της ακρίβειας μοντελοποίησης των συστημάτων, καθώς και την εισαγωγή των
ΑΓΧ σε νέα πεδία εφαρμογών (Papageorgiou & Salmeron, 2013).
Σε αρχιτεκτονικές ΑΓΧ ανήκουν δομές για εφαρμογές ταξινόμησης και αναγνώρισης προτύπων που
καλούνται ασαφείς γνωσιακοί απεικονιστές (ΑΓΑ) (fuzzy cognitive maps FCMper) (Papakostas &
Koulouriotis, 2010· Papakostas κ.ά., 2008, 2012). Σε αυτά τα μοντέλα ένας ΑΓΧ επιδιώκει να μοντελοποιήσει
έναν ταξινομητή, στον οποίο οι κόμβοι είναι είτε χαρακτηριστικά διάκρισης, είτε ετικέτες κλάσεων.
Επομένως, σε αντίθεση με τα νευρωνικά δίκτυα στα οποία οι νευρώνες έχουν μία αφαιρετική σημασία και
αποτελούν απλά υπολογιστικές μονάδες, στους ΑΓΑ οι κόμβοι και οι συνδέσεις περιγράφουν τις σχέσεις που
διέπουν τα χαρακτηριστικά με τις ετικέτες των κλάσεων. Ένας τυπικός ΑΓΑ απεικονίζεται στο Σχήμα 6.8.
Επίσης, για τον ίδιο σκοπό της ταξινόμησης δεδομένων έχουν προταθεί συνδυασμοί ΑΓΧ, οι οποίοι
λειτουργούν συνεργατικά με βάση τα μοντέλα πολλαπλής δειγματοθέτησης και ώθησης (Papageorgiou &
Kannappan, 2012).
Μία δεύτερη κατηγορία αρχιτεκτονικών ΑΓΧ περιλαμβάνει όλες εκείνες τις δομές που είναι ικανές
να διαχειριστούν την αβεβαιότητα και την ανακρίβεια που εμφανίζεται σε πολλά προβλήματα. Για το σκοπό
αυτό έχουν προταθεί οι γκρι ασαφείς γνωσιακοί χάρτες (ΓΑΓΧ) (fuzzy grey cognitive maps (FGCM)) που
βασίζονται στην γκρι θεωρία συστημάτων (Salmeron, 2010), οι γνωσιακοί χάρτες τεκμηρίων (ΓΧΤ)
(evidential cognitive maps (ECM)) που κάνουν χρήση της θεωρίας τεκμηρίων των Dempster και Shafer
(Kang κ.ά., 2012) και οι διαισθητικοί ασαφείς γνωσιακοί χάρτες (ΔΑΓΧ) (intuitionistic fuzzy cognitive
maps (IFCM)), οι οποίοι βασίζονται στη διαισθητική ασαφή λογική (intuitionistic fuzzy logic)
(Papageorgiou & Iakovidis, 2013). Τέλος, στην κατηγορία αυτή ανήκουν και δομές οι οποίες κάνουν χρήση
του κοκκώδους υπολογισμού (granular computing) (Pedrycz & Homenda, 2014), και των αριθμών
διαστημάτων (Papakostas κ.ά., 2015). Συγκεκριμένα, ένας ΑΓΧ που χρησιμοποιεί την αναπαράσταση
αριθμών διαστημάτων για εφαρμογές ταξινόμησης δεδομένων απεικονίζεται στο Σχήμα 6.9.
6-11
Σχήμα 6.9 Ασαφής γνωσιακός χάρτης αριθμού διαστημάτων.
6-12
Λύση:
P(Β=T|Υ=T)=
P( T , T )
{T , F }
P( T , , T )
P( T ) , {T , F }
P( T , , )
Υπολογίζουμε τον αριθμητή του παραπάνω κλάσματος χρησιμοποιώντας την από κοινού
συνάρτηση κατανομής πιθανότητας.
{T , F }
P( T , , T ) P(Υ=T, Σ=T, Β=T) + P(Υ=T, Σ=F, Β=T) =
P(Υ=T|Σ=T,Β=T)P(Σ=T|Β=T)P(Β=T) + P(Υ=T|Σ=F,Β=T)P(Σ=F|Β=T)P(Β=T) =
(0.99)(0.01)(0.2) + (0.8)(0.99)(0.2) = 0.00198 + 0.1584 = 0.16038.
Στη συνέχεια υπολογίζουμε τον παρονομαστή χρησιμοποιώντας την από κοινού συνάρτηση
κατανομής πιθανότητας.
, {T , F }
P( T , , ) P(Υ=T, Σ=T, Β=T) + P(Υ=T, Σ=F, Β=T) + P(Υ=T, Σ=T, Β=F) + P(Υ=T,
Σ=F, Β=F) = P(Υ=T|Σ=T,Β=T)P(Σ=T|Β=T)P(Β=T) + P(Υ=T|Σ=F,Β=T)P(Σ=F|Β=T)P(Β=T) +
P(Υ=T|Σ=T,Β=F)P(Σ=T|Β=F)P(Β=F) + P(Υ=T|Σ=F,Β=F)P(Σ=F|Β=F)P(Β=F) = (0.99)(0.01)(0.2) +
(0.8)(0.99)(0.2) + (0.9)(0.4)(0.8) + (0.0)(0.6)(0.8) = 0.00198 + 0.1584 + 0.288 + 0 = 0.44838.
6.2) Σε εφαρμογές δένδρων απόφασης μπορεί να εμφανιστεί ένα πρόβλημα μεροληψίας όταν
χρησιμοποιείται η συνάρτηση κέρδος πληροφορίας. Περιγράψτε το προαναφερθέν πρόβλημα και
στη συνέχεια, εξηγήστε τον τρόπο επίλυσής του.
6.3) Έστω το παρακάτω σύστημα, στο οποίο τρεις βαλβίδες ελέγχουν την ποσότητα υγρού μίας
δεξαμενής. Καθώς γεμίζει η δεξαμενή με υγρό, θα πρέπει το ύψος και το βάρος του υγρού μέσα στη
δεξαμενή να βρίσκονται σε επιθυμητά επίπεδα. Σχεδιάστε έναν ΑΓΧ και υπολογίστε το σημείο
ισσοροπίας του συστήματος, όταν οι περιορισμοί του ύψους και του βάρους είναι 0.68 H 0.74
και 0.74 G 0.80 αντίστοιχα. Τέλος, οι ειδικοί έχουν ορίσει ότι οι 5 παράγοντες (H, G, V1, V2, V3)
που περιγράφουν το σύστημα επηρεάζουν ο ένας τον άλλον βάσει του πίνακα:
0 0.4 0.25 0 0.3
0.36 0 ,
0 0 0 ενώ οι αρχικές τους τιμές είναι (0.10, 0.01, 0.45, 0.39 0.04).
0.45 0 0 0 0
0.9 0 0 0 0
0 0.6 0 0.3 0
6.4) Να αναπτυχθεί κώδικας σε MATLAB, ο οποίος να υλοποιεί τον κανόνα ανανέωσης των τιμών των
εννοιών ενός ΑΓΧ με βάση την Εξ.(6.1), για μεταβλητό αριθμό εννοιών και τυχαίο σύνολο βαρών.
6.5) Να αναπτυχθεί κώδικας σε MATLAB, ο οποίος να υλοποιεί τον αλγόριθμο εκπαίδευσης DHL.
6-13
Βιβλιογραφία
Axelrod, R. (1976). Structure of Decision: The Cognitive Maps of Political Elites. Princeton, NJ: Princeton
University Press.
Dickerson, J.A. & Kosko, B. (1994). Virtual worlds as fuzzy cognitive maps. Presence, 3(2), 173-189.
Edwards, D. (2000). Introduction to Graphical Modelling (2nd ed.). Springer, New York, NY.
Jordan, M.I. & Sejnowski. T.J. (Eds.). (2001). Graphical Models: Foundations of Neural Computation.
Cambridge, MA: The MIT Press.
Kang, B., Deng, Y., Sadiq, R. & Mahadevan, S. (2012). Evidential cognitive maps. Knowledge-Based
Systems, 35, 77-86.
Kosko, B. (1986). Fuzzy cognitive maps. Intl. Journal Man-Machine Studies, 24, 65-75.
Kosko, B. (1992). Neural Networks and Fuzzy Systems: A Dynamical Systems Approach to Machine
Intelligence. Upper Saddle River, NJ: Prentice-Hall.
Kotsiantis, S.B. (2013). Decision trees: a recent overview. Artificial Intelligence Review, 39(4), 261-283.
Μανωλόπουλος, Γ. (2000). Μαθήματα Θεωρίας Γράφων Θεμελιώσεις - Αλγόριθμοι - Εφαρμογές. Αθήνα,
Ελλάς, Εκδόσεις Νέων Τεχνολογιών.
Neapolitan, R.E. (1989). Probabilistic Reasoning in Expert Systems: Theory and Algorithms. New York,
N.Y.: Wiley.
Oja, E. (1989). Neural networks, principal components and subspaces. International Journal of Neural
Systems, 1, 61-68.
Papageorgiou, E.I. (2012). Learning algorithms for fuzzy cognitive maps - a review study. IEEE Transactions
on Systems, Man, and Cybernetics, Part C, 42(2), 150-163.
Papageorgiou, E.I. & Iakovidis, D.K. (2013). Intuitionistic fuzzy cognitive maps. IEEE Transactions on Fuzzy
Systems, 21(2), 342-354.
Papageorgiou, E.I. & Kannappan, A. (2012). Fuzzy cognitive map ensemble learning paradigm to solve
classification problems: application to autism identification. Applied Soft Computing, 12(12), 3798-
3809.
Papageorgiou, E.I. & Salmeron, J.L. (2013). A review of fuzzy cognitive maps research during the last
decade. IEEE Transactions on Fuzzy Systems, 21(1), 66-79.
Papageorgiou, E.I., Stylios, C.D. & Groumpos, P.P. (2003). Fuzzy cognitive map learning based on nonlinear
Hebbian rule. Advances in Artificial Intelligence, (LNAI 2903, pp. 254-266). Berlin, Germany:
Springer.
Papageorgiou, E.I., Stylios, C.D. & Groumpos, P.P. (2004). Active Hebbian learning algorithm to train fuzzy
cognitive maps. International Journal of Approximate Reasoning, 37(3), 219-249.
Papageorgiou, E.I., Stylios, C.D. & Groumpos, P.P. (2006). Unsupervised learning techniques for fine-tuning
fuzzy cognitive map casual links. International Journal of Human-Computer Studies, 64(8), 727-743.
Papakostas, G.A. & Koulouriotis, D.E. (2010). Classifying patterns using fuzzy cognitive maps. In M. Glykas
(Ed.), Fuzzy Cognitive Maps: Advances in Theory, Methodologies, Tools and Applications (pp. 291-
306). Berlin, Germany: Springer.
Papakostas, G.A., Papageorgiou, E.I. & Kaburlasos, V.G. (2015). Linguistic Fuzzy Cognitive Map (LFCM)
for pattern recognition. In IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), 2-5 August
2015.
Papakostas, G.A., Boutalis, Y.S., Koulouriotis, D.E. & Mertzios, B.G. (2008). Fuzzy cognitive maps for
pattern recognition applications. International Journal of Pattern Recognition and Artificial
Intelligence, 22(8), 1461-1468.
Papakostas, G.A., Koulouriotis, D.E., Polydoros, A.S. & Tourassis, V.D. (2012). Towards Hebbian learning
of fuzzy cognitive maps in pattern classification problems. Expert Systems with Applications, 39(12),
10620-10629.
Pearl, J. (1985). Bayesian networks: a model of self-activated memory for evidential reasoning. In
Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine,
CA, 329-334.
Pearl, J. (1988) Probabilistic Reasoning in Intelligent Systems. San Francisco, CA: Morgan Kaufmann.
Pedrycz, W. & Homenda, W. (2014). From fuzzy cognitive maps to granular cognitive maps. IEEE
Transactions on Fuzzy Systems, 22(4), 859-869.
6-14
Quinlan, J.R. (1992). C4.5: Programs for Machine Learning. San Mateo, CA: Morgan Kaufman.
Salmeron, J.L. (2010). Modelling grey uncertainty with Fuzzy Grey Cognitive Maps. Expert Systems with
Applications, 37(12), 7581-7588.
Shannon, C.E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379-
423.
Stylios, C.D. & Groumpos, P.P. (1998). The challenge of modelling supervisory systems using fuzzy
cognitive maps. Journal of Intelligent Manufacturing, 9, 339-345.
Swartout, W. & Tate, A. (1999). Ontologies. IEEE Intelligent Systems, 14(1), 18-19.
6-15
Μέρος-ΙΙΙ: Μια Ενοποιητική Προσέγγιση στην
Υπολογιστική Νοημοσύνη
Εισαγωγή στο Μέρος-ΙΙΙ
Ήδη εξηγήθηκε στην εισαγωγή του παρόντος βιβλίου πως μια τεχνολογία ΥΝ αναμένεται να είναι
συμβατή με τις αρχές της κοινής λογικής. Στο Μέρος-ΙΙΙ παρουσιάζεται εν συντομία μια μαθηματική
δομή, το μαθηματικό πλέγμα για μοντελοποίηση της λογικής. Συγκεκριμένα, παρουσιάζονται
χρήσιμες έννοιες και αποτελέσματα από τη θεωρία πλεγμάτων (Birkhoff, 1967), η οποία εναλλακτικά
είναι γνωστή και ως θεωρία διάταξης. Στη συνέχεια συνοψίζονται από τη βιβλιογραφία τρεις
διαφορετικές μεθοδολογίες της Διευρυμένης ΥΝ, οι οποίες βασίζονται στη θεωρία πλεγμάτων. Τέλος,
το ενδιαφέρον επικεντρώνεται στο πλέγμα των Αριθμών Διαστημάτων (ΑΔ), το οποίο έχει προταθεί
από τους συγγραφείς αυτού του βιβλίου και εδώ παρουσιάζεται εποικοδομητικά ως μια αυξανόμενης
πολυπλοκότητας ιεραρχία με βάση το σύνολο R των πραγματικών αριθμών.
Το σύνολο R είναι αυτό που χρησιμοποιείται παραδοσιακά για την ανάπτυξη μοντέλων (βλ.
συναρτήσεων) της μορφής f: RNRM στη βάση μετρήσεων (Kaburlasos, 2006). Για παράδειγμα,
πολλοί νόμοι των Φυσικών Επιστημών, της Οικονομίας, της Μηχανικής κ.λπ. μοντελοποιούνται
επιτυχώς στο χώρο RN. Σημειώστε ότι μια τυπική τεχνολογία ΥΝ στην πράξη χρησιμοποιείται ως
μηχανισμός υλοποίησης μιας συνάρτησης της μορφής f: RNRM (Kaburlasos & Kehagias, 2007).
Ωστόσο, δεν είναι προφανής η μεταφορά τεχνικών μοντελοποίησης από το χώρο RN των αριθμητικών
δεδομένων σε χώρους μη-αριθμητικών δεδομένων που απαιτούν νέες τεχνολογίες, όπως περιγράφεται
στη συνέχεια.
Με την εξάπλωση των Η/Υ παρουσιάστηκε η ανάγκη για επεξεργασία, σε μεγάλη κλίμακα,
μη-αριθμητικών δεδομένων, όπως λογικές τιμές, εικόνες, (ασαφή) σύνολα, γράφοι, κείμενο κ.λπ. με
μη-αριθμητικές αναπαραστάσεις και αντίστοιχες σημασιολογίες. Σε έναν αναδυόμενο νέο κόσμο
εξακολουθεί να υπάρχει η ανάγκη για μοντελοποίηση, π.χ. για αναγνώριση, πρόβλεψη κ.λπ. Είναι
ενδιαφέρον ότι αρκετά από τα (μη) αριθμητικά δεδομένα τα οποία εμφανίζονται στην πράξη είναι
μερικώς διατεταγμένα και μάλιστα είναι στοιχεία ενός μαθηματικού πλέγματος. Σημειώστε ότι
πρόσφατα ο όρος υπολογισμός σε πλέγματα (lattice computing) προτάθηκε ως «ένα συνεχώς
εξελισσόμενο σύνολο μαθηματικών εργαλείων καθώς και μεθοδολογιών μαθηματικής
μοντελοποίησης με ικανότητα χειρισμού μερικώς-διατεταγμένων δεδομένων ως τέτοιων, στα οποία
συμπεριλαμβάνονται λογικές τιμές, αριθμοί, σύνολα, σύμβολα, γράφοι κ.λπ.» (Esmi κ.ά., υπο
έκδοση· Graña & Chyzhyk, υπο έκδοση· Kaburlasos & Papakostas, 2015· Kaburlasos κ.ά., 2013·
Sussner, υπο έκδοση· Valle & Sussner, 2013). Δηλαδή στον υπολογισμό σε πλέγματα χειριζόμαστε
μερικώς-διατεταγμένα δεδομένα ως τέτοια, χωρίς να τα μετασχηματίζουμε σε άλλου είδους δεδομένα,
π.χ. σε πραγματικούς αριθμούς.
Η θεωρία διάταξης προτείνεται εδώ ως ένα γενικό πεδίο μοντελοποίησης, το οποίο, πέραν
των μετρήσεων, μπορεί επιπλέον να αναπαραστήσει και σημασιολογίες. Συγκεκριμένα, η καινοτόμα
πρόταση εδώ είναι η διεύρυνση του πεδίου μοντελοποίησης από το ολικώς διατεταγμένο σύνολο R σε
(μερικώς διατεταγμένα) πλέγματα και, τελικά, ο υπολογισμός μιας συνάρτησης της μορφής f: LK,
όπου L και K είναι πλέγματα. Ένα συγκριτικό πλεονέκτημα μοντελοποίησης σε πλέγματα είναι η
αναπαράσταση σημασιολογιών με τη σχέση μερικής διάταξης μεταξύ των δεδομένων και, τελικά, ο
υπολογισμός ακόμα και με σημασιολογίες αντί μόνο για υπολογισμό τύπου αλέσματος αριθμών που
εφαρμόζεται παραδοσιακά. Επιπλέον, σημειώστε ότι επειδή οι κόκκοι πληροφορίας είναι μερικώς
διατεταγμένοι (Liu κ.ά., 2013· Sussner & Esmi, 2011), η θεωρία διάταξης θα μπορούσε να
χρησιμοποιηθεί για ανάλυση και σχεδίαση σε εφαρμογές κοκκώδους υπολογισμού (Pedrycz κ.ά.,
2008· Zadeh, 1997).
Τα τρία κεφάλαια του Μέρους-ΙΙΙ παρουσιάζουν το ακόλουθο υλικό. Το κεφάλαιο 7
παρουσιάζει βασικές έννοιες από τη θεωρία πλεγμάτων προς χρήση στα επόμενα κεφάλαια. Το
κεφάλαιο 8 συνοψίζει μεθοδολογίες από τη βιβλιογραφία που περιλαμβάνουν (1) Λογική και
Συλλογιστική, (2) Φορμαλιστική Ανάλυση Εννοιών και (3) Μαθηματική Μορφολογία, όπου ανάλυση
και σχεδίαση βασίζονται στη θεωρία πλεγμάτων. Τέλος, το κεφάλαιο 9 εστιάζει στη μελέτη των
Αριθμών Διαστημάτων (ΑΔ), όπου περιγράφεται ο τρόπος με τον οποίο το μερικώς διατεταγμένο
πλέγμα των ΑΔ μπορεί να ενοποιήσει δημοφιλείς σημασιολογικές αναπαραστάσεις που
περιλαμβάνουν κατανομές πιθανότητας /εφικτότητας. Σημειώστε ότι κατά καιρούς έχουν
πραγματοποιηθεί κοινές παρουσιάσεις μεθοδολογιών ΥΝ σε πλέγματα (Kaburlasos, 2011· Kaburlasos
& Ritter, 2007· Kaburlasos κ.ά., 2008· Kaburlasos κ.ά., 2014· Liu κ.ά., υπο έκδοση).
III-2
Βιβλιογραφία
Birkhoff, G. (1967). Lattice Theory (Colloquium Publications 25). Providence, RI: American
Mathematical Society.
Esmi, E., Sussner, P. & Sandri, S. (to be published). Tunable equivalence fuzzy associative memories.
Fuzzy Sets and Systems.
Graña, M. & Chyzhyk, D. (to be published). Image understanding applications of lattice
autoassociative memories. IEEE Transactions on Neural Networks and Learning Systems.
Kaburlasos, V.G. (2006). Towards a Unified Modeling and Knowledge-Representation Based on
Lattice Theory (Studies in Computational Intelligence 27). Heidelberg, Germany: Springer.
Kaburlasos, V.G. (Ed.). (2011). Special Issue on: Information Engineering Applications Based on
Lattices. Information Sciences, 181(10), 1771-1773.
Kaburlasos, V.G & Kehagias, A. (2007). Novel fuzzy inference system (FIS) analysis and design based
on lattice theory. IEEE Transactions on Fuzzy Systems, 15(2), 243-260.
Kaburlasos, V.G. & Papakostas, G.A. (2015). Learning distributions of image features by interactive
fuzzy lattice reasoning (FLR) in pattern recognition applications. IEEE Computational
Intelligence Magazine, 10(3), 42-51.
Kaburlasos, V.G. & Ritter, G.X. (Eds.). (2007). Computational Intelligence Based on Lattice Theory
(Studies in Computational Intelligence 67). Heidelberg, Germany: Springer.
Kaburlasos, V.G., Papadakis, S.E. & Papakostas, G.A. (2013). Lattice computing extension of the
FAM neural classifier for human facial expression recognition. IEEE Transactions on Neural
Networks and Learning Systems, 24(10), 1526-1538.
Kaburlasos, V., Priss, U. & Graña, M. (Eds.). (2008). Proc. of the Lattice-Based Modeling (LBM)
Workshop, in conjunction with The Sixth International Conference on Concept Lattices and
Their Applications (CLA). Olomouc, Czech Republic: Palacký University.
Kaburlasos, V.G., Tsoukalas, V. & Moussiades, L. (2014). FCknn: a granular knn classifier based on
formal concepts. In Proceedings of the World Congress on Computational Intelligence (WCCI)
2014, FUZZ-IEEE Program, 6-11 July 2014, (pp. 61-68).
Liu, Y., Kaburlasos, V.G. & Xu, Y. (to be published). Lattice implication algebra with application in
fuzzy lattice reasoning. In G.A. Papakostas, A.G. Hatzimichailidis, V.G. Kaburlasos (Eds.),
Handbook of Fuzzy Sets Comparison - Theory, Algorithms and Applications (Gate to Computer
Science and Research 7). Xanthi, Greece: Science Gate Publishing.
Liu, H., Xiong, S. & Wu, C.-a. (2013). Hyperspherical granular computing classification algorithm
based on fuzzy lattices. Mathematical and Computer Modelling, 57(3-4), 661-670.
Pedrycz, W., Skowron, A. & Kreinovich, V. (Eds.). (2008). Handbook of Granular Computing.
Chichester, U.K.: Wiley.
Sussner, P. (to be published). Lattice fuzzy transforms from the perspective of mathematical
morphology. Fuzzy Sets and Systems.
Sussner, P. & Esmi, E.L. (2011). Morphological perceptrons with competitive learning: Lattice-
theoretical framework and constructive learning algorithm. Information Sciences, 181(10),
1929-1950.
Valle, M.E. & Sussner, P. (2013). Quantale-based autoassociative memories with an application to the
storage of color images. Pattern Recognition Letters, 34(14), 1589-1601.
Zadeh, L.A. (1997). Toward a theory of fuzzy information granulation and its centrality in human
reasoning and fuzzy logic. Fuzzy Sets Systems, 90(2), 111-127.
III-3
Κεφάλαιο 7: Η Θεωρία Πλεγμάτων στην
Υπολογιστική Νοημοσύνη
Αυτό το κεφάλαιο, πέρα από την παρουσίαση μαθηματικών εννοιών και εργαλείων, προτείνει μια ενοποίηση
στην ΥΝ μέσω της ενοποίησης ανόμοιων (μερικώς διατεταγμένων) τύπων δεδομένων, που περιλαμβάνουν
λογικές τιμές, αριθμούς (μαζί και σήματα), (ασαφή) σύνολα, γράφους, συμβολοσειρές, κ.λπ. στο πλαίσιο της
θεωρίας πλεγμάτων.
Αυτό το κεφάλαιο, συνοψίζει ειδικά μαθηματικά εργαλεία της θεωρίας πλεγμάτων με σκοπό τη
διάδοσή τους σε εφαρμογές ΥΝ. Γνώσεις υποδομής από τη θεωρία πλεγμάτων παρουσιάζονται στο
Παράρτημα αυτού του κεφαλαίου προς διευκόλυνση της ανάγνωσης. Στη συνέχεια μεθοδεύεται η
ασαφοποίηση της δυαδικής σχέσης «μερική διάταξη» σε ένα κλασικό πλέγμα.
7-1
Έστω ένα πλέγμα (L,⊑). Ως βαθμός διάταξης (fuzzy order) ορίζεται μια συνάρτηση
: L L 0,1 η οποία ικανοποιεί τις παρακάτω δύο ιδιότητες.
C1. u⊑w u, w 1 .
C2. u⊑w x, u x, w . (Συνέπεια)
Η συνάρτηση του βαθμού διάταξης μπορεί να χρησιμοποιηθεί για να εκφράσει το βαθμό που ένα
στοιχείο πλέγματος είναι μικρότερο/ίσο από ένα άλλο στοιχείο. Έτσι, ο συμβολισμός (x⊑y) μπορεί να
χρησιμοποιηθεί αντί του συμβολισμού x, y .
Παρατηρήστε ότι η ιδιότητα C1 απαιτεί τη μεγιστοποίηση του βαθμού διάταξης (u,w)=1 τότε και
μόνο τότε, αν το στοιχείο u είναι μικρότερο/ίσο από το στοιχείο w. Με άλλα λόγια, η ιδιότητα C1 απαιτεί τη
μεγιστοποίηση του βαθμού διάταξης αποκλειστικά για τα στοιχεία τα οποία είναι διατεταγμένα στο πλέγμα
(L,⊑). Ενώ, η ιδιότητα C2 απαιτεί κάποιου είδους συνέπεια για μια συνάρτηση βαθμού διάταξης υπό την
ακόλουθη έννοια. Αν το στοιχείο u περιέχεται στο στοιχείο w, η ιδιότητα C2 απαιτεί ένα οποιοδήποτε
στοιχείο x να περιέχεται στο u «όχι περισσότερο» από ό,τι περιέχεται στο w.
Ο βαθμός διάταξης (x⊑y) αποτελεί μια γενίκευση εναλλακτικών ορισμών που προτείνονται στη
βιβλιογραφία για την ποσοτικοποίηση του βαθμού εγκλεισμού ενός (ασαφούς) συνόλου σε ένα άλλο (Fan
κ.ά., 1999· Sinha & Dougherty 1993· Sinha & Dougherty 1995· Young, 1996· Zhang & Zhang, 2009).
Ωστόσο, οι προαναφερθέντες, εναλλακτικοί ορισμοί αφορούν μόνον επικαλυπτόμενα ζεύγη (ασαφών)
συνόλων, αλλιώς ο αντίστοιχος βαθμός περιεκτικότητας είναι ίσος με μηδέν. Αντιθέτως, ο παραπάνω ορισμός
για το βαθμό διάταξης είναι πιο γενικός, διότι (α) έχει εφαρμογή σε κάθε πλέγμα και όχι μόνο στο πλέγμα των
(ασαφών) συνόλων, και (β) αφορά ανεξαιρέτως όλα τα ζεύγη στοιχείων οποιουδήποτε πλέγματος.
Κάθε χρήση μιας συνάρτησης βαθμού διάταξης (σ) ονομάζεται συλλογιστική ασαφών πλεγμάτων
(ΣΑΠ) (fuzzy lattice reasoning (FLR)) (Kaburlasos & Kehagias, 2014). Συγκεκριμένα, μια συνάρτηση
βαθμού διάταξης (σ) υποστηρίζει δύο διαφορετικούς τύπους συλλογιστικής, οι οποίοι είναι ο γενικευμένος
τρόπος που θέτει και η συλλογιστική κατ’ αναλογία (reasoning by analogy), όπως εξηγείται στη συνέχεια.
Από τη μια, ο γενικευμένος τρόπος που θέτει είναι ένας τύπος παραγωγικής συλλογιστικής (deductive
reasoning) σύμφωνα με τον οποίον, χρησιμοποιώντας μαθηματικό συμβολισμό της θεωρίας πλεγμάτων,
δοθέντων (α) ενός λογικού κανόνα ac, και (β) ενός αιτίου a0 έτσι ώστε a0⊑a, έπεται το αποτέλεσμα c. Από
την άλλη, η συλλογιστική κατ’ αναλογία είναι ένας τύπος προσεγγιστικής συλλογιστικής (approximate
reasoning) κατάλληλος για χειρισμό ελλιπούς γνώσης όπως εξηγείται στη συνέχεια. Συγκεκριμένα, δοθέντων
(α) ενός συνόλου κανόνων aici, i{1,…,L}, και (β) ενός αιτίου a0 τέτοιο ώστε a0⋢ai, i{1,…,L},
επιλέγεται εκείνος ο κανόνας aJcJ, ο οποίος μεγιστοποιεί τη συνάρτηση βαθμού διάταξης
J arg max (a0 ai ) . Έπεται το αποτέλεσμα cJ.
i{1,...,L}
Έχει αποδειχθεί ότι εάν η συνάρτηση v :L R0 είναι θετικής τιμοδότησης στο πλέγμα (L,⊑) τότε οι
v u
δύο συναρτήσεις (α) σίγμα-συνένωση (sigma-join): ⊔(x,u) = , και (β) σίγμα-διατομή (sigma-
v x u
v x u
meet): ⊓(x,u) = είναι (συναρτήσεις) βαθμού διάταξης.
v x
Έστω ένα πλέγμα (L,⊑) και ένας βαθμός διάταξης : L L 0,1 . Τότε, η τριάδα (L,⊑,) είναι ένα
ασαφές πλέγμα. Συνεπώς, η χρησιμότητα της ύπαρξης ενός βαθμού διάταξης () σε πλέγμα (L,⊑) είναι ότι
μετασχηματίζει το (L,⊑) σε ασαφές πλέγμα και έτσι επιτρέπει την ποσοτικοποιημένη σύγκριση δύο
οποιονδήποτε στοιχείων του (L,⊑), είτε συγκρίσιμων στοιχείων είτε μη-συγκρίσιμων στοιχείων.
7-2
Όταν στο πλέγμα (L,⊑) υπάρχει ελάχιστο στοιχείο o, μια λογική απαίτηση είναι να ισχύει η ισότητα
⊔(x,o) = 0 = ⊓(x,o), για κάθε x⊐o, δηλ. ο βαθμός κατά τον οποίον οποιοδήποτε (μη-ελάχιστο) στοιχείο είναι
μικρότερο ή ίσο από το ελάχιστο στοιχείο o είναι μηδέν. Η προαναφερθείσα απαίτηση συνεπάγεται v(o)= 0.
7-3
v u v u
v u1 , , uN
N
Σίγμα-συνένωσης: x, u i=1 i i
και
v x u v x u , , x 1 u v x u
1 N N
N
i=1 i i i
v x u v x u , , x u v x u
N
Σίγμα-διατομής: x, u i=1 i
1 1 N N i i
v x v x , , x 1 v x N
N
i=1 i i
7-4
Στη συνέχεια αναζητούμε συναρτήσεις μετρικές, καθώς και βαθμού διάταξης, στο πλέγμα (I1,⊑).
Γνωρίζουμε ήδη πώς να ορίζουμε τις προαναφερθείσες συναρτήσεις χρησιμοποιώντας μια συνάρτηση θετικής
τιμοδότησης. Ωστόσο, μια συνάρτηση θετικής τιμοδότησης δεν υπάρχει, γενικά, στο πλέγμα (I1,⊑) όπως
βλέπουμε σε ένα αντι-παράδειγμα στη συνέχεια.
Έστω τα διαστήματα a, b , c, e και c, e στην αλυσίδα (R,) των πραγματικών αριθμών, όπου
a b c c e , όπως φαίνεται στο Σχ. 7.1. Προφανώς ισχύει c, e c, e . Θεωρήστε την ακόλουθη
Αρχική Υπόθεση: Έστω ότι υπάρχει μια συνάρτηση v1 : I {} I {} R0 θετικής τιμοδότησης. Ως
συνέπεια της προαναφερθείσας Αρχικής Υπόθεσης θα ισχύουν οι παρακάτω δύο ισότητες:
1) v1 ( a, b) v1 (c, e) v1 (a, b c, e) v1 (a, b c, e) v1 (a, e) v1 () .
2) v1 ( a, b) v1 (c, e) v1 (a, b c, e) v1 (a, b c, e) v1 (a, e) v1 () .
Άρα: v1 (c, e) v1 (c, e) . Όμως, η τελευταία ισότητα αντιφάσκει με την ανισότητα
v1 (c, e) v1 (c, e) c, e c, e που προκύπτει, επειδή η συνάρτηση v1 : I {} I {} R0
είναι θετικής τιμοδότησης. Συνεπώς, η Αρχική Υπόθεση είναι λανθασμένη. Με άλλα λόγια, δεν υπάρχει
καμιά συνάρτηση v1 : I {} I {} R0 θετικής τιμοδότησης.
a b c c e
Σχήμα 7.1 Πέντε σημεία a b c c e πάνω στην ευθεία των πραγματικών αριθμών.
Για τους παραπάνω λόγους αναζητούμε συναρτήσεις μετρικές καθώς και βαθμού διάταξης στο
πλήρες πλέγμα (I1,⊑) των διαστημάτων Τ1 με διαφορετικό τρόπο, όπως περιγράφεται στη συνέχεια.
Έστω ότι το πλέγμα (I1,⊑) μπορεί να εμφυτευτεί σε ένα υπερπλέγμα (G,⊑), στο οποίο υπάρχει μια
συνάρτηση θετικής τιμοδότησης v1: G R 0 Για τον ορισμό εμφύτευσης (τάξης) καθώς και για τον ορισμό
του υπερπλέγματος βλέπε στο Παράρτημα αυτού του κεφαλαίου. Σύμφωνα με όσα παρουσιάστηκαν
παραπάνω η ύπαρξη της συνάρτησης v1: G R 0 συνεπάγεται την ύπαρξη μιας μετρικής συνάρτησης (βλέπε
στο Παράρτημα αυτού του κεφαλαίου), καθώς και συναρτήσεων βαθμού διάταξης (βλέπε στην ενότητα 7.1)
στο πλέγμα (G,⊑). Οι προαναφερθείσες συναρτήσεις (δηλ. η μετρική και η βαθμού διάταξης) ισχύουν ως
τέτοιες στο εμφυτευμένο πλέγμα (I1,⊑), όπως ζητείται να αποδειχθεί σε ερώτηση κατανόησης στο τέλος
αυτού του κεφαλαίου.
Ας επιστρέψουμε στο πλήρες πλέγμα (I1,⊑) των διαστημάτων Τ1, το οποίο προέκυψε από ένα πλήρες
πλέγμα (L,⊑) με ελάχιστο και μέγιστο στοιχείο o και i αντίστοιχα. Έστω ότι στο (L,⊑) υπάρχει μια συνάρτηση
v: L R 0 θετικής τιμοδότησης τέτοια ώστε για τους λόγους που εξηγούνται στην ενότητα 7.1, καθώς επίσης
και στο Παράρτημα αυτού του κεφαλαίου, ισχύουν οι δύο λογικές απαιτήσεις (reasonable constraints)
v(o)=0 και v(i)<+. Εξαιτίας του τρόπου ορισμού της διάταξης στο πλέγμα (I1,⊑) το ενδιαφέρον μας εδώ
εστιάζεται στο Καρτεσιανό γινόμενο πλέγμα (L,⊑)(L,⊑) = (LL,⊒⊑) των γενικευμένων διαστημάτων ως
ένα υποψήφιο υπερπλέγμα. Ένα γενικευμένο διάστημα (generalized interval) συμβολίζεται ως [a,b],
a,bL. Η διατομή (⊓) στο πλέγμα (LL,⊒⊑) υπολογίζεται ως [a,b]⊓[c,d] = [a⊔c,b⊓d], ενώ η συνένωση (⊔)
7-5
στο πλέγμα (LL,⊒⊑) υπολογίζεται ως [a,b]⊔[c,d] = [a⊓c,b⊔d]. Το πλέγμα (LL,⊒⊑) είναι και αυτό πλήρες
με ελάχιστο και μέγιστο στοιχείο O=[i,o] και I=[o,i], αντίστοιχα.
Είδαμε παραπάνω σ’ αυτήν την ενότητα ότι το άθροισμα συναρτήσεων θετικής τιμοδότησης σε κάθε
ένα από τα βασικά πλέγματα (L,⊒) και (L,⊑) είναι μια συνάρτηση θετικής τιμοδότησης στο Καρτεσιανό
γινόμενο (LL,⊒⊑). Στην προηγούμενη παράγραφο έχουμε ήδη υποθέσει την ύπαρξη μιας συνάρτησης v:
L R 0 θετικής τιμοδότησης στο πλήρες πλέγμα (L,⊑), στο οποίο ισχύουν οι δύο λογικές απαιτήσεις v(o)=0
και v(i)<+. Ο στόχος μας τώρα είναι να δείξουμε μια συνάρτηση θετικής τιμοδότησης στο (L,⊒).
Παρατηρήστε ότι η προαναφερθείσα συνάρτηση v: L R 0 θετικής τιμοδότησης στο (L,⊑) αποτελεί
συνάρτηση τιμοδότησης στο (L,⊒), όπου τα σύμβολα ⊓ και ⊔ εναλλάσσονται αμοιβαία. Συνεπώς, για
x,y(L,⊒) ισχύει v(x)+v(y) = v(x⊔y)+v(x⊓y). Ωστόσο, η τιμοδότηση v(.) δεν είναι θετική στο πλέγμα (L,⊒),
διότι x⊏y στο (L,⊒) είναι ισοδύναμο με x⊐y στο (L,⊑), άρα x⊏y στο (L,⊒) συνεπάγεται v(x)>v(y).
Το πρόβλημα της έλλειψης μιας συνάρτησης θετικής τιμοδότησης στο πλέγμα (L,⊒), δοθείσης μιας
συνάρτησης v: L R 0 θετικής τιμοδότησης στο πλέγμα (L,⊑), μπορεί να λυθεί αν θεωρήσουμε μια
(αμφιμονοσήμαντη) συνάρτηση δυϊκού ισομορφισμού : (L,⊑)(L,⊑), όπου x⊏y στο (L,⊒) είναι ισοδύναμο
με (x)⊏(y) στο (L,⊑). Συνεπώς, η σχέση x⊏y στο (L,⊒) μετασχηματίζεται στη σχέση (x)⊏(y) στο (L,⊑)
και, τελικά, συνεπάγεται v((x)) < v((y)). Έτσι, η σύνθετη (composite) συνάρτηση v (.) είναι μια
συνάρτηση θετικής τιμοδότησης στο (L,⊒) και τελικά η συνάρτηση v1([x,y]) = v((x))+v(y) αποτελεί μια
συνάρτηση θετικής τιμοδότησης στο πλέγμα (LL,⊒⊑) των γενικευμένων διαστημάτων. Επιπλέον,
παρατηρήστε ότι, επειδή η συνάρτηση (.) είναι αμφιμονοσήμαντη, οφείλει να ισχύει (o)=i, καθώς και
(i)=o. Συνεπώς, οι δύο λογικές απαιτήσεις μιας συνάρτησης θετικής τιμοδότησης v(.) ισχύουν και για τη
συνάρτηση v1(.). Συγκεκριμένα, ισχύει πρώτον, v1(O=[i,o])= v((i))+v(o)= 2v(o)= 0 και, δεύτερον,
v1(O=[o,i])= v((o))+v(i)= 2v(i) < +.
Έπεται ότι η μετρική συνάρτηση d1: (LL,⊒⊑)(LL,⊒⊑) R 0 , η οποία δίνεται από τον τύπο
d1([a,b],[c,e]) = v1([a,b]⊔[c,e]) - v1([a,b]⊓[c,e])= v1([a⊓c,b⊔e]) - v1([a⊔c,b⊓e])= v((a⊓c))+ v(b⊔e) - v((a⊔c))
- v(b⊓e) = v((a)⊔(c))-v((a)⊓(c)) + v(b⊔e)-v(b⊓e)= d((a),(c))+d(b,e), είναι επίσης μετρική στο πλέγμα
(I1,⊑). Επιπλέον, έπεται ότι η συνάρτηση βαθμού διάταξης ⊔: (LL,⊒⊑)(LL,⊒⊑)[0,1], η οποία δίνεται
v1 ([c, e]) v1 ([c, e]) v((c)) v(e)
από τον τύπο ([a, b],[c, e]) = = , είναι επίσης
v1 ([a, b] [c, e]) v1 ([a c, b e]) v((a c)) v(b e)
συνάρτηση βαθμού διάταξης ⊔: Ι1Ι1[0,1] στο εμφυτευμένο (υπο)πλέγμα (I1,⊑). Σημειώστε ότι για
v1([a,b]⊔[c,e]) = 0 [a,b]⊔[c,e] = [a,b] = = [c,e] θεωρούμε ([a, b],[c, e]) 1 εξ ορισμού. Τέλος, η
συνάρτηση βαθμού διάταξης ⊓: (LL,⊒⊑)(LL,⊒⊑)[0,1], η οποία δίνεται από τον τύπο
v ([a, b] [c, e]) v ([a c, b e]) v((a c)) v(b e)
([a, b],[c, e]) 1 = 1 = είναι επίσης συνάρτηση
v1 ([a, b]) v1 ([a, b]) v((a)) v(b)
βαθμού διάταξης ⊓: Ι1Ι1[0,1] στο εμφυτευμένο (υπο)πλέγμα (I1,⊑). Σημειώστε ότι για v1([a,b]) = 0
[a,b] = θεωρούμε ([a, b],[c, e]) 1 εξ ορισμού.
Έστω μια συνάρτηση v :L R θετικής τιμοδότησης σε πλέγμα (L,⊑) και έστω (I,) το αντίστοιχο
μδσυν των διαστημάτων. Η μη-αρνητική συνάρτηση δ1: I R 0 , η οποία υπολογίζεται ως δ1([a,b])= v(b)-v(a),
είναι συνάρτηση μεγέθους ενός διαστήματος, διότι ικανοποιεί τον ορισμό της συνάρτησης μεγέθους.
Παρατηρείστε ότι δ1([a,b]) = d(a,b)= max d x, y , όπου d :L L R0 είναι η μετρική d(x,y)= v(x⊔y)-
x , y a ,b
7-6
v(x⊓y) στο πλέγμα (L,⊑), δηλ. το μέγεθος ενός διαστήματος [a,b] ισούται με τη μέγιστη απόσταση δύο
στοιχείων x και y του διαστήματος [a,b]. Παρατηρήστε ότι κάθε τετριμμένο (trivial) διάστημα [a,a] έχει
μηδενικό μέγεθος, δηλ. δ([a,a])= 0. Επίσης, παρατηρήστε ότι κάθε τετριμμένο διάστημα [a,a] είναι άτομο στο
πλήρες πλέγμα (I1,⊑) των διαστημάτων Τ1, διότι καλύπτει το ελάχιστο στοιχείο ο= στο (I1,⊑).
και U W {u w} .
uU , wW
7-7
εναλλακτικά, city-block distance), η L2 είναι η Ευκλείδεια απόσταση (Euclidean distance) d x, y;2
Μια επιπλέον επέκταση προκύπτει αν θεωρήσουμε το Καρτεσιανό γινόμενο R…R που αντιστοιχεί
σε μη-αριθμήσιμο σύνολο βασικών πλεγμάτων (R,). Σ’ αυτήν την περίπτωση προκύπτει το μερικώς
διατεταγμένο πλέγμα (F,⊑) όλων των πραγματικών συναρτήσεων που ορίζονται πάνω στο σύνολο R των
πραγματικών αριθμών. Συγκεκριμένα, δοθέντων f,gF, η σχέση f ⊑ g ερμηνεύεται ως f ( x) g ( x) για κάθε
x R , όπου «» είναι η σχέση διάταξης (πραγματικών) αριθμών. Η διατομή (⊓) δύο στοιχείων
(συναρτήσεων) f και g στο πλέγμα (F,⊑) ορίζεται ως f⊓g = f(x)⊓g(x) := min{ f ( x), g ( x)} , ενώ η συνένωση (⊔)
xR
Σ1. ,
Σ2. A (\A) ,
Σ3. για μια συλλογή συνόλων Ai , όπου ο δείκτης i λαμβάνει τιμές σε ένα αριθμήσιμο σύνολο D,
έπεται ( iD
Ai ) .
Οι παραπάνω συνθήκες δηλώνουν ότι, μια -άλγεβρα περιλαμβάνει το κενό σύνολο και είναι κλειστή
στο συμπλήρωμα και σε κάθε αριθμήσιμη ένωση συνόλων της.
Ως μέτρο (measure) ορίζεται μια πραγματική, μη-αρνητική συνάρτηση m : R0 η οποία
ικανοποιεί τις παρακάτω συνθήκες:
7-8
Μια ειδική περίπτωση χώρου μέτρου αποτελεί ο χώρος πιθανότητας, ο οποίος ορίζεται ως ένας χώρος
μέτρου , , m με τον περιορισμό m () 1 . Συχνά, στις εφαρμογές, το σύνολο ενός χώρου μέτρου
,
, m είναι πεπερασμένο, και η -άλγεβρα ισούται με το δυναμοσύνολο 2.
Σημειώστε ότι μια επέκταση της έννοιας δυναμοσύνολο αποτελεί το ασαφές δυναμοσύνολο ως προς
σύνολο αναφοράς , συμβολικά F(Ω) = [0,1]Ω. Έχει αποδειχθεί ότι η δομή (F(Ω),) είναι πλήρες πλέγμα.
7.3.3 Προτάσεις
Το σύνολο των (αληθών/ψευδών) προτάσεων είναι μια άλγεβρα Boole (Birkhoff, 1967).
Έστω το σύνολο των (αληθών/ψευδών) προτάσεων που ενδιαφέρουν σε μια συγκεκριμένη
εφαρμογή και έστω το δυναμοσύνολο του συνόλου . Μπορούμε να ορίσουμε ένα μέτρο, δηλ. μια
συνάρτηση m : R0 , απεικονίζοντας κάθε αληθή πρόταση σε ένα θετικό αριθμό. Άρα, σύμφωνα με τα
προηγούμενα, η τριάδα , , m είναι ένας χώρος μέτρου. Συνεπώς, όλα τα μαθηματικά εργαλεία που
παρουσιάστηκαν στις προηγούμενες ενότητες γίνονται διαθέσιμα στον προτασιακό λογισμό.
7.3.4 Δένδρα
Τα «δένδρα» αποτελούν αναπαραστάσεις που μπορεί να χρησιμοποιηθούν ως μηχανισμοί λήψης αποφάσεων
ή/και μελέτης διαδικασιών, όπου κάθε κόμβος του δένδρου αναπαριστά μια απόφαση/ενέργεια (πράξη) που
μπορεί να ληφθεί/εκτελεστεί αντίστοιχα. Για παράδειγμα, το Σχήμα 7.2 δείχνει ένα δυαδικό δένδρο στο οποίο
κάθε κόμβος έχει ακριβώς δύο «κόμβους παιδιά».
Ένα δένδρο αναπαριστά ένα πλέγμα συνένωσης (join lattice), όπου κάθε ζεύγος κόμβων x και y έχει
συνένωση x⊔y, αλλά όχι διατομή x⊓y. Συγκεκριμένα, η συνένωση x⊔y δύο κόμβων είναι ο πρώτος κόμβος
όπου συναντώνται οι διαδρομές από το x και από το y προς τη ρίζα του δένδρου. Για παράδειγμα, στο Σχήμα
7.2 είναι c1⊔c4=c13, c5⊔c12=c14, c2⊔c14=c15 κ.λπ.
επίπεδο-3
c1 c2 c3 c4 c5 c6 c7 c8
Σχήμα 7.2 Δυαδικό δένδρο τριών επιπέδων με 23=8 φύλλα (κόμβους) στο επίπεδο-3.
Για να συγκρίνουμε δύο κόμβους του δένδρου στο Σχήμα 7.2 χρησιμοποιώντας είτε μια μετρική
συνάρτηση, είτε μια συνάρτηση βαθμού διάταξης, εφαρμόζουμε μια κατασκευαστική διαδικασία
τιμοδότησης, η οποία ξεκινάει με θετικές τιμές στα φύλλα του δένδρου στο επίπεδο-3, όπως φαίνεται στο
Σχήμα 7.3(α). Στη συνέχεια, τιμοδοτούνται οι κόμβοι στο αμέσως παραπάνω επίπεδο-2 αθροίζοντας τις τιμές
των παιδιών κάθε κόμβου, όπως φαίνεται στο Σχήμα 7.3(β). Συγκεκριμένα, αν ci και cj είναι οι κόμβοι παιδιά
κάποιου κόμβου ck με τιμές v(ci) και v(cj) αντίστοιχα, τότε η τιμή του γονέα κόμβου ck υπολογίζεται ως v(ck)=
v(ci)+v(cj). Προοδευτικά, τιμοδοτούνται οι κόμβοι όλων των άλλων επιπέδων μέχρι τη ρίζα του δένδρου,
όπως φαίνεται στο Σχήμα 7.3(γ).
7-9
Το δένδρο του Σχήματος 7.3(γ) μπορεί να μετασχηματιστεί σε πλήρες πλέγμα με την εισαγωγή ενός
επιπλέον κόμβου στο (νέο) επίπεδο-4, ως το ελάχιστο στοιχείο (o) με τιμή ίση με 0 (βλ. Σχήμα 7.3(δ))
Σημειώστε ότι το μέγιστο στοιχείο (i) του πλήρους πλέγματος στο Σχήμα 7.3(δ) είναι ο κόμβος-ρίζα του
δένδρου c15, δηλ. i= c15. Τώρα μπορεί να υπολογιστεί τόσο μια μετρική απόσταση (d), όσο και ένας βαθμός
διάταξης (). Για παράδειγμα, d(c1,c13)= v(c1⊔c13)-v(c1⊓c13)= v(c13)-v(c1)= 11.7-2= 9.7 και d(c3,c13)= v(c3⊔c13)-
v(c3⊓c13)= v(c13)-v(c3)= 11.7-5= 6.7. Σημειώστε ότι παρόλο που οι κόμβοι c1 και c3 βρίσκονται στο ίδιο
επίπεδο-3, ο κόμβος c3 βρίσκεται εγγύτερα στον κόμβο c13 από τον κόμβο c1 εξαιτίας της συνάρτησης
τιμοδότησης που χρησιμοποιήθηκε. Επιπλέον, η απόσταση μεταξύ των κόμβων c1 και c3 υπολογίζεται ως
d(c1,c3)= v(c1⊔c3)-v(c1⊓c3)= v(c13)-v()= 11.7-0= 11.7. Δηλ. οι κόμβοι c1 και c3 απέχουν πιο πολύ μεταξύ
τους, από όσο απέχει ο καθένας τους από τον κόμβο c13. Στη συνέχεια υπολογίζουμε βαθμούς διάταξης.
c15 c15
2 1.5 5 3.2 1 4.8 0.4 2.4 2 1.5 5 3.2 1 4.8 0.4 2.4
(α) (β)
20.3 20.3
2 1.5 5 3.2 1 4.8 0.4 2.4 2 1.5 5 3.2 1 4.8 0.4 2.4
επίπεδο-4
0
(γ) (δ)
Σχήμα 7.3 Τιμοδότηση όλων των κόμβων του δυαδικού δένδρου του Σχήματος 7.2. (α) Τιμοδότηση των φύλλων του
δένδρου. (β) Τιμοδότηση των κόμβων στο επίπεδο-2 του δένδρου. (γ) Η τιμοδότηση όλων των κόμβων του δένδρου έχει
ολοκληρωθεί. (δ) Οι τιμές που φαίνονται ορίζουν μια συνάρτηση θετικής τιμοδότησης στο πλήρες πλέγμα που προκύπτει
μετά την εισαγωγή ενός μοναδικού κόμβου (στο νέο επίπεδο-4) ως το ελάχιστο στοιχείο (o) του πλήρους πλέγματος.
7-10
Για συγκρίσιμα στοιχεία, όπως για παράδειγμα είναι τα στοιχεία c5 και c14, έπεται ⊔(c5⊑c14)=
v c14 v c14 v c5 c14 v c5
= = 1, ⊓(c5⊑c14)= = = 1. Ενώ για μη-συγκρίσιμα στοιχεία, όπως για
v c5 c14 v c14 v c5 v c5
v c14 v c14 8.6
παράδειγμα είναι τα στοιχεία c1 και c14, έπεται ⊔(c1⊑c14)= = = ≅ 0.423 και
v c1 c14 v c15 20.3
v c1 c14 0 v
⊓(c1⊑c14)= = = 0. Είναι ενδιαφέρον να επαληθεύσουμε υπολογιστικά ότι, για
=
v c1 v c1 2
συγκρίσιμα στοιχεία, ο βαθμός που ένα μεγαλύτερο στοιχείο περιέχεται σε ένα μικρότερο μπορεί να είναι μη-
v c5 v c5 1 v c14 c5
μηδενικός. Για παράδειγμα, ⊔(c14⊑c5)= = = ≅ 0.116 ≅ = ⊓(c14⊑c5).
v c14 c5 v c14 8.6 v c14
Οι προηγούμενες τεχνικές μπορούν να επεκταθούν όπως περιγράφεται στη συνέχεια.
Πρώτη επέκταση: Στο προαναφερθέν δυαδικό δένδρο αν ci και cj είναι οι κόμβοι παιδιά του ck με
τιμές v(ci) και v(cj) αντίστοιχα, τότε η τιμή του γονέα ck μπορεί να τεθεί v(ck) > v(ci)+v(cj). Αυτό έχει ως
αποτέλεσμα την ανάγκη για εισαγωγή επιπλέον στοιχείων στο πλέγμα του Σχήματος 7.3(δ), ώστε για κάθε
ζεύγος ci και cj να υπάρχει η διατομή ci⊓cj με v(ci⊓cj) > 0. Ωστόσο, προκείμενου να υπολογίσουμε μετρικές
αποστάσεις ή/και βαθμούς διάταξης, το μόνο που χρειαζόμαστε είναι η τιμή v(ci⊓cj) και όχι το στοιχείο ci⊓cj
αυτό καθαυτό. Σημειώστε ότι η τιμή v(ci⊓cj) πρέπει να υπολογιστεί έτσι, ώστε να ικανοποιούνται οι δύο
σχέσεις, v(x)+v(y) = v(x⊓y)+v(x⊔y) και x ⊏ y v x v y μιας συνάρτησης θετικής τιμοδότησης.
v( x) v(u ) v x u
Συνεπώς, προκύπτουν: d(ci,cj)= 2v(ci⊔cj)-v(ci)-v(cj) και ⊓(x,u) = .
v x
Δεύτερη επέκταση: Το δένδρο μπορεί να μην είναι δυαδικό. Σ’ αυτήν την περίπτωση εφαρμόζουμε
μια κατασκευαστική διαδικασία τιμοδότησης δίνοντας θετικές τιμές στα φύλλα του δένδρου και στη
συνέχεια, τιμοδοτώντας τους κόμβους του αμέσως παραπάνω επιπέδου ως εξής. Έστω ότι ένας κόμβος ck έχει
τους κόμβους παιδιά ci, iI. Την τιμή v(ck) την υπολογίζουμε θέτοντας v(ck) > max{v(ci ) v(c j )} .
i, jI
i j
Προοδευτικά, δηλ. ανά επίπεδο, τιμοδοτούμε όλους τους κόμβους μέχρι τη ρίζα του δένδρου.
Και στις δύο προαναφερθείσες επεκτάσεις, το πρόβλημα της τιμοδότησης των κόμβων ενός δένδρου
μπορεί να αντιμετωπιστεί ως ένα πρόβλημα βελτιστοποίησης.
Να σημειωθεί ότι ο υπολογισμός της διατομής ci⊓cj σε δένδρο, όπου ci και cj είναι κόμβοι, είναι
αναγκαίος για τον υπολογισμό διαστημάτων (μέσα σε δένδρα). Όμως, όπως εξηγήθηκε παραπάνω, ο
υπολογισμός της διατομής ci⊓cj δεν είναι προφανής σε ένα γενικό δένδρο, με εξαίρεση ειδικές περιπτώσεις
όπως το δυαδικό δένδρο στο Σχήμα 7.2, μια επέκταση του οποίου σε πλήρες πλέγμα παρουσιάζεται στο
Σχήμα 7.3(δ). Γενικά, εδώ έχουμε να αντιμετωπίσουμε ένα δυσκολότερο πρόβλημα βελτιστοποίησης, όπου,
εκτός από την τιμοδότηση των κόμβων του δένδρου, πρέπει επίσης να εισαγάγουμε και νέους κόμβους.
Η επιδίωξή μας είναι να υπολογίσουμε ένα πλέγμα (L,⊑), το οποίο να είναι εφοδιασμένο τόσο με μια
συνάρτηση θετικής τιμοδότησης v(.), όσο και με μια συνάρτηση δυϊκού ισομορφισμού (.), ώστε το αρχικό
δένδρο που μας ενδιαφέρει να είναι εμφυτευμένο στο πλέγμα (L,⊑), δηλ. να αποτελεί υποπλέγμα του (L,⊑).
Το προαναφερθέν κατασκευαστικό πρόβλημα είναι παρόμοιο με αυτό που περιγράφεται στην ενότητα 9.1.2,
όπου το πλέγμα (Ι1,) εμφυτεύεται στο πλέγμα (RR,) των γενικευμένων διαστημάτων και μπορούμε να
υπολογίσουμε τόσο συναρτήσεις θετικής τιμοδότησης v(.), όσο και συναρτήσεις δυϊκού ισομορφισμού (.).
Ωστόσο, σημειώστε ότι η αντίστοιχη κατασκευή σε δένδρα θεωρείται δυσκολότερο πρόβλημα, διότι για κάθε
διαφορετικό δένδρο θα πρέπει να κατασκευάζεται ένα διαφορετικό πλέγμα (L,⊑).
7-11
7.3.5 Συμπέρασμα
Πέραν των προαναφερθέντων συγκεκριμένων παραδειγμάτων πλεγμάτων υπάρχουν και άλλες χρήσιμες
αναπαραστάσεις υποψήφιες για ανάλυση στο πλαίσιο της θεωρίας διάταξης. Για παράδειγμα, οι οντολογίες
(ontologies) (Guarino, 2009) αποτελούν μια δημοφιλή αναπαράσταση στην επιστήμη των υπολογιστών, π.χ.
στο σημασιολογικό ιστό (semantic Web), η οποία θα μπορούσε να εμφυτευτεί σε κάποιο πλέγμα με
παρόμοιο τρόπο, όπως εξηγήθηκε στην ενότητα 7.3.3 για τα δένδρα, προκειμένου να προκύψουν τα χρήσιμα
μαθηματικά εργαλεία που παρουσιάστηκαν σ’ αυτό το κεφάλαιο.
Η θεωρία διάταξης αποτελεί ένα πεδίο για υπολογισμό με σημασιολογίες οι οποίες αναπαρίστανται
με μια σχέση μερικής διάταξης σε πλέγμα. Γενικά, η θεωρία διάταξης δίνει τη δυνατότητα
αποτελεσματικότερων αναπαραστάσεων. Επιπλέον, επειδή το Καρτεσιανό γινόμενο (ανόμοιων) πλεγμάτων
είναι και αυτό πλέγμα, η θεωρία διάταξης προβάλλει ως ένα μαθηματικά αυστηρό πλαίσιο για την ενοποίηση,
καθώς και τον αυστηρό συγκερασμό ανόμοιων τύπων δεδομένων (disparate data fusion) σε εφαρμογές
μοντελοποίησης στην ΥΝ. Τέλος, σημειώστε ότι ένας αλγόριθμος εφαρμόσιμος σε πλέγματα, π.χ. ένας
αλγόριθμος για μάθηση, έχει ευρύτατο πεδίο εφαρμογής χωρίς ουσιαστικές τροποποιήσεις. Επιλεγμένες
εφαρμογές προς επίρρωση των προαναφερθέντων πλεονεκτημάτων της θεωρίας διάταξης παρουσιάζονται στο
κεφάλαιο 9.
Δ1. ( x, x) R (Ανακλαστική)
Δ2. ( x, y) R και x y ( y, x) R (Αντισυμμετρική)
Δ3. ( x, y) R και ( y, z) R ( x, z) R (Μεταβατική)
Αντί για xRy ( x, y) R συχνά χρησιμοποιούμε το συμβολισμό x ⊑ y (x,y)⊑ και λέμε ότι «το
x περιέχεται στο y» ή ότι «το x είναι μέρος του y» ή ότι «το x είναι μικρότερο ή ίσο του y». Εάν x ⊑ y και
x y τότε γράφουμε x ⊏ y και λέμε ότι «το x είναι γνησίως μικρότερο από το y» ή «το x περιέχεται γνησίως
στο y». Παρόμοια ορίζονται τα σύμβολα x ⊒ y και x ⊐ y για την ανάστροφη σχέση R 1 .
7-12
Ως γενική πληροφόρηση αξίζει να σημειωθεί ότι ο προαναφερθείς ορισμός μιας μερικώς
διατεταγμένης σχέσης διαφέρει από τον ορισμό της (επίσης δυαδικής) σχέσης ισοδυναμίας μόνον κατά την
αντισυμμετρική συνθήκη όπως φαίνεται στη συνέχεια.
Μία δυαδική σχέση R P P σε ένα σύνολο αναφοράς P καλείται σχέση ισοδυναμίας
(equivalence relation), αν και μόνο αν ικανοποιεί τις παρακάτω συνθήκες:
Ι1. ( x, x) R (Ανακλαστική)
Ι2. ( x, y) R ( y, x) R (Συμμετρική)
Ι3. ( x, y) R και ( y, z) R ( x, z) R (Μεταβατική)
Μερικώς διατεταγμένο σύνολο (μδσυν) (partially ordered set (poset)) είναι ένα ζεύγος (P,⊑),
όπου P είναι ένα σύνολο και ⊑ είναι μια σχέση (μερικής) διάταξης στο P. Σημειώστε ότι στο ίδιο σύνολο P
μπορεί να οριστούν περισσότερες από μια (διαφορετικές) σχέσεις διάταξης, π.χ. ⊑1 και ⊑2.
Μία συνάρτηση : PQ από το μδσυν (P,⊑) στο μδσυν (Q,⊑) καλείται συνάρτηση διατήρησης
τάξης (order preserving) ή απλά μονότονη (monotone), εάν x ⊑ y (x) ⊑ (y), για x, y P . Εάν,
επιπλέον, η ικανοποιεί την αντίστροφη συνεπαγωγή x ⊑ y (x) ⊑ (y), τότε η καλείται συνάρτηση
εμφύτευσης τάξης (order embedded). Μία αμφιμονοσήμαντη συνάρτηση εμφύτευσης τάξης καλείται
ισομορφισμός (isomorphism). Όταν υπάρχει μια συνάρτηση ισομορφισμού μεταξύ δύο μδσυν (P,⊑) και
(Q,⊑), τότε τα μδσυν (P,⊑) και (Q,⊑) καλούνται ισομορφικά, συμβολικά (P,⊑) (Q,⊑). Το δυϊκό (dual) ενός
μδσυν (P,⊑) είναι ένα μδσυν (P,⊑) = (P,⊑) = (P,⊒) που ορίζεται από την ανάστροφη σχέση διάταξης πάνω
στα ίδια στοιχεία. Εάν για δύο μδσυν (P,⊑) και (Q,⊑) ισχύει (P,⊑) (Q,⊑), τότε τα (P,⊑) και (Q,⊑)
καλούνται δυϊκώς (dually) ισομορφικά.
Αρχή της δυϊκότητας (duality principle) (σε μδσυν): Η ανάστροφη ⊒ μιας σχέσης διάταξης ⊑ είναι
επίσης σχέση διάταξης. Συγκεκριμένα, η ανάστροφη διάταξη ⊒ καλείται δυϊκή της ⊑ και συμβολίζεται με ⊑
ή ⊑-1 ή ⊒. Η αρχή της δυϊκότητας χρησιμοποιείται για να επεκτείνει ορισμούς και αποδείξεις, όπως εξηγείται
στη συνέχεια.
Λαμβάνουμε τη δυϊκή πρόταση (dual statement) S μιας πρότασης S σε μδσν, εάν εναλλάξουμε
αμοιβαία τα σύμβολα ⊑ και ⊒ στην πρόταση S . Η S ισχύει για ένα διατεταγμένο σύνολο, εάν και μόνο εάν η
S ισχύει για το δυϊκό του σύνολο.
Δύο διαφορετικά στοιχεία x και y ενός μδσυν καλούνται συγκρίσιμα (comparable), εάν x ⊑ y ή y ⊑
x. Μη-συγκρίσιμα (incomparable) στοιχεία x και y καλούνται παράλληλα (parallel), συμβολικά x || y .
Μια ειδική περίπτωση μδσυν παρουσιάζεται στη συνέχεια. Αλυσίδα (chain) ή, εναλλακτικά, ολικώς
διατεταγμένο σύνολο (totally ordered set) είναι ένα μδσυν (P,⊑), το οποίο περιέχει μόνον συγκρίσιμα
στοιχεία. Για παράδειγμα, το σύνολο R των πραγματικών αριθμών με τη συνήθη σχέση διάταξης είναι ένα
μδσυν· συγκεκριμένα το μδσυν R, είναι αλυσίδα. Ένα παράδειγμα μδσυν το οποίο δεν είναι αλυσίδα
παρουσιάζεται στη συνέχεια με αναφορά στο Σχήμα 7.4.
Ένα πεπερασμένο μδσυν (P,⊑) μπορεί να αναπαρασταθεί με ένα διάγραμμα Hasse (Hasse
diagram), όπου τα στοιχεία του P απεικονίζονται με μικρούς κύκλους (κόμβους) έτσι, ώστε δύο στοιχεία
a P και b P αντίστοιχα, «άνω» και «κάτω» στο διάγραμμα, συνδέονται με μια γραμμή αν και μόνο αν το
a καλύπτει το b Λέγοντας ότι «το a καλύπτει (cover) το b» σε ένα μδσυν (P,⊑) εννοούμε ότι a ⊐ b και
επιπλέον δεν υπάρχει x P τέτοιο, ώστε a ⊐ x ⊐ b. Το Σχήμα 7.4 δείχνει το διάγραμμα Hasse του
δυναμοσυνόλου 2{a,b,c}, όπου {a,b,c} καλύπτει το {a,b}, το {a,c} καλύπτει το {c} κ.λπ. Υπενθυμίζουμε ότι
ως δυναμοσύνολο ενός συνόλου S, συμβολικά 2S, ορίζεται το σύνολο όλων των υποσυνόλων του S.
7-13
{a,b,c}
{a} {c}
{b}
{}
Σχήμα 7.4 Διάγραμμα Hasse του δυναμοσυνόλου 2{a,b,c} του συνόλου S a, b, c .
Το ελάχιστο (least) στοιχείο, εάν υπάρχει, ενός συνόλου X P σε ένα μδσυν (P,⊑) είναι το
μοναδικό στοιχείο a X , τέτοιο, ώστε a⊑x για κάθε x X . Το αντίστοιχο δυϊκό στοιχείο σε ένα σύνολο
X P καλείται μέγιστο (greatest) στοιχείο. Το ελάχιστο στοιχείο, εάν υπάρχει, σε ένα μδσυν θα
συμβολίζεται με o. Αντίστοιχα, το μέγιστο στοιχείο θα συμβολίζεται με i.
Έστω ένα μδσυν (P,⊑) με ελάχιστο στοιχείο o. Κάθε x P που καλύπτει το o, αν τέτοιο x υπάρχει,
καλείται άτομο (atom). Π.χ. τα σύνολα a , b , c στο Σχήμα 7.4 είναι άτομα.
Έστω ένα μδσυν (P,⊑) και a, b P με a ⊑ b. Ως (συνηθισμένο) διάστημα ((ordinary) interval)
a, b ορίζεται το σύνολο a, b := {xP: a ⊑ x ⊑ b}.
Έστω I το σύνολο των (συνηθισμένων) διαστημάτων στο (P,⊑). Έπεται το μδσυν (I,), όπου είναι
η σχέση υποσυνόλου. Η σχέση διάταξης [a,b][c,e] είναι ισοδύναμη με τη σχέση c⊑a⊑b⊑e. Το μδσυν (I,)
μπορεί να επεκταθεί με την εισαγωγή ενός ελάχιστου στοιχείου που είναι το κενό σύνολο (). Έτσι,
προκύπτει το μδσυν (I{},). Σημειώστε ότι η προαναφερθείσα ισοδύναμη σχέση διάταξης δεν
επεκτείνεται προφανώς στο μδσυν (I{},), διότι δεν υπάρχει μια προφανής αναπαράσταση του κενού
συνόλου () σε μορφή διαστήματος. Κάθε τετριμμένο διάστημα [x,x]I στο μδσυν (I{},) είναι άτομο.
Εάν (P,⊑) είναι μδσυν, το σύνολο a : x P : x a ονομάζεται πρωτεύον ιδεώδες (principal
ideal) (παραγόμενο από το a ), ενώ το σύνολο b : x P : x b ονομάζεται πρωτεύον φίλτρο (principal
filter) (παραγόμενο από το b ).
Ως μέγεθος (size) ενός στοιχείου του μδσυν (P,⊑) ορίζεται μια (μη-αρνητική) πραγματική συνάρτηση
δ: P R 0 , η οποία ικανοποιεί την παρακάτω ιδιότητα:
ολικώς διατεταγμένο σύνολο δεικτών, έστω μια συνάρτηση δi: Pi R 0 μεγέθους σε κάθε μδσυν (Pi,⊑i) και
έστω ο χώρος πιθανότητας , , P . Τότε, το μέγεθος ενός στοιχείου A(P,⊑), με συνιστώσες AiPi,
iΩ, είναι μια συνάρτηση δ: P R , η οποία υπολογίζεται από το γενικό τύπο:
0
7-14
δ(A) = i ( Ai )dP
.
Σημειωτέον ότι το Ω μπορεί να είναι είτε διακριτό, είτε συνεχές. Σε κάθε περίπτωση, η συνάρτηση
P : [0,1] του μέτρου πιθανότητας ερμηνεύεται ως συνάρτηση βάρους.
Οι δυαδικές πράξεις διατομή (⊓) και συνένωση (⊔) έχουν διάφορες ιδιότητες. Παραδείγματος χάριν,
οι πράξεις ⊓ και ⊔ είναι μονότονες, δηλ. y⊑z x⊓y ⊑ x⊓z και x⊔y ⊑ x⊔z, xL. Ειδικότερα, σε ένα πλήρες
7-15
πλέγμα (L,⊑) ισχύει o⊓x = o, o⊔x = x, x⊓i = x και x⊔i = i, xL. Εξ ορισμού, ατομικό (atomic) καλείται ένα
πλέγμα όπου κάθε στοιχείο ισούται με τη συνένωση ατόμων.
Στο πλαίσιο εφαρμογών ΥΝ ο αλγεβρικός ορισμός του πλέγματος είναι χρήσιμος κυρίως για
υπολογισμούς, ενώ ο σημασιολογικός ορισμός του πλέγματος είναι χρήσιμος κυρίως για λήψη αποφάσεων.
Από αυστηρά μαθηματική άποψη σημειώστε ότι η θεωρία πλεγμάτων δεν είναι τόσο γενική, όσο
είναι η θεωρία συνόλων, εξαιτίας των περιορισμών στον ορισμό του πλέγματος. Ωστόσο, στην πράξη η
θεωρία πλεγμάτων προσφέρεται για ανάλυση και σχεδίαση σε ένα ευρύ φάσμα εφαρμογών, όπως
σκιαγραφείται στην ενότητα 7.3.
Το δυϊκό, συμβολικά (L,⊑) (L,⊑) (L,⊒), ενός πλέγματος (L,⊑) είναι και αυτό πλέγμα όπου οι
πράξεις διατομή και συνένωση εναλλάσσονται αμοιβαία. Με άλλα λόγια κάθε πρόταση στο πλέγμα (L,⊑)
ισχύει επίσης στο πλέγμα (L,⊒), υπό την προϋπόθεση ότι η πράξη ⊓ αντικαθιστά την πράξη ⊔ και η πράξη ⊔
αντικαθιστά την πράξη ⊓. Έπεται ότι το δυϊκό ενός πλήρους πλέγματος είναι πλήρες πλέγμα.
Αρχή της δυϊκότητας (σε πλήρες πλέγμα): Λαμβάνουμε τη δυϊκή πρόταση μιας (θεωρητικής) πρότασης
σε πλήρες πλέγμα, εάν αντικαταστήσουμε τα σύμβολα ⊑, ⊔, ⊓, o, i με τα σύμβολα ⊒, ⊓, ⊔, i, o αντίστοιχα.
Ως υποπλέγμα (sublattice) (S,⊑) ενός πλέγματος (L,⊑) ορίζεται ένα πλέγμα με SL. Το (L,⊑)
καλείται υπερπλέγμα (superlattice) του (S,⊑). Επιπλέον, λέμε ότι το (S,⊑) είναι εμφυτευμένο στο (L,⊑).
Εάν (a,b)⊑ σε ένα πλέγμα (L,⊑) τότε το ([a,b],⊑), όπου [a,b] είναι το κλειστό διάστημα [a,b]:=
{xL: a⊑x⊑b}, είναι υποπλέγμα. Ένα υποπλέγμα (S,⊑) του πλέγματος (L,⊑) καλείται κυρτό, όταν a,bS
συνεπάγεται [a⊓b,a⊔b]S.
Ένα πλέγμα καλείται επιμεριστικό (distributive), εάν και μόνον εάν οποιεσδήποτε από τις
ακόλουθες δύο ισοδύναμες «επιμεριστικές ταυτότητες» ισχύουν για όλα τα x, y, z .
Συμπλήρωμα (complement), εάν υπάρχει, ενός στοιχείου x σε πλήρες πλέγμα (L,⊑) με ελάχιστο
(μέγιστο) στοιχείο o(i) καλείται ένα στοιχείο yL, τέτοιο, ώστε x⊓y = o και x⊔y = i. Τυπικά, το συμπλήρωμα
ενός στοιχείου xL συμβολίζεται με xL. Ένα πλέγμα (L,⊑) καλείται συμπληρωματωμένο
(complemented), εάν όλα του τα στοιχεία έχουν συμπλήρωμα. Ένα συμπληρωμένο, επιμεριστικό πλέγμα
καλείται πλέγμα Boole (Boolean lattice).
Ένα παράδειγμα πλέγματος Boole είναι το ζεύγος (2S,), όπου 2S είναι το δυναμοσύνολο ενός
συνόλου S και «» είναι η συνολοθεωρητική σχέση υποσυνόλου. Η διατομή και η συνένωση στο πλέγμα
Boole (2S,) είναι η συνολοθεωρητική τομή () και συνολοθεωρητική ένωση () αντίστοιχα.
Ως άλγεβρα Boole (Boolean algebra) ορίζουμε μια άλγεβρα (L,⊓,⊔,) με δύο δυαδικές πράξεις ⊓, ⊔
και μια εναδική πράξη που ικανοποιεί τις L1 - L8.
Δοθέντος του γεγονότος ότι το σύνολο των προτάσεων είναι μια άλγεβρα Boole όπως εξηγήθηκε
στην ενότητα 7.3.3, έπεται ότι, στα πλαίσια της Κλασικής Λογικής, οι ιδιότητες/πράξεις μιας άλγεβρας Boole
ισχύουν στο σύνολο των προτάσεων. Περαιτέρω επεκτάσεις στην Ασαφή Λογική και Συλλογιστική
παρουσιάζονται στην ενότητα 8.1.
7-16
Έστω τα πλέγματα (L,⊑) και (M,⊑). Μια συνάρτηση : LM καλείται:
Μια συνάρτηση καλείται μορφισμός (πλέγματος) ((lattice) morphism), εάν η είναι ταυτόχρονα
μορφισμός-συνένωσης και μορφισμός-διατομής. Ένας αμφιμονοσήμαντος μορφισμός καλείται ισομορφισμός
(πλέγματος) ((lattice) isomorphism).
Η ακόλουθη συνάρτηση είναι ιδιαίτερα σημαντική, στο πλαίσιο αυτού του βιβλίου.
Συνάρτηση τιμοδότησης (valuation function) σε ένα πλέγμα (L,⊑) είναι μια πραγματική
συνάρτηση v: LR που ικανοποιεί v(x)+v(y) = v(x⊓y)+v(x⊔y). Μια συνάρτηση τιμοδότησης καλείται
μονότονη (monotone), αν και μόνον αν x ⊑ y v x v y και θετική (positive) αν και μόνον αν x ⊏ y
v x v y .
Παρατηρήστε ότι μια συνάρτηση θετικής τιμοδότησης θα μπορούσε να είναι μια συνάρτηση
μεγέθους. Συγκεκριμένα, μια συνάρτηση θετικής τιμοδότησης, η οποία λαμβάνει μη-αρνητικές τιμές, είναι
συνάρτηση μεγέθους.
Οι συναρτήσεις (θετικής) τιμοδότησης συνήθως αναφέρονται στη θεωρία πλεγμάτων, χωρίς να τους
αποδίδεται κάποια ιδιαίτερη σημασία. Αντιθέτως, σ’ αυτό το βιβλίο οι συναρτήσεις θετικής τιμοδότησης είναι
κρίσιμες, διότι επιτρέπουν τον ορισμό δύο χρήσιμων συναρτήσεων, με σκοπό την (ποσοτικοποιημένη)
σύγκριση στοιχείων πλέγματος. Συγκεκριμένα, οι προαναφερθείσες δύο χρήσιμες συναρτήσεις είναι πρώτον,
ένας βαθμός διάταξης και δεύτερον, μια μετρική. Η πρώτη συνάρτηση παρουσιάζεται στην ενότητα 7.1, ενώ
η δεύτερη συνάρτηση παρουσιάζεται στη συνέχεια.
Μία συνάρτηση μονότονης τιμοδότησης v: LR σε ένα πλέγμα (L,⊑) συνεπάγεται μια ψευδομετρική
συνάρτηση d :L L R0 , η οποία δίνεται από τον τύπο d(x,y)=v(x⊔y)-v(x⊓y), x, y L . Εάν, επιπλέον, η
συνάρτηση τιμοδότησης v(.) είναι θετική, τότε η συνάρτηση d(x,y) = v(x⊔y)-v(x⊓y) είναι μετρική Για τον
ορισμό μιας (ψευδο)μετρικής συνάρτησης βλέπε στη συνέχεια.
Δοθέντος ενός συνόλου X, μετρική (metric) καλείται μία μη-αρνητική συνάρτηση d : X X R0
αν και μόνο αν ικανοποιεί τις παρακάτω συνθήκες:
M1. d ( x, y) 0 x y (Ταύτιση)
M2. d ( x, y) d ( y, x) (Συμμετρία)
M3. d ( x, z) d ( x, y) d ( y, z) (Τριγωνική Ανισότητα)
Εάν η συνθήκη Μ1 ισχύει μόνο προς τη μία κατεύθυνση, ώστε d ( x, y) 0 για κάποια x y , ενώ οι
συνθήκες Μ2 και Μ3 ισχύουν κανονικά, τότε η συνάρτηση d(.,.) καλείται ψευδο-μετρική (pseudo-metric).
Ένα σύνολο X με μια μετρική d καλείται μετρικός χώρος (metric space), συμβολικά (X,d).
Όταν σε πλέγμα (L,⊑) με μέγιστο στοιχείο i υπάρχει μια συνάρτηση v(.) θετικής τιμοδότησης, μια
λογική απαίτηση είναι να ισχύει d(x,i) < + για κάθε xL, δηλ. να απαιτείται η απόσταση οποιουδήποτε
στοιχείου xL από το μέγιστο i να είναι πεπερασμένη. Η προαναφερθείσα απαίτηση συνεπάγεται d(x,i) =
v(x⊔i)-v(x⊓i) = v(i)-v(x)< + v(i)< +.
7-17
Ερωτήσεις Κατανόησης και Ασκήσεις
7.1) Να αποδειχθεί ότι η «Αντισυμμετρική» συνθήκη Δ2 είναι ισοδύναμη με την «Αντισυμμετρική»
συνθήκη Δ2.
7.2) Να αποδειχθεί ότι οι δύο ορισμοί του πλέγματος είναι ισοδύναμοι. Με άλλα λόγια, να δειχθεί ότι ο
σημασιολογικός ορισμός του πλέγματος είναι ισοδύναμος με τον αλγεβρικό ορισμό του πλέγματος.
7.3) Να αποδειχθεί ότι το μδσυν (I{},) είναι πλέγμα. Υπόδειξη: Αποδείξτε ότι οι αλγεβρικές
πράξεις διατομή () και συνένωση (⊔), οι οποίες ορίζονται στην ενότητα 7.2.2, ικανοποιούν τις
ιδιότητες του αλγεβρικού ορισμού πλέγματος.
7.4) Έστω ένα (υπο)πλέγμα (ℓ,⊑) εμφυτευμένο στο (υπερ)πλέγμα (L,⊑). Το τελευταίο είναι εφοδιασμένο
με μια μετρική συνάρτηση d :L L R0 καθώς και με μια συνάρτηση : L L [0,1] βαθμού
διάταξης. Να αποδειχθεί ότι οι προαναφερθείσες συναρτήσεις ισχύουν ως τέτοιες στο (υπο)πλέγμα
(ℓ,⊑).
Βιβλιογραφία
Ajmal, N. & Thomas, K.V. (1994). Fuzzy lattices. Information Sciences, 79(3-4), 271-291.
Birkhoff, G. (1967). Lattice Theory (Colloquium Publications 25). Providence, RI: American Mathematical
Society.
Chakrabarty, K. (2001). On Fuzzy Lattice. In: W. Ziarko, Y.Y. Yao, eds., Rough Sets and Current Trends in
Computing (Lecture Notes in Computer Science 2005: 238-242). Berlin, Germany: Springer-Verlag.
Davey, B.A. & Priestley, H.A. (1990). Introduction to Lattices and Order. Cambridge, UK: Cambridge
University Press.
Fan, J., Xie, W. & Pei, J. (1999). Subsethood measure: new definitions. Fuzzy Sets and Systems, 106(2), 201-
209.
Goguen, J.A. (1967). L-fuzzy sets. Journal of Mathematical Analysis and Applications, 18(1), 145-174.
Grätzer, G. (2003). General Lattice Theory (2nd ed.). Basel, Switzerland: Birkhäuser Verlag AG.
Guarino, N., Oberle, D. & Staab, S. (2009). What is an ontology?. In: S. Staab, R. Studer, eds., Handbook on
Ontologies (International Handbooks on Information Systems: 1-17). Berlin, Germany: Springer-
Verlag.
Kaburlasos, V.G. (1992). Adaptive Resonance Theory With Supervised Learning and Large Database
Applications (Library of Congress-Copyright Office). Reno, NV: Univ. Nevada, Ph.D. Dissertation.
Kaburlasos, V.G. & Kehagias, A. (2014). Fuzzy inference system (FIS) extensions based on lattice theory.
IEEE Transactions on Fuzzy Systems, 22(3), 531-546.
Kaburlasos, V.G. & Papakostas, G.A. (2015). Learning distributions of image features by interactive fuzzy
lattice reasoning (FLR) in pattern recognition applications. IEEE Computational Intelligence Magazine,
10(3), 40-49.
Kehagias, A. & Konstantinidou, M. (2005). L-fuzzy valued inclusion measure, L-fuzzy similarity and L-fuzzy
distance. Fuzzy Sets and Systems, 136(3), 313-332.
Knuth, K.H. (2005). Lattice duality: the origin of probability and entropy. Neurocomputing, 67, 245-274.
Nanda, S. (1989). Fuzzy lattice. Bulletin Calcutta Mathematical Society, 81, 201-202.
Sinha, D. & Dougherty, E.R. (1993). Fuzzification of set inclusion: theory and applications. Fuzzy Sets and
Systems, 55(1), 15-42.
Sinha, D. & Dougherty, E.R. (1995). A general axiomatic theory of intrinsically fuzzy mathematical
morphologies. IEEE Transactions on Fuzzy Systems, 3(4), 389-403.
Tepavčević, A. & Trajkovski, G. (2001). L-fuzzy lattices: an introduction. Fuzzy Sets and Systems, 123(2),
209-216.
Young, V.R. (1996). Fuzzy subsethood. Fuzzy Sets and Systems, 77(3), 371-384.
Zhang, H.-Y. & Zhang, W.-X. (2009). Hybrid monotonic inclusion measure and its use in measuring
similarity and distance between fuzzy sets. Fuzzy Sets and Systems, 160(1), 107-118.
7-18
Κεφάλαιο 8: Υπολογιστικές Μεθοδολογίες σε Πλέγματα
H θεωρία πλεγμάτων προέκυψε ως παραπροϊόν μιας προσπάθειας για μαθηματική τυποποίηση της
προτασιακής λογικής του Αριστοτέλη. Συγκεκριμένα, στο πρώτο μισό του 19ου αιώνα η προσπάθεια του
George Boole για τυποποίηση της προτασιακής λογικής κατέληξε στην εισαγωγή της άλγεβρας Boole. Η
μελέτη αξιωμάτων της άλγεβρας Boole προς το τέλος του 19ου αιώνα οδήγησε τους Peirce και Schröder στην
έννοια του (μαθηματικού) πλέγματος· ανεξάρτητα, η έρευνα του Dedekind πάνω σε ιδεώδη αλγεβρικών
αριθμών (ideals of algebraic numbers) οδήγησε και αυτή στην εισαγωγή της έννοιας του (μαθηματικού)
πλέγματος (Grätzer, 2003). Τις επόμενες δεκαετίες δημοσιεύονταν αποσπασματικά αποτελέσματα της θεωρίας
πλεγμάτων, συχνά σε εχθρικό κλίμα, το οποίο συντηρούσαν μαθηματικοί κύκλοι της εποχής.
Με τη συστηματική δουλειά του Birkhoff (1967) τη δεκαετία του 1930 στο πανεπιστήμιο Harvard της
Βοστώνης ξεκίνησε η γενική ανάπτυξη της θεωρίας πλεγμάτων και, τελικά, η ανάδειξή της σε διακριτό πεδίο
των μαθηματικών. Ο Birkhoff έδειξε ότι η θεωρία πλεγμάτων ενοποιούσε μέχρι τούδε ασυσχέτιστα
μαθηματικά πεδία, όπως η γραμμική άλγεβρα, η λογική, η θεωρία πιθανοτήτων κ.ά. Σημαντική συμβολή στη
θεμελίωση της θεωρίας πλεγμάτων είχαν διάφοροι μαθηματικοί ή/και λογικιστές (logicians), όπως οι:
Jónsson, Kurosh. Malcev, Ore, von Neumann και Tarski (Rota, 1997).
Ο υπολογισμός σε πλέγματα σήμερα αποτελεί μια τάση στην ΥΝ, όπως εξηγήθηκε στην Εισαγωγή στο
Μέρος-ΙΙΙ. Σημειώστε ότι ο ενοποιητικός χαρακτήρας της θεωρίας πλεγμάτων στην ΥΝ έχει αναγνωριστεί
αποσπασματικά από διάφορους ερευνητές (Bloch & Maitre, 1995· Maragos, 2005· Nachtegael & Kerre,
2001). Αυτό το κεφάλαιο σκιαγραφεί τρεις επιστημονικές μεθοδολογίες (paradigms) υπολογισμού σε
πλέγματα που περιλαμβάνουν τις #1. Λογική και Συλλογιστική, #2. Τυποποιημένη Ανάλυση Εννοιών και #3.
Μαθηματική Μορφολογία. Συγκεκριμένα, οι μεθοδολογίες #1 και #2 βασίζονται στο σημασιολογικό ορισμό
πλέγματος και κάνουν χρήση της δυαδικής σχέσης μερική διάταξη, ενώ η μεθοδολογία #3 βασίζεται στον
αλγεβρικό ορισμό πλέγματος και κάνει χρήση των δυαδικών πράξεων συνένωση και διατομή.
0 1
0 1 1
1 0 1
Η κλασική συνεπαγωγή ( ) μπορεί να ερμηνευτεί ως μία δυαδική πράξη με τιμές αλήθειας στο
σύνολο 0,1 . Περαιτέρω, η ασαφής λογική επεκτείνει το σύνολο των τιμών αλήθειας στο διάστημα 0,1
8-1
και, συνεπώς, η συνεπαγωγή επεκτείνεται σε μία δυαδική πράξη στο διάστημα 0,1 . Δηλαδή, ασαφής
συνεπαγωγή είναι μία απεικόνιση:
I : 0,1 0,1 0,1 ,
που ικανοποιεί τον παραπάνω πίνακα της κλασικής συνεπαγωγής “ ”, όταν το διάστημα 0,1 περιοριστεί
στο διμελές σύνολο 0,1 .
Η επέκταση της κλασικής συνεπαγωγής a b a b , στην ασαφή λογική, είναι:
I S a, b S n a , b , a, b 0,1 (8.1)
όπου S , T και n , συμβολίζουν τ-συννόρμα (ασαφή διάζευξη), τ-νόρμα (ασαφή σύζευξη) και ασαφή άρνηση,
αντίστοιχα. Οι S και T είναι δυαδικές σε σχέση με την n , δηλ. ικανοποιούν τους νόμους De Morgan.
Επιπλέον, επειδή ο τύπος a b a b , μπορεί να γραφεί στη δίτιμη λογική ως:
Οι ασαφείς συνεπαγωγές που προκύπτουν από την Εξ.(8.1) αναφέρονται ως S–συνεπαγωγές, αυτές
που προκύπτουν από την Εξ.(8.2) αναφέρονται ως R-συνεπαγωγές, ενώ αυτές που προκύπτουν από την
Εξ.(8.3) αναφέρονται ως QL–συνεπαγωγές. Εκτός των παραπάνω τριών ασαφών συνεπαγωγών, που είναι οι
επικρατέστερες στη βιβλιογραφία, σημειώστε ότι έχουν οριστεί και άλλες ασαφείς συνεπαγωγές.
Γενικεύσεις ιδιοτήτων της κλασικής συνεπαγωγής οδηγούν στις ακόλουθες ιδιότητες, οι οποίες συχνά
εκλαμβάνονται ως λογικά αξιώματα των ασαφών συνεπαγωγών.
A1. a b I a, x I b, x . Δηλαδή, η τιμή αλήθειας των ασαφών συνεπαγωγών αυξάνει, καθώς η τιμή
αλήθειας των υποθέσεων φθίνει.
A2. a b I x, a I x, b . Δηλαδή, η τιμή αλήθειας των ασαφών συνεπαγωγών αυξάνει, καθώς η τιμή
αλήθειας των συμπερασμάτων αυξάνει.
A3. I 0, a 1 . Δηλαδή, η ψευδής πρόταση συνεπάγεται οτιδήποτε.
A4. I 1, b b . Ουδετερότητα της αληθούς πρότασης.
A5. I a, a 1 . Δηλαδή, οι ασαφείς συνεπαγωγές είναι αληθείς όταν οι τιμές αλήθειας του αιτίου και του
επακόλουθου είναι ίσες.
A6. I a, I b, x I b, I a, x . Αυτή είναι μια γενίκευση της ισοδυναμίας a b x και
b a x , η οποία ισχύει στη κλασική συνεπαγωγή.
A7. I a, b 1 εάν και μόνο εάν a b . Δηλαδή, οι ασαφείς συνεπαγωγές είναι αληθείς, εάν και μόνο εάν
το επακόλουθο είναι τουλάχιστον τόσο αληθές, όσο και το αίτιο.
A8. I a, b I n b , n a για μια ασαφή άρνηση n . Δηλαδή, οι ασαφείς συνεπαγωγές είναι εξίσου
αληθείς, όταν οι αρνήσεις του αιτίου και του επακόλουθου εναλλαχθούν.
A9. Η I είναι μια συνεχής συνάρτηση. Η ιδιότητα αυτή εξασφαλίζει ότι μικρές αλλαγές στις τιμές
αλήθειας του αιτίου ή του επακόλουθου, δεν επιφέρουν μεγάλες αλλαγές στις τιμές αλήθειας των
ασαφών συνεπαγωγών.
8-2
Τα αξιώματα Α1 – Α9 δεν είναι ανεξάρτητα το ένα από το άλλο, π.χ. τα A3 και A5 προκύπτουν από
το A7, όχι όμως το αντίστροφο. Μια ασαφής συνεπαγωγή δεν ικανοποιεί πάντα όλα τα αξιώματα Α1 – Α9.
Όταν όμως μια ασαφής συνεπαγωγή ικανοποιεί όλα τα αξιώματα Α1 – Α9, ικανοποιεί επίσης και το
ακόλουθο θεώρημα.
Θεώρημα Smets και Magrez. Μια συνάρτηση I : 0,1 0,1 0,1 ικανοποιεί τα αξιώματα A1 - A9 των
ασαφών συνεπαγωγών για μια ασαφή άρνηση n , αν και μόνο αν υπάρχει μία γνησίως αύξουσα συνεχής
συνάρτηση f : 0,1 0, , με f 0 0 . Τότε ισχύουν:
Εκτός του προαναφερθέντος ορισμού της ασαφούς συνεπαγωγής, ο οποίος είναι ο επικρατέστερος
στη βιβλιογραφία, αναφέρουμε και τον ακόλουθο εναλλακτικό ορισμό:
που ικανοποιεί το λογικό πίνακα της κλασικής συνεπαγωγής, όταν το 0,1 περιορίζεται στο 0,1 και
επιπλέον a,b 0,1 ικανοποιεί τις ακόλουθες ιδιότητες:
(i) a b I a, x I b, x .
(ii) a b I x, a I x, b .
(iii) I 0, a 1 .
(iv) I a,1 1 .
(v) I 1,0 0 .
(Ι1) x ( y z) y ( x z) .
(Ι2) x x I .
(Ι3) x y y ' x ' .
(Ι4) Εάν x y y x I τότε x y .
(Ι5) ( x y) y ( y x) x .
(L1) ( x y) z ( x z) ( y z) .
(L2) ( x y) z ( x z) ( y z) .
Παράδειγμα 1
Έστω ( L, , , ) ένα πλέγμα Boole. Για κάθε x, y L όρισε x y x' y . Τότε, η τετράδα ( L, , , )
είναι μια άλγεβρα συνεπαγωγών πλέγματος.
8-3
Παράδειγμα 2
Έστω L [0,1] , με πράξεις , , και να ορίζονται για κάθε x, y, z L ως εξής:
x y max{x, y} , x y min{x, y} , x' 1 x και x y min{x,1 x y} . Τότε, η επτάδα
([0,1], , ,', ,0,1) είναι μια άλγεβρα συνεπαγωγών πλέγματος, γνωστή και ως άλγεβρα του Łukasiewicz
πάνω στο διάστημα [0, 1].
Παράδειγμα 3
Έστω L {ai | i 1,2, , n} , με πράξεις , , και να ορίζονται για κάθε 1 j, k n ως εξής:
a j ak amax{ j ,k } , a j ak amin{ j ,k } , (a j )' an j 1 και a j ak amin{n j k ,n} . Τότε, η επτάδα
( L, , ,', , a1 , an ) είναι μια άλγεβρα συνεπαγωγών πλέγματος, είναι μια άλγεβρα του Łukasiewicz πάνω στην
πεπερασμένη αλυσίδα a1,a2,…,an.
Έστω ( L, , ,', , O, I ) μια άλγεβρα συνεπαγωγών πλέγματος. Τότε, για κάθε x, y, z L ενδεικτικά
αναφέρουμε τις ακόλουθες ιδιότητες:
Στο πλαίσιο της Π-προτασιακής λογικής ιδιαίτερη έμφαση έχει δοθεί στην αρχή της ανάλυσης
(resolution principle) με σκοπό μια αυτοματοποιημένη συλλογιστική (automated reasoning) (βλ.
αυτοποιημένη αποδεικτική διαδικασία) σε εφαρμογές όπου η αμφιβολία αναπαρίσταται με λογικές τιμές μέσα
σε ένα γενικό πλήρες πλέγμα.
δηλαδή Α είναι το σύνολο όλων των κοινών γνωρισμάτων των στοιχείων του A.
Αντίστοιχα, για ένα σύνολο BM αντικειμένων ορίζουμε:
8-4
Αποδεικνύεται ότι το σύνολο των τυποποιημένων εννοιών σε μια τριάδα τυποποιημένων
συμφραζόμενων αποτελεί ένα πλήρες πλέγμα (Ganter & Wille, 1999).
Η τυποποιημένη ανάλυση εννοιών (ΤΑΕ) (formal concept analysis (FCA)) είναι μια επιστημονική
μεθοδολογία που συνήθως μελετά έναν πίνακα συμφραζόμενων, π.χ. ένα ερωτηματολόγιο ή μια βάση
δεδομένων, με σκοπό να υπολογίσει ένα πλέγμα τυποποιημένων εννοιών. Το ακόλουθο παράδειγμα είναι
ενδεικτικό της ΤΑΕ.
Παράδειγμα 4
Για τον Πίνακα 8.2 τυποποιημένων συμφραζόμενων μπορούν να υπολογιστούν οι 19 τυποποιημένες έννοιες
που παρουσιάζονται στο Σχήμα 8.1.
Γνωρίσματα
a b c d e f g h i
1 Βδέλλα
2 Τσιπούρα
3 Βάτραχος
4 Σκύλος
5 Ρύζι
6 Καλαμιά
7 Φασολιά
8 Αραβόσιτος
Πίνακας 8.2 Πίνακας συμφραζόμενων αναφορικά με έναν αριθμό ζωντανών οργανισμών με τα ακόλουθα γνωρίσματα: a:
«χρειάζεται νερό για να ζήσει», b: «ζει μέσα στο νερό», c: «ζει πάνω στο έδαφος», d: «χρειάζεται χλωροφύλλη για να
τραφεί», e: «δύο φύλλα σπόρων», f: «ένα φύλλο σπόρων», g: «αυτόνομη κίνηση», h: «έχει μέλη», i: «θηλαστικό».
123
45678
ag ac ab ad
1234 5678
agh 34 12 adf
234 678 356 568
acgh abg abc acd abdf
34 123 678
36 56
acg abgh acdf
23 68
hi acde
abcgh abcdf
4 3 7 6
abcde
fghi
Σχήμα 8.1 Πλέγμα εννοιών που υπολογίστηκε από τον πίνακα στο Σχήμα 8.1.
Σημειώστε ότι έχουν προταθεί διάφοροι αλγόριθμοι υπολογισμού πλεγμάτων τυποποιημένων εννοιών
στην ΤΑΕ (Caro-Contreras & Mendez-Vazquez, 2013). Επίσης, έχουν προταθεί επεκτάσεις της ΤΑΕ στην ΥΝ
(Belohlavek, 2000). Εφαρμογές της ΤΑΕ συχνά προτείνονται για ανάκτηση (retrieval) πληροφοριών σε
βάσεις δεδομένων (data bases) (Carpineto & Romano, 1996· Priss, 2000). Επιπλέον δημοφιλείς είναι
εφαρμογές περιλαμβάνουν οντολογίες (Formica, 2006).
8-5
8.3 Μαθηματική Μορφολογία
Η μαθηματική μορφολογία (MM) (mathematical morphology (MM)) μελετά και σχεδιάζει τεχνικές
ανάλυσης και επεξεργασίας γεωμετρικών δομών. Προτάθηκε από τους Matheron (1975) και Serra (1982), οι
οποίοι ανέπτυξαν ένα σύνολο μαθηματικών εργαλείων για επεξεργασία εικόνων, θεωρώντας τις εικόνες ως
σύνολα γεωμετρικών μορφών και χρησιμοποιώντας εκτεταμένα την θεωρία πλεγμάτων για ανάλυση.
Αρχικά η ΜΜ χρησιμοποιήθηκε για την ανάλυση δυαδικών εικόνων (σύνολα σημείων) με τη χρήση
πράξεων συνόλων (Dougherty & Sinha, 1995). Για την εφαρμογή της ΜΜ σε εικόνες αποχρώσεων του γκρι,
οι πράξεις συνόλων γενικεύτηκαν με την υιοθέτηση των πράξεων ένωση, τομή και εγκλεισμός στη βάση της
θεωρίας πλεγμάτων (Bloch κ.ά., 2007). Συγκεκριμένα, η εφαρμογή τεχνικών ΜΜ τυπικά μεθοδεύεται
κάνοντας χρήση ενός δισδιάστατου δομικού στοιχείου (structure element), το οποίο σαρώνει μια ψηφιακή
εικόνα εφαρμόζοντας τους τελεστές: διαστολή (dilation), διάβρωση (erosion), άνοιγμα (opening) και
κλείσιμο (closing), με σκοπό να απομακρύνει θόρυβο από την εικόνα ή/και να ταυτοποιήσει ενδιαφέροντα
πρότυπα (patterns) πάνω στην εικόνα. Σημειώστε ότι δοθέντων δύο πλήρων πλεγμάτων (L,⊑) και (M,⊑), οι
τελεστές διάβρωση ε : LM και διαστολή δ: LM ορίζονται αντίστοιχα ως εξής:
( M) (M) και ( M) (M) ,
όπου ε(Μ) και δ(Μ) συμβολίζουν τα σύνολα {ε(α)|αΜ} και {δ(α)|αΜ} αντίστοιχα.
το Καρτεσιανό γινόμενο 2 , στον εαυτό του για κάποιο Ν{1,2,…}. Άν X, Y 2 , τότε οι πράξεις
X Y , X Y , X \ Y και X c είναι οι συνηθισμένες συνολοθεωρητικές πράξεις της ένωσης, τομής,
διαφοράς και συμπληρωματικότητας, αντίστοιχα. Έστω h E και X, B E . Τότε το σύνολο
Xh x h : x X είναι η μετατόπιση (translation) του X κατά h , ενώ το σύνολο Xt x : x X
είναι το ανάστροφο του X .
Οι περισσότερες μορφολογικές πράξεις σε σύνολα προκύπτουν από το συνδυασμό των πράξεων
συνόλων με τις βασικές πράξεις της διαστολής και της διάβρωσης, oι οποίες προκύπτουν κατά Minkowski ως
εξής:
X B Xb (8.4)
bB
X B Xb (8.5)
bB
B X B (8.6)
B X B (8.7)
Σημειώστε ότι οι πράξεις διαστολή και διάβρωση είναι δυϊκά συμπληρωματικές. Συγκεκριμένα, η
διαστολή ενός συνόλου ισοδυναμεί με τη διάβρωση του συμπληρώματος του συνόλου, με δομικό στοιχείο το
ανάστροφο δομικό στοιχείο, όπως περιγράφεται από τις παρακάτω εξισώσεις:
X B Xc Bt
c
(8.8)
X B X c Bt
c
(8.9)
8-6
Στην πράξη η διαστολή διογκώνει ένα αντικείμενο στην εικόνα, μειώνει το υπόβαθρο και
παραμορφώνει τις κυρτές γωνίες του αντικειμένου. Αντίθετα, η διάβρωση μειώνει το αντικείμενο, ενισχύει το
υπόβαθρο και παραμορφώνει τις κοίλες γωνίες του αντικειμένου.
Οι πράξεις της διαστολής και διάβρωσης υπάρχουν για κάθε μορφολογικό τελεστή, με κυριότερους
αυτούς του ανοίγματος και του κλεισίματος. Οι δύο τελευταίοι τελεστές ορίζονται αντίστοιχα ως εξής:
X B= X B B (8.10)
X B= X B B (8.11)
Η πράξη του ανοίγματος αφαιρεί τα στενά μέρη του αντικειμένου και παραμορφώνει τις κυρτές
γωνίες ενός αντικειμένου στην εικόνα, ενώ το κλείσιμο γεμίζει τα στενά τμήματα του φόντου και
παραμορφώνει τις κοίλες γωνίες ενός αντικειμένου στην εικόνα.
Μια βασική ιδιότητα των πράξεων άνοιγμα και κλείσιμο είναι ότι, αν εφαρμοστούν επαναληπτικά, δεν
επιφέρουν περαιτέρω αλλαγές μετά την πρώτη εφαρμογή τους. Δηλαδή:
X B B= X B (8.12)
X B B= X B (8.13)
8.3.3 Επεκτάσεις
Τεχνικές ΜΜ έχουν επεκταθεί και πέραν της επεξεργασίας εικόνων. Για παράδειγμα, το ανατροφοδοτούμενο
ΤΝΔ Hopfield (βλ. Κεφάλαιο 1) συχνά παρουσιάζεται ως μια τεχνική της ΜΜ.
Άλλες τεχνικές ΜΜ επιχειρούν να αντικαταστήσουν τη χρονοβόρα πράξη του πολλαπλασιασμού με
την πολύ ταχύτερη πράξη της διατομής (βλ. min) μεταξύ δύο αριθμών. Επιπλέον, κατ’ αντιστοιχία με την
έννοια γραμμικώς ανεξάρτητα διανύσματα έχει μελετηθεί η έννοια ανεξάρτητα στοιχεία πλέγματος, ώστε να
διευκολύνεται η μαθηματική ανάλυση και σχεδίαση σε εφαρμογές ΤΝΔ, επεξεργασίας σημάτων κ.ά. (Ritter
& Gader, 2006· Ritter & Urcid, 2003· Ritter & Wilson, 2000).
8-7
Ερωτήσεις Κατανόησης και Ασκήσεις
v b
8.1) Δίνεται ο βαθμός διάταξης a, b , α[0,1], b(0,1]. Θέτουμε v(x)=x και ορίζουμε
v a b
a, b =1 αν α=b=0.
(α) Να δείξετε ότι o είναι μια ασαφής συνεπαγωγή (με τον κλασικό ορισμό).
(β) Εξετάστε αν o είναι μια ασαφής συνεπαγωγή σύμφωνα με τον ορισμό Fodor & Roubens.
(γ) Ποια από τα λογικά αξιώματα των ασαφών συνεπαγωγών ικανοποιεί o ;
(δ) Αν o δεν ικανοποιεί κάποιο (κάποια) από τα λογικά αξιώματα, τότε βρείτε για ποια
α,b[0,1] ισχύει η ισότητα.
8.2) Στη βιβλιογραφία παρουσιάζονται ασαφείς συνεπαγωγές που ικανοποιούν τα παρακάτω λογικά
αξιώματα (όπου I ασαφής συνεπαγωγή και α,b,c[0,1]):
1. I a, b, c I a, b , I a, c .
2. I a, b , I n a , b b .
3. I 0.5, b , I 0.5, b b .
4. I a, I b, c I a, b , c .
b
Βρείτε ποια από τα παραπάνω λογικά αξιώματα ικανοποιεί ο βαθμός διάταξης a, b . Αν
ab
ο δεν ικανοποιεί κάποιο/κάποια από αυτά, τότε βρείτε κατάλληλα α,b,c[0,1], ώστε να ισχύει η
ισότητα.
b
8.3) Δίνεται ο βαθμός διάταξης a, b , όπου α,b[0,1] και τον οποίο (χάριν απλότητας) θα
ab
συμβολίζουμε a b a, b . Εξετάστε αν ο ικανοποιεί τις ακόλουθες ιδιότητες:
1. a b c = a c b c .
2. a b c a c b c .
3. a b c a c b c .
4. a b c a c b c .
8.4) Δίνεται ο βαθμός διάταξης a b a, b , α,b[0,1]. Να δείξετε ότι ισχύουν οι παρακάτω
σχέσεις:
1. a1 a2 a3 ... an an , αν a1 ... an και n περιττός,
a a a ... a
1 2 3 n 1 , αν a1 ... an και n άρτιος.
2. a1 a2 a2 a3 ... an1 an 1 , αν a1 ... an .
8.5) Για τον βαθμό διάταξης της Άσκησης 8.4 να δείξετε ότι ισχύουν οι παρακάτω σχέσεις:
1. a,0 0 , αν (0,1] .
2. a,1 1 για κάθε a 0,1 .
3. a, b 1 , αν a b 0 ή b 1 .
4. a, b , c a, b, c , α,b,c 0,1 .
5. a, a, b = a, a, b , αν a b .
6. a, a, b b , αν a b .
7. a, b b για κάθε a, b 0,1 .
8-8
b
8.6) Έστω a, b , α,b[0,1] και η κλασική άρνηση x =1-x. Να δείξετε ότι ισχύουν οι
ab
παρακάτω σχέσεις:
1. a, b a, b για κάθε a, b 0,1 .
2. a, a a για κάθε a 0,1 .
3. a, a a για κάθε a 0,1 .
4. a, b a , αν a b .
v b
8.7) Δίνεται ο βαθμός διάταξης a, b , όπου v μια θετικότιμη συνάρτηση τιμοδότησης
v a b
v : R R+0 . Αν στη θέση της v θέσουμε μια άλλη θετικότιμη συνάρτηση τιμοδότησης, θα αλλάξουν
οι σχέσεις =, , στις ιδιότητες του στις Ασκήσεις 8.1 – 8.6; Δικαιολογήστε την απάντησή σας.
v a b
8.8) Ένας άλλος βαθμός διάταξης που προτείνεται είναι ο a, b , αν a (0,1], b [0,1]
va
και a, b 1, αν α=b=0. Δικαιολογήστε γιατί ο αναμένεται να ικανοποιεί τις ίδιες ιδιότητες
με τον .
8.9) Να αναπτυχθεί κώδικας σε MATLAB που να υλοποιεί τις πράξεις της διαστολής, και διάβρωσης για
τυχαίο δομικό στοιχείο τετράγωνου σχήματος.
8.10) Να αναπτυχθεί κώδικας σε MATLAB που να υλοποιεί τις πράξεις του ανοίγματος, και κλεισίματος
για τυχαίο δομικό στοιχείο κυκλικού σχήματος.
8.11) Να αναπτυχθεί κώδικας σε MATLAB που να υλοποιεί τα τέσσερα μορφολογικά φίλτρα της
παραγράφου 8.3.2 για τυχαίο δομικό στοιχείο τετραγωνικού σχήματος. Να εφαρμόσετε τα
προκύπτοντα φίλτρα για την απομάκρυνση Γκαουσιανού θορύβου από μία τυχαία εικόνα. Ποια
είναι τα αποτελέσματα φιλτραρίσματος του κάθε φίλτρου;
Βιβλιογραφία
Belohlavek, R. (2000). Representation of concept lattices by birectional associative memories. Neural
Computation, 12(10), 2279-2290.
Birkhoff, G. (1967). Lattice Theory (Colloquium Publications 25). Providence, RI: American Mathematical
Society.
Birkhoff, G. & von Neumann, J. (1936). The logic of quantum mechanics. Annals of Mathematics, 37(4), 823-
843.
Bloch, I. & Maitre, H. (1995). Fuzzy mathematical morphologies: a comparative study. Pattern Recognition,
28(9), 1341-1387.
Bloch, I., Heijmans, H. & Ronse, C. (2007). Mathematical morphology. In M. Aiello, I. Pratt-Hartmann & J.
van Benthem (Eds.), Handbook of Spatial Logics (pp. 857-944). Heidelberg, Germany: Springer.
Caro-Contreras, D.E. & Mendez-Vazquez, A. (2013). Computing the concept lattice using dendritical neural
networks. In M. Ojeda-Aciego & J. Outrata (Eds.), CLA (pp. 131-152). University of La Rochelle,
France: Laboratory L3i.
Carpineto, C. & Romano, G. (1996). A lattice conceptual clustering system and its application to browsing
retrieval. Machine Learning, 24(2), 95-122.
Dougherty, E.R. & Sinha, D. (1995). Computational gray-scale mathematical morphology on lattices (a
comparator-based image algebra) part II: image operators. Real-Time Imaging, 1, 283-295.
Edmonds, E.A. (1980). Lattice fuzzy logics. Intl. J. Man-Machine Studies, 13(4), 455-465.
Formica, A. (2006). Ontology-based concept similarity in Formal Concept Analysis. Information Sciences,
176(18), 2624–2641.
8-9
Gaines, B.R. (1978). Fuzzy and probability uncertainty logics. Information and Control, 38, 154-169.
Ganter, B. & Wille, R. (1999). Formal Concept Analysis. Heidelberg, Germany: Springer.
Goguen, J.A. (1967). L-fuzzy sets. Journal of Mathematical Analysis and Applications, 18(1), 145-174.
Grätzer, G. (2003). General Lattice Theory. Basel, Switzerland: Birkhäuser Verlag AG.
Halmos, P. & Givant, S. (1998). Logic as Algebra (The Dolciani Mathematical Expositions 21). Washington,
D.C.: The Mathematical Association of America.
Lerallut, R., Decencière, É. & Meyer, F. (2007). Image filtering using morphological amoebas. Image and
Vision Computing, 25(4), 395-404.
Maragos, P. (2005). Lattice image processing: a unification of morphological and fuzzy algebraic systems. J.
Math. Imaging and Vision, 22(2-3), 333-353.
Matheron, G. (1975). Random Sets and Integral Geometry. New York, N.Y.: Wiley & Sons.
Mertzios, B.G. & Tsirikolias, K. (1998). Coordinate logic filters and their applications in image processing
and pattern recognition. Circuits, Systems, and Signal Processing, 17(4), 517-538.
Meyer, F. (1991). Un algorithme optimal pour la ligne de partage des eaux. 8ème Congrès de Reconnaissance
des formes et Intelligence Artificielle 2, Lyon, France, 847-857.
Nachtegael, M. & Kerre, E.E. (2001). Connections between binary, gray-scale and fuzzy mathematical
morphologies. Fuzzy Sets and Systems, 124(1), 73-85.
Pessoa, L.F.C. & Maragos, P. (2000). Neural networks with hybrid morphological /rank /linear nodes: a
unifying framework with applications to handwritten character recognition. Pattern Recognition, 33(6),
945-960.
Priss, U. (2000). Lattice-based information retrieval. Knowledge Organization, 27(3), 132-142.
Ritter, G.X. & Gader, P.D. (2006). Fixed Points of Lattice Transforms and Lattice Associative Memories. In
P. Hawkes (Ed.), Advances in Imaging and Electron Physics, 144 (pp. 165-242). Amsterdam, The
Netherlands: Elsevier.
Ritter, G.X. & Urcid, G. (2003). Lattice algebra approach to single-neuron computation. IEEE Transactions on
Neural Networks, 14(2), 282-295.
Ritter, G.X. & Wilson, J.N. (2000). Handbook of Computer Vision Algorithms in Image Algebra (2nd ed.).
Boca Raton, FL: CRC Press.
Rota. G.C. (1997). The many lives of lattice theory. Notices of the American Mathematical Society, 44(11),
1440-1445.
Serra, J. (1982). Image Analysis and Mathematical Morphology. London, U.K.: Academic Press.
Sussner, P. & Graña, M. (Eds.). (2003). Special Issue on: Morphological Neural Networks. J. Math. Imaging
and Vision, 19(2), 79-80.
Xu, Y., Ruan, D., Qin, K. & Liu, J. (2003). Lattice-Valued Logic (Studies in Fuzziness and Soft Computing
132). Heidelberg, Germany: Springer.
Yang, P.-F. & Maragos, P. (1995). Min-max classifiers: learnability, design and application. Pattern
Recognition, 28(6), 879-899.
8-10
Κεφάλαιο 9: Αριθμοί Διαστημάτων
Αυτό το κεφάλαιο βασίζεται στην ειδική θεωρία του κεφαλαίου 7 για να παρουσιάσει μια δημοφιλή ιεραρχία
πλεγμάτων, η οποία εδώ αναπτύσσεται προοδευτικά με αφετηρία την αλυσίδα (R,) των πραγματικών
αριθμών. Επιπλέον, παρουσιάζονται κάποια καινοτόμα μαθηματικά εργαλεία και δίνονται νέες προοπτικές
στην ΥΝ. Είναι ενδιαφέρον να ανακαλέσουμε κάποια γεγονότα σχετικά με το σύνολο R στη συνέχεια.
Το σύνολο R των πραγματικών αριθμών προκύπτει ως αποτέλεσμα μετρήσεων (measurements)
(Kaburlasos, 2006). Συγκεκριμένα, κάποιο ενδιαφέρον μέγεθος μετριέται συγκρίνοντάς το επαναληπτικά με
ένα ομοειδές πρότυπο μέγεθος, το οποίο καλείται «μέτρο», καθώς και με υποδιαιρέσεις του τελευταίου. Το
πηλίκο και το υπόλοιπο μιας μέτρησης μαζί ορίζουν έναν πραγματικό αριθμό.
Το σύνολο R μελετήθηκε κατά τη διάρκεια περίπου 2.500 ετών από την εποχή των πρωτοπόρων
Πυθαγορείων φιλοσόφων (6ος αι. π.Χ.), οι οποίοι διακήρυτταν ότι οι (φυσικοί) αριθμοί είναι η ουσία των
πάντων. Συγκεκριμένα, οι Πυθαγόρειοι θεωρούσαν ότι η αρμονία στο σύμπαν περιγράφεται με αριθμούς και
οποιοσδήποτε αριθμός μπορούσε να αναπαρασταθεί ως κλάσμα δύο φυσικών αριθμών. Δηλαδή οι
Πυθαγόρειοι θεωρούσαν μόνον τους αριθμούς που σήμερα ονομάζουμε ρητούς (rational).
Λίγους αιώνες μετά την εμφάνισή της, υπό το «βάρος» της ανακάλυψης κάποιων μη-ρητών (βλ.
άρρητων (irrational)) αριθμών, η Σχολή των Πυθαγόρειων κατέρρευσε. Γύρω στις αρχές του 20ου αιώνα
αποδείχθηκε ότι το πλήθος των άρρητων αριθμών είναι μη-αριθμήσιμο, δηλ. οι άρρητοι αριθμοί είναι
περισσότεροι από τους ρητούς. Το σύνολο όλων των αριθμών ρητών και άρρητων μαζί, ονομάστηκε σύνολο
των πραγματικών αριθμών (συμβολικά R). Διάφορες ιδιότητες του συνόλου R μελετήθηκαν. Μια
ενδιαφέρουσα ιδιότητα, στο πλαίσιο αυτού του βιβλίου, είναι ότι το σύνολο R των πραγματικών αριθμών
είναι ολικώς διατεταγμένο. Σ’ αυτό το κεφάλαιο θα βασιστούμε στην ολική διάταξη του συνόλου R για να
παρουσιάσουμε μια δημοφιλή ιεραρχία πλεγμάτων.
9-1
περιγράφεται μια διαφορετική προσέγγιση, στο πλαίσιο της θεωρίας διάταξης, με έμφαση στη σημασιολογία
και στην κοινή λογική, παρά στην άλγεβρα.
Θεωρούμε το μερικώς διατεταγμένο πλέγμα (Ι1,⊑) των διαστημάτων Τ1 σε κάποιο πλήρες πλέγμα
(L=[o,i],) πραγματικών αριθμών. Το μέγιστο κάτω φράγμα δύο διαστημάτων Τ1 [a,b] και [c,e] δίνεται από τη
σχέση [a,b]⊓[c,e]= [ac,be], εάν acbe και [a,b]⊓[c,e]= = [i,o], εάν ac>be. Ενώ, το ελάχιστο άνω
φράγμα δύο διαστημάτων Τ1 [a,b] και [c,e] δίνεται από τη σχέση [a,b]⊔[c,e]= [ac,be]. Υπενθυμίζεται ότι
το κενό σύνολο στο πλέγμα (L=[o,i],) αναπαρίσταται ως [i,o].
Δοθέντων (α) μιας συνάρτησης v: L R 0 θετικής τιμοδότησης και (β) μιας συνάρτησης : LL
δυϊκού ισομορφισμού στο πλέγμα (L,), όπως έχει παρουσιαστεί λεπτομερώς στο Επίπεδο-0, έπεται μια
συνάρτηση v1: LL R 0 θετικής τιμοδότησης στο πλέγμα (LL,) των γενικευμένων διαστημάτων, η οποία
δίδεται από τον τύπο v1([a,b])= v((a))+v(b). Συνεπώς, μπορεί να οριστεί τόσο μια μετρική συνάρτηση d1(.,.),
όσο και δύο συναρτήσεις βαθμού διάταξης ⊓(.,.) και ⊔(.,.) στο πλέγμα (LL,). Οι προαναφερθείσες
συναρτήσεις ισχύουν ως τέτοιες στο υποπλέγμα (Ι1,⊑), το οποίο είναι εμφυτευμένο στο υπερπλέγμα
(LL,). Συγκεκριμένα, οι ακόλουθες τρεις συναρτήσεις είναι διαθέσιμες στο (Ι1,⊑).
Μια μετρική συνάρτηση d1: Ι1Ι1 R 0 στο πλέγμα (I1,⊑) υπολογίζεται ως ακολούθως:
Δύο βαθμοί διάταξης ⊓: I1I1[0,1] και ⊔: I1I1[0,1] στο πλέγμα (Ι1,⊑) υπολογίζονται ως
ακολούθως:
1, x
( x [a, b], y [c, e]) v1 ( x y ) v((a c)) v(b e) (9.2)
v ( x) v((a)) v(b)
, x
1
1, x y
( x [a, b], y [c, e]) v1 ( y ) v((c)) v(e) (9.3)
v ( x y ) v((a c)) v(b e) , x y
1
Ένα διάστημα Τ1 πλην του κενού συνόλου, εδώ θα ονομάζεται συνηθισμένο διάστημα Τ1. Το μδσυν
όλων των συνηθισμένων διαστημάτων Τ1 θα συμβολίζεται με (I1p,). Η συνάρτηση δ1: I1p R 0 , η οποία
υπολογίζεται ως δ1([a,b])= v1([a,b])= v((a))+v(b), είναι μια συνάρτηση μεγέθους στο μδσυν (I1p,).
Συγκεκριμένα, η αναφερθείσα στο Κεφάλαιο 7 συνάρτηση μεγέθους δ1([a,b])= v(b)-v(a) προκύπτει όπως
εξηγείται στη συνέχεια.
Οι συναρτήσεις (.) και v(.) μπορούν να επιλεγούν με διάφορους τρόπους. Για παράδειγμα, αν
επιλέξουμε (x)= -x και v(.),ώστε v(x) = -v(-x), προκύπτει η συνάρτηση θετικής τιμοδότησης v1([a,b]) = v(b)-
v(a) = δ1([a,b]). Συνεπώς, έπεται η μετρική d1([a,b],[c,e])= [v(ac)-v(ac)] + [v(be)-v(be)]. Ειδικότερα, για
v(x)= x προκύπτει η L1 (Hamming) μετρική d1([a,b],[c,e])= |a-c| + |b-e|.
9-2
Έστω (Ι2,⊑) το μερικώς διατεταγμένο πλέγμα των διαστημάτων Τ2 που προκύπτουν σε ένα
συγκεκριμένο πλέγμα (Ι1,⊑) διαστημάτων Τ1. Το μέγιστο κάτω φράγμα δύο διαστημάτων Τ2, έστω
[[a1,a2],[b1,b2]] και [[c1,c2],[e1,e2]], δίνεται από τη σχέση [[a1,a2],[b1,b2]]⊓ [[c1,c2],[e1,e2]]=
[[a1c1,a2c2],[b1e1,b2e2]], εάν [a1c1,a2c2]⊑ [b1e1,b2e2] και [[a1,a2],[b1,b2]]⊓ [[c1,c2],[e1,e2]]= =
[[o,i],[i,o]], εάν [a1c1,a2c2]⋢ [b1e1,b2e2]. Ενώ το αντίστοιχο ελάχιστο άνω φράγμα δίνεται από τη σχέση
[[a1,a2],[b1,b2]]⊔ [[c1,c2],[e1,e2]]= [[a1c1,a2c2],[b1e1,b2e2]]. Υπενθυμίζεται ότι το κενό σύνολο στο
πλέγμα (Ι2,⊑) αναπαρίσταται ως [[o,i],[i,o]].
Από το Επίπεδο-1 ανακαλέστε τη συνάρτηση v1: LL R 0 θετικής τιμοδότησης στο πλέγμα
(LL,), η οποία δίνεται από τον τύπο v1([a,b])= v((a))+v(b). Επιπλέον, η συνάρτηση 1: LLLL, η
οποία δίνεται από τον τύπο 1([a,b])= [b,a], είναι δυϊκού ισομορφισμού στο πλέγμα (LL,) των
γενικευμένων διαστημάτων, όπως ζητείται να αποδειχθεί σε ερώτηση κατανόησης στο τέλος αυτού το
κεφαλαίου. Σύμφωνα με τα προηγούμενα έπεται μια συνάρτηση v2: LLLL R 0 θετικής τιμοδότησης, στο
πλήρες πλέγμα (LLLL, ) των γενικευμένων διαστημάτων, η οποία δίδεται από τον τύπο
v2([[a1,a2],[b1,b2]])= v1(1([a1,a2]))+v1([b1,b2])= v(a1)+v((a2))+v((b1))+v(b2). Συνεπώς, μπορεί να οριστεί
τόσο μια μετρική συνάρτηση d2(.,.), όσο και δύο συναρτήσεις βαθμού διάταξης ⊓(.,.) και ⊔(.,.) στο πλέγμα
(LLLL, ). Οι προαναφερθείσες συναρτήσεις ισχύουν ως τέτοιες στο υποπλέγμα (Ι2,⊑), το οποίο
είναι εμφυτευμένο στο υπερπλέγμα (LLLL, ). Συγκεκριμένα, οι ακόλουθες τρεις συναρτήσεις
είναι διαθέσιμες στο (Ι2,⊑).
Μια μετρική συνάρτηση d2: Ι2Ι2 R 0 στο πλέγμα (I2,⊑) υπολογίζεται ως ακολούθως:
Δύο βαθμοί διάταξης ⊓: I2I2[0,1] και ⊔: I2I2[0,1] στο πλέγμα (Ι2,⊑) υπολογίζονται ως
ακολούθως:
1, b1 b2
0, b1 b2 , b1 d1 b2 d 2
0, b1 b2 , b1 d1 b2 d 2 , [a1 c1 , a2 c2 ] [b1 e1 , b2 e2 ] (9.5)
v ([[a , a ],[b , b ]] [[c , c ],[e , e ]])
2 1 2 1 2 1 2 1 2
, διαφορετικά
v2 ([[a1 , a2 ],[b1 , b2 ]])
1, b1 b2
([[a1 , a2 ],[b1 , b2 ]],[[c1 , c2 ],[e1 , e2 ]]) 0, b1 b2 , e1 e2 (9.6)
v2 ([[c1 , c2 ],[e1 , e2 ]])
, διαφορετικά
v2 ([[a1 , a2 ],[b1 , b2 ]] [[c1 , c2 ],[e1 , e2 ]])
Ένα διάστημα Τ2 πλην του κενού συνόλου, εδώ θα ονομάζεται συνηθισμένο διάστημα Τ2. Το μδσυν
όλων των συνηθισμένων διαστημάτων Τ2 θα συμβολίζεται με (I2p,).
Το μέγεθος ενός συνηθισμένου διαστήματος Τ2, έστω [[a1,a2],[b1,b2]], είναι μια συνάρτηση δ2:
I2p R 0 , η οποία υπολογίζεται ως δ2([[a1,a2],[b1,b2]])= v1([b1,b2])-v1([a1,a2])= v((b1))+v(b2)- v((a1))-v(a2).
9-3
9.1.4 Επίπεδο-3: Το Πλέγμα (F1,≼) των Αριθμών Διαστημάτων Τύπου-1 (ΑΔ Τ1)
Στο κεφάλαιο 2 προαναφέρθηκε το θεώρημα της ταυτοποίησης, σύμφωνα με το οποίο ένα ασαφές σύνολο
μπορεί να αναπαρασταθεί ισοδύναμα είτε με τη συνάρτηση συμμετοχής του ή με το σύνολο των -διατομών
του. Το θεώρημα της ταυτοποίησης εδώ χρησιμοποιείται ως ακολούθως. Κατ’ αρχάς, εγκαταλείπεται η
ερμηνεία της εφικτότητας μιας (ασαφούς) συνάρτησης συμμετοχής ασαφών αριθμών. Κατόπιν, θεωρείται η
αντίστοιχη αναπαράσταση με -διατομές. Τελικά, προκύπτει ένας αριθμός διαστημάτων (ΑΔ), όπως
εξηγείται λεπτομερώς παρακάτω. Πρώτα, όμως, ορίζουμε έναν γενικότερο τύπο αριθμού στη συνέχεια.
Ένας γενικευμένος αριθμός διαστημάτων (ΓΑΔ) (generalized intervals’ number (GIN)) ορίζεται
ως μια συνάρτηση f: [0,1]( R R ,), όπου ( R R ,) είναι πλέγμα γενικευμένων διαστημάτων.
Έστω G το σύνολο των ΓΑΔ. Έπεται ότι το (G,⊑) είναι πλήρες πλέγμα, ως (μη-αριθμήσιμο)
Καρτεσιανό γινόμενο πλήρων πλεγμάτων ( R R ,). Στη συνέχεια, το ενδιαφέρον στρέφεται στο
υποπλέγμα των αριθμών διαστημάτων (ΑΔ).
Ο αριθμός διαστημάτων (ΑΔ) Τύπου-1 (Τ1) (intervals’ number (IN) type-1 (T1)), ΑΔ για
συντομία, ορίζεται ως μια συνάρτηση F: [0,1]I1, που ικανοποιεί τις ακόλουθες δύο σχέσεις 1)
h1 h2 Fh1 Fh2 και 2) X [0,1] : Fh F X .
hX
Το σύνολο F1 των ΑΔ (Τ1) είναι μερικώς διατεταγμένο, πλήρες πλέγμα, το οποίο συμβολίζεται ως
(F1,≼). Ένας ΑΔ ερμηνεύεται ως κόκκος πληροφορίας (Kaburlasos & Papadakis, 2006). Το σύνολο F1 των ΑΔ
έχει μελετηθεί σε μια σειρά από εργασίες. Συγκεκριμένα, έχει αποδειχθεί ότι το σύνολο F1 είναι μετρικό
πλέγμα (Kaburlasos, 2004) με πληθικότητα ίση με την πληθικότητα 1 του συνόλου R των πραγματικών
αριθμών (Kaburlasos & Kehagias, 2006)· με άλλα λόγια, υπάρχουν τόσοι ΑΔ, όσοι και πραγματικοί αριθμοί.
Επιπλέον, το σύνολο F1 είναι κώνος σε έναν γραμμικό χώρο (Papadakis & Kaburlasos, 2010).
Ένας ΑΔ μπορεί, ισοδύναμα, να αναπαρασταθεί είτε με ένα σύνολο διαστημάτων Fh, h[0,1] (αυτή
είναι η αναπαράσταση-διαστημάτων (interval-representation)), είτε με μια συνάρτηση
F(x)= {h : x Fh } (αυτή είναι η αναπαράσταση-συνάρτησης-συμμετοχής (membership-function-
h[0,1]
representation)), όπως φαίνεται στο Σχήμα 9.1. Η διατομή (⋏) και η συνένωση (⋎) στο πλέγμα (F1,≼)
δίνονται ως (F⋎G)h = Fh⊔Gh και (F⋏G)h = Fh⊓Gh, αντίστοιχα. Για παράδειγμα, το Σχήμα 9.2 δείχνει τον
υπολογισμό της συνένωσης (⋎) και της διατομής (⋏) δύο ΑΔ F και G, αντίστοιχα, χρησιμοποιώντας
αναπαραστάσεις συνάρτησης-συμμετοχής.
Ως στήριγμα ή, εναλλακτικά, φορέα ενός ΑΔ ορίζουμε το ελάχιστο άνω φράγμα διάστημα Fh .
h(0,1]
Τυπικά τα ΑΔ που χρησιμοποιούνται στην πράξη έχουν συνεχείς συναρτήσεις συμμετοχής, συνεπώς ισχύει η
ισότητα Fh F0 , δηλ. το στήριγμα ενός FF1 είναι η «βάση» του για h=0.
h(0,1]
Για ΑΔ F,GF1 έχει αποδειχθεί η επόμενη ισοδυναμία (Kaburlasos & Kehagias, 2014):
1
⋎(E,F)=
0
( Eh , Fh )dh (9.8)
9-4
E
1
E(x)
0
1 2 3 4 5 6 7 8 9 10
(α)
E
1
h
0
1 2 3 4 5 6 7 8 9 10
x
(β)
Σχήμα 9.1 Οι δύο ισοδύναμες αναπαραστάσεις ενός ΑΔ. (α) Η αναπαράσταση-συνάρτησης-συμμετοχής. (β) Η
αναπαράσταση-διαστημάτων.
h
F G
1
h1
1 2 4 5 6 8 9 10 x
a (α)
h h
F⋎G
1 1
F⋏G
h1
1 2 4 5 6 8 10 x 1 2 4 5 6 8 9 10 x
a (β) (γ)
Σχήμα 9.2 Υπολογισμός της συνένωσης (⋎) και της διατομής (⋏) στο πλέγμα (F1,≼) με τη χρήση αναπαραστάσεων
συνάρτησης-συμμετοχής. (α) Δύο ΑΔ Τ1 F και G. (β) Η συνένωση F⋎G. (γ) Η διατομή F⋏G.
9-5
Ένα μαθηματικό αποτέλεσμα με σημαντικές προεκτάσεις παρουσιάζεται στη συνέχεια, με αναφορά
στο Σχήμα 9.3 (Kaburlasos & Kehagias, 2014):
1
F(x=t) = ⋏(T,F) =
0
(Th , Fh )dh , (9.9)
όπου FF1 και T= [t,t], h[0,1] είναι ένας τετριμμένος ΑΔ, ο οποίος αναπαριστάνει έναν πραγματικό
αριθμό. Συγκεκριμένα, η Εξ.(9.9) συσχετίζει τις δύο διαφορετικές αλλά ισοδύναμες αναπαραστάσεις ενός
ΑΔ, την αναπαράσταση-συνάρτησης-συμμετοχής και την αναπαράσταση-διαστημάτων, μέσω του βαθμού
διάταξης ⋏: F1F1[0,1], στην περίπτωση που το πρώτο όρισμα της συνάρτησης ⋏(.,.) είναι ένας
τετριμμένος ΑΔ T= [t,t], h[0,1], ενώ το δεύτερο όρισμα της συνάρτησης ⋏(.,.) είναι ένας οποιοσδήποτε
ΑΔ FF1 με συνάρτηση συμμετοχής F(x). Τότε ο βαθμός διάταξης ⋏(T,F) ισούται με την τιμή της
συνάρτησης F(x) για x=t. Επιπλέον, η χρήση μιας συνάρτησης βαθμού διάταξης συνεπάγεται τα ακόλουθα
τρία πλεονεκτήματα:
Πρώτον, η χρήση είτε της συνάρτησης ⋏(T,F) είτε της συνάρτησης ⋎(T,F), συνεπάγεται τη
δυνατότητα χρήσης μη-τετριμμένων ΑΔ Τ προς αναπαράσταση της αβεβαιότητας/αμφιβολίας· δεύτερον, η
χρήση της συνάρτησης βαθμού διάταξης ⋎(T,F) έχει το επιπλέον πλεονέκτημα ότι είναι μη-μηδενική πέραν
του στηρίγματος F0 του ΑΔ F· τρίτον, και οι δύο συναρτήσεις ⋏(.,.) και ⋎(.,.) είναι παραμετρικές, συνεπώς
μπορούν να βελτιστοποιηθούν με εκτίμηση των παραμέτρων τους. Σε όλες τις (τρεις) προαναφερθείσες
περιπτώσεις, με τη χρήση μιας συνάρτησης (σ) βαθμού διάταξης, λαμβάνονται «αποφάσεις αρχών
(principled decision-making)» υπό την έννοια ότι ικανοποιούνται οι ιδιότητες C1 και C2 στον ορισμό του
βαθμού διάταξης.
Το μαθηματικό αποτέλεσμα της Εξ.(9.9) θεωρείται κρίσιμο, διότι σε συνδυασμό με τους βαθμούς
διάταξης (.,.) και (.,.) της ενότητας 9.1.6, θεμελιώνει τη χρήση οποιασδήποτε συνάρτησης f: RNR στο
πλαίσιο της διευρυμένης ΥΝ στη βάση της επιστήμης της Λογικής και συγκεκριμένα στη βάση της
Συλλογιστικής Ασαφών Πλεγμάτων (ΣΑΠ). Σημειωτέον ότι αν η συνάρτηση f: RNR δεν είναι κυρτή, τότε
μπορεί να προσεγγιστεί ικανοποιητικά με την υπέρθεση κυρτών συναρτήσεων, π.χ. συναρτήσεων Gauss ή,
ακόμα γενικότερα, κυρτών συναρτήσεων οποιουδήποτε σχήματος.
h
T F
1
hF
h1
U1 t U2 x
Σχήμα 9.3 Ένας οποισδήποτε ΑΔ FF1 και ένας τετριμμένος ΑΔ T= [t,t], h[0,1] προς επεξήγηση της Εξ.(9.9) F(x=t)
1
= ⋏(T,F) =
0
(Th , Fh )dh .
9-6
Υποθέτοντας ότι το ακόλουθο ολοκλήρωμα υπάρχει, μια μετρική συνάρτηση D1: F1F1 R 0 μεταξύ
ΑΔ Τ1 υπολογίζεται ως ακολούθως:
1
D1(F,G)= d1 ( Fh , Gh )dh , (9.10)
0
όπου δ1: I1p R 0 είναι μια συνάρτηση μεγέθους ενός συνηθισμένου διαστήματος Τ1 και p(h) είναι μια
συνάρτηση πυκνότητας πιθανότητας (probability density) ορισμένη στο διάστημα Ω= [0,1], η οποία εδώ
έχει το ρόλο μιας συνάρτησης βάρους (weight) μια ειδική περίπτωση προκύπτει για p(h)= 1, h[0,1].
Σημειώστε ότι, συνήθως, το ύψος ενός ΑΔ Τ1 ισούται με 1, δηλ. hgt(F)= 1.
9.1.5 Επίπεδο-4: Το Πλέγμα (F2,≼) των Αριθμών Διαστημάτων Τύπου-2 (ΑΔ Τ2)
Ένας Αριθμός Διαστημάτων (ΑΔ) Τύπου-2 (Τ2) (intervals’ number (IN) type-2 (T2)), ή ΑΔ T2 για
συντομία, ορίζεται ως ένα διάστημα ΑΔ Τ1. Δηλαδή, ένας ΑΔ T2 εξ ορισμού ισούται με [U,W]≐ {XF1: U ≼
X ≼ W}, όπου το U καλείται κάτω (lower) ΑΔ, ενώ το W καλείται άνω (upper) ΑΔ (του ΑΔ Τ2 [U,W]).
Το σύνολο των ΑΔ Τ2 είναι μερικώς διατεταγμένο, πλήρες πλέγμα, το οποίο συμβολίζεται ως (F2,≼).
Ένας ΑΔ Τ2 ερμηνεύεται ως κόκκος πληροφορίας (Kaburlasos & Papadakis, 2006).
Ένας ΑΔ Τ2 μπορεί, ισοδύναμα, να αναπαρασταθεί είτε με ένα σύνολο διαστημάτων [U,W]h, h[0,1]
(αυτή είναι η αναπαράσταση-διαστημάτων), είτε με δύο συναρτήσεις U(x)= {h : x U h } και W(x)=
h[0,1]
διαφορετικές, αλλά ισοδύναμες, αναπαραστάσεις ενός ΑΔ Τ2. Η διατομή (⋏) και η συνένωση (⋎) στο πλέγμα
(F2,≼) δίνονται ως (F⋏G)h = Fh⊓Gh και (F⋎G)h = Fh⊔Gh αντίστοιχα, για h[0,1]. Για παράδειγμα, ο
υπολογισμός της συνένωσης (⋎) και της διατομής (⋏) στο πλέγμα (F2,≼) παρουσιάζονται στο Σχήμα 9.5 με
αναπαραστάσεις συναρτήσεων-συμμετοχής. Συγκεκριμένα, το Σχήμα 9.5(α) δείχνει δύο ΑΔ Τ2 [f,F] και
[g,G], όπου f,F,g,GF1, ώστε f≼F και g≼G. Η συνένωση [f,F]⋎[g,G] = [f⋏g,F⋎G] φαίνεται στο Σχήμα 9.5(β),
όπου (f⋏g)h = για κάθε h(h1,1]. To Σχήμα 9.5(γ) δείχνει τη διατομή [f,F]⋏[g,G] = [f⋎g,F⋏G], όπου (f⋎g)h
= για κάθε h(h3,1], καθώς και (F⋏G)h = για κάθε h(h4,1].
Μπορούμε να ορίσουμε δύο συναρτήσεις βαθμού διάταξης ⋏: F2F2[0,1] και ⋎: F2F2[0,1]
χρησιμοποιώντας τις εξισώσεις Εξ.(9.7) και Εξ.(9.8) στη βάση συναρτήσεων βαθμού διάταξης ⊓:
I2I2[0,1] και ⊔: I2I2[0,1]. Οι τελευταίες δίνονται από τις εξισώσεις Εξ.(9.5) και Εξ.(9.6) αντίστοιχα.
Mια μετρική συνάρτηση D2: F2F2 R 0 μεταξύ ΑΔ Τ2 υπολογίζεται ως ακολούθως:
1
D2(F,G)= d 2 ( Fh , Gh )dh (9.12)
0
9-7
F
1
0.6471
0
0 2 4 6 8 10
(α)
F
1
0.6471
0
0 2 4 6 8 10
(β)
Σχήμα 9.4 Οι δύο ισοδύναμες αναπαραστάσεις ενός ΑΔ Τ2. (α) Η αναπαράσταση-συναρτήσεων-συμμετοχής και (β) Η
αναπαράσταση-διαστημάτων.
h F G
1
h4
h3
h2 f
h1 g
1 2 4 5 6 8 9 10 x
(α)
F⋎G
1 1
F⋏G
h4
h3 f⋎g
f⋏g h2
h1
1 2 4 5 6 8 10 x 1 2 4 5 6 8 9 10 x
(β) (γ)
Σχήμα 9.5 Υπολογισμός της συνένωσης (⋎) και της διατομής (⋏) στο πλέγμα (F2,≼) με τη χρήση αναπαραστάσεων
συναρτήσεων-συμμετοχής. (α) Δύο ΑΔ Τ2 [f,F] και [g,G], όπου f,F,g,GF1, ώστε f≼F και g≼G. (β) Η συνένωση
[f,F] ⋎[g,G] = [f⋏g,F⋎G]. (γ) Η διατομή [f,F] ⋏[g,G] = [f⋎g,F⋏G].
9-8
9.1.6 Επίπεδο-5: Πλέγματα Ν-άδων Αριθμών Διαστημάτων Τ1/Τ2
Θεωρήστε το Καρτεσιανό γινόμενο G= G1…GN, όπου κάθε ένα από τα πλέγματα (Gi,≼), i{1,…,N}
ισούται με (F1,≼). Δοθέντων δύο συναρτήσεων iv: Li R 0 και i: LiLi στο αντίστοιχο πλέγμα (Li,)
πραγματικών αριθμών, όπως περιγράφεται στο Επίπεδο-0, έπεται μια συνάρτηση iv1([a,b])= iv(i(a))+ iv(b)
θετικής τιμοδότησης στο πλέγμα (LiLi,) των γενικευμένων διαστημάτων και, τελικά, έπονται μετρικές
συναρτήσεις καθώς και συναρτήσεις βαθμού διάταξης στο πλέγμα (G,⊑), όπως περιγράφεται παρακάτω.
Συγκεκριμένα, μπορούμε να ορίσουμε συναρτήσεις βαθμού διάταξης με δύο διαφορετικούς τρόπους στο
πλέγμα (G,⊑), όπως εξηγείται στη συνέχεια.
Πρώτον, για κάθε h[0,1] θεωρούμε N-διάστατα ορθογώνια παραλληλεπίπεδα στο πλήρες πλέγμα
(I1 , ) . Έτσι προκύπτουν (Kaburlasos & Papadakis, 2009):
N
N
1 i v1 ( Ei )h
⊔(F,E) = N
i 1
dh , και (9.14)
0
v1 ( Fi
i
Ei ) h
i 1
N
1 i v1 ( Fi Ei ) h
⊓(F,E) = i 1
N
dh . (9.15)
0
v1 ( Fi )h
i
i 1
Δεύτερον, θεωρούμε ξεχωριστά την κάθε διάσταση στο πλέγμα ( F1N ,⊑). Συνεπώς, σε κάθε διάσταση
i{1,…,N} μπορεί να οριστεί ένας βαθμός διάταξης i: F1F1[0,1] σύμφωνα είτε με την Εξ.(9.7), είτε με
την Εξ.(9.8). Τελικά, ένας βαθμός διάταξης c: FΝFΝ[0,1] στο πλέγμα (FΝ,⊑) μπορεί να οριστεί με τον
κυρτό συνδυασμό c(F= (F1,...,FN), E= (E1,...,EN))= 11(F1,E1)+…+NN(FN,EN), όπου 1,…,N 0, ώστε
1+…+N = 1. Δύο άλλοι βαθμοί διάταξης δίνονται από τους τύπους (α) (F= (F1,...,FN), E= (E1,...,EN))=
N
min i ( Fi , Ei ) και (β) (F= (F1,...,FN), E= (E1,...,EN))=
i{1,..., N }
i ( Fi , Ei ) , αντίστοιχα (Kaburlasos &
i 1
Kehagias, 2014). Με άλλα λόγια, ο βαθμός διάταξης (F= (F1,...,FN), E= (E1,...,EN)) ισούται με τον ελάχιστο
των βαθμών διάταξης ι(Fi,Ei), i{1,...,N}, ενώ ο βαθμός διάταξης (F= (F1,...,FN), E= (E1,...,EN)) ισούται
με το γινόμενο των βαθμών διάταξης ι(Fi,Ei), i{1,...,N}.
Επιπλέον, μετρικές συναρτήσεις D: F1N R 0 στο πλέγμα ( F1N ,⊑) υπολογίζονται ως ακολούθως.
1/p
D(F= (F1,...,FN), E= (E1,...,EN)) = D1 ( F1 , E1 ) D1 ( FN , EN )
p p
, (9.16)
όπου pR, ενώ η μετρική D1: F1F1 R 0 υπολογίζεται με την Εξ.(9.10).
Το μέγεθος ενός Ν-διάστατου ΑΔ Τ1 A= (A1,…,AN) υπολογίζεται από τον κυρτό συνδυασμό
ως μια ειδική εφαρμογή του γενικού ορισμού της συνάρτησης μεγέθους σε μδσυν ( P, ) ( Pi , i) (βλ. στο
i
Παράρτημα του Κεφάλαιου 7) με Ω= {1,…,Ν}. Επιπλέον, σημειώστε ότι η συνάρτηση 1 :F1 R0 στην
Εξ.(9.17) υπολογίζεται, σύμφωνα με την Εξ.(9.11), ως μια άλλη ειδική εφαρμογή του προαναφερθέντος
γενικού ορισμού της συνάρτησης μεγέθους με Ω= [0,1].
Όλες οι συναρτήσεις σ’ αυτήν την ενότητα επεκτείνονται εύκολα σε Ν-διάστατα ΑΔ Τ2.
9-9
9.1.7 Περαιτέρω Επεκτάσεις
Στην προαναφερθείσα ιεραρχία μπορούμε να εισάγουμε τουλάχιστον ένα επιπλέον επίπεδο γενικεύοντας
κάποιον ΑΔ Τ1/Τ2 όπως περιγράφεται στη συνέχεια. Συγκεκριμένα, ένας ΑΔ Τ1/Τ2 έχει δισδιάστατη (2-Δ)
αναπαράσταση στο επίπεδο, η οποία μπορεί να γενικευτεί στις τρεις διαστάσεις (3-Δ), όπως εξηγείται στη
συνέχεια (Kaburlasos & Papakostas, 2015).
Ένας 3-Δ ΑΔ Τ1 (αντίστοιχα, Τ2) ορίζεται ως μια συνάρτηση F: [0,1]F, όπου F= F1 (αντίστοιχα,
F= F2), η οποία ικανοποιεί την σχέση z1 z2 Fz1 Fz2 . Με άλλα λόγια, ένας 3-Δ ΑΔ Τ1 (αντίστοιχα, Τ2) F
έχει μια τρισδιάστατη αναπαράσταση Fz, έτσι ώστε για σταθερό z= z0 η συνάρτηση Fz0 , η οποία ονομάζεται
ζ-Φέτα (zSlice), είναι ένας 2-Δ ΑΔ Τ1 (αντίστοιχα, Τ2). Για παράδειγμα, το Σχήμα 9.6(α) δείχνει έναν 3-Δ
ΑΔ Τ2 Fz, z[0,1], ο οποίος τέμνεται από το επίπεδο z= 0.5. Η ζ-Φέτα F0.5 είναι ένας 2-Δ ΑΤ Τ2, ο οποίος
παρουσιάζεται στο Σχήμα 9.6(β).
Έστω ότι Fg συμβολίζει είτε το σύνολο των 3-Δ ΑΔ Τ1, είτε το σύνολο των 3-Δ ΑΔ Τ2. Σε κάθε
περίπτωση η δυάδα (Fg,≼) είναι πλέγμα με διάταξη E ⊑ F Ez ≼ Fz, για κάθε z[0,1]. Μια συνάρτηση F g :
FgFg[0,1] βαθμού διάταξης στο πλέγμα (Fg,≼) δίνεται ως:
1 1
F g ( E , F ) I ( Ez )h , ( Fz )h dhdz , (9.18)
0 0
όπου η συνάρτηση I(.,.) δίνεται από μια εκ των εξισώσεων (9.2), (9.3), (9.5), (9.6).
1
h axis
0.6471
z axis
0.5
1
0
0.6471
0
6
h axis
8 0
0 0 2 4 6 8 10
10
x axis
x axis
(α) (β)
Σχήμα 9.6 (α) Ένας τρισδιάστατος (3-Δ) ΑΔ Τ2, έστω F. (β) H ζ-Φέτα F0.5 (του 3-Δ ΑΔ Τ2 F) είναι ο 2-Δ ΑΔ Τ2 του
σχήματος.
9.2.1 Ερμηνείες ΑΔ
Διάφοροι συσχετισμοί έχουν προταθεί στη βιβλιογραφία μεταξύ (κατανομής) εφικτότητας (possibility
(distribution)) και (κατανομής) πιθανότητας (probability (distribution)) (Ralescu & Ralescu, 1984·
Wonneberger, 1994). Σ’ αυτό το βιβλίο ένας ΑΔ αποτελεί ένα «μαθηματικό αντικείμενο» που μπορεί να
ερμηνευτεί με δύο, τουλάχιστον, διαφορετικούς τρόπους. Συγκεκριμένα, πρώτον, ένας ΑΔ μπορεί να
ερμηνευτεί ως ασαφής αριθμός, ο οποίος αναπαριστά μια κατανομή εφικτότητας και δεύτερον, ένας ΑΔ
μπορεί να ερμηνευτεί ως κατανομή πιθανότητας, όπως εξηγείται στη συνέχεια.
9-10
Έστω μια κατανομή πιθανότητας, σύμφωνα με την οποία επιλέγουμε τον πληθυσμό των δειγμάτων
(βλ. πραγματικών αριθμών) που φαίνονται στο Σχήμα 9.7(α). Έστω Μ= 5.96 η τιμή του διάμεσου (median)
του δείγματος, δηλ. εκείνης της τιμής που χωρίζει το σύνολο των δειγμάτων σε δυο ισάριθμα υποσύνολα. Το
Σχήμα 9.7(β) δείχνει την αντίστοιχη, γνησίως αύξουσα συνάρτηση αθροιστικής κατανομής (cumulative
distribution function) c(.) με c(5.96)= 0.5. Το Σχήμα 9.7(γ) δείχνει τον υπολογισμό ενός ΑΔ E με τον εξής
τρόπο: Για κάθε x Μ= 5.96 υπολογίζεται η συνάρτηση 2c(x), ενώ για κάθε x > Μ= 5.96 υπολογίζεται η
συνάρτηση 2(1-c(x)). Ο προαναφερθείς αλγόριθμος ονομάζεται «CALCIN» και υπολογίζει τον ΑΔ E που
φαίνεται στο Σχήμα 9.7(γ) με αναπαράσταση-συνάρτησης-συμμετοχής E(x), η οποία ερμηνεύεται ως μια
κατανομή πιθανότητας. Συγκεκριμένα, αν F είναι ένας ΑΔ, ο οποίος υπολογίστηκε με τον αλγόριθμο
CALCIN, τότε το διάστημα F(h) περιλαμβάνει το 100(1-h)% της κατανομής, ενώ το υπόλοιπο 100h%
κατανέμεται εξίσου κάτω- και επάνω- από το F(h) (Kaburlasos, 2004· Kaburlasos, 2006· Kaburlasos &
Pachidis, 2014· Kaburlasos & Papadakis, 2006· Papadakis & Kaburlasos, 2010).
1 distr. function 1
c
0.5
0 0
0 2 4 5.96 8 10 0 2 4 5.96 8 10
(α) (β)
E
1
2(1-c)
E(x)
2c
0
0 2 4 5.96 8 10
(γ)
Σχήμα 9.7 (α) Μια κατανομή δειγμάτων (βλ. πραγματικών αριθμών) στο διάστημα [0, 10], με τιμή διάμεσου M= 5.96.
(β) Η αντίστοιχη συνάρτηση αθροιστικής κατανομής c(.). (γ) Υπολογισμός του ΑΔ E από τη συνάρτηση κατανομής c(.)
σύμφωνα με τον αλγόριθμο CALCIN.
Ιδιαίτερο ενδιαφέρον έχει ένας ΑΔ της μορφής [a,b], για κάθε h[0,1], ο οποίος αναπαριστά το
διάστημα [a,b] πραγματικών αριθμών. Έτσι, στις Ν διαστάσεις προκύπτει ο χώρος των ορθογώνιων
παραλληλεπίπεδων (Kaburlasos, 2006), ο οποίος έχει τραβήξει το ερευνητικό ενδιαφέρον (Dietterich κ.ά.,
1997· Long & Tan, 1998· Salzberg, 1991· Samet, 1988) χάρη στην απλότητα και την αποτελεσματικότητά
του σε υπολογιστικές εφαρμογές. Σημειώστε, επίσης, ότι η συνάρτηση βαθμός διάταξης είχε αρχικά
παρουσιαστεί με το όνομα μέτρο εγκλεισμού (inclusion measure), διότι χρησιμοποιούνταν μόνο με
ορθογώνια παραλληλεπίπεδα αντί για Ν-διάστατους ΑΔ. Αργότερα επεκτάθηκε σε γενικά πλέγματα, οπότε το
αρχικό όνομα (βλ. μέτρο εγκλεισμού) άλλαξε σε βαθμός διάταξης.
9-11
9.2.2 Αναπαράσταση ΑΔ
Από πρακτική άποψη, ένας ΑΔ F αναπαρίσταται στη μνήμη του υπολογιστή με ένα L2 πίνακα [a1 b1; a2
b2;…; aL bL] πραγματικών αριθμών, όπου L είναι ο προκαθορισμένος από το χρήστη, αριθμός επιπέδων h1,
h2,…, hL, ώστε 0<h1h2…hL=1. Στην πράξη συνήθως χρησιμοποιούμε L=16 ή L=32 επίπεδα ανά ίσα
διαστήματα στο διάστημα [0,1]. Σημειώστε ότι ένας αριθμός 16 ή 32 επιπέδων έχει επίσης προταθεί σε
εφαρμογές ασαφών συστημάτων συμπερασμού που βασίζονται σε -διατομές ασαφών αριθμών (Kaburlasos &
Kehagias, 2014· Uehara & Fujise, 1993· Uehara & Hirota, 1998).
Σε συνέχεια των παραπάνω παραδοχών, ένας 2-Δ ΑΔ Τ2, έστω [U,W], αναπαρίσταται με έναν L4
πίνακα, διότι για κάθε ένα από τα “L” επίπεδα κατά μήκος του άξονα h αποθηκεύουμε δύο διαστήματα: Ένα
διάστημα για τον κάτω ΑΔ U και ένα διάστημα για τον άνω ΑΔ W. Τέλος, ένας 3-Δ ΑΔ Τ2 αναπαρίσταται με
έναν L4L πίνακα, διότι για κάθε ένα από τα “L” επίπεδα κατά μήκος του άξονα z αποθηκεύουμε έναν 2-Δ
ΑΔ Τ2.
9.2.3 Υπολογισμοί με ΑΔ
Διάφορες αριθμητικές ασαφών αριθμών έχουν προταθεί στη βιβλιογραφία, κάποιες από τις οποίες βασίζονται
σε αριθμητικές διαστημάτων (interval arithmetic) (Kaufmann & Gupta, 1985· Moore & Lodwick, 2003).
Σ’ αυτήν την ενότητα παρουσιάζεται μια νέα αριθμητική στο χώρο των ΑΔ, η οποία βασίζεται σε μια νέα
αριθμητική διαστημάτων με λιγότερους αλγεβρικούς περιορισμούς για μεγαλύτερη υπολογιστική ευελιξία.
Έστω το πλήρες πλέγμα (L=[-,+], ). Το πλέγμα (LL, ) των γενικευμένων διαστημάτων είναι
ένας γραμμικός χώρος (linear space) (Papadakis & Kaburlasos, 2010), διότι μπορεί να οριστεί μια πράξη
πρόσθεσης, καθώς και μια πράξη πολλαπλασιασμού, όπως εξηγείται στη συνέχεια.
Η πράξη της πρόσθεσης μεταξύ γενικευμένων διαστημάτων ορίζεται ως:
ενώ η πράξη του πολλαπλασιασμού ενός γενικευμένου διαστήματος και ενός πραγματικού αριθμού ορίζεται
ως:
k[a,b] = [ka, kb].
9-12
Μπορούμε να εισάγουμε έναν μη-γραμμικό μετασχηματισμό (Kaburlasos κ.ά., 2013) στο χώρο των
διαστημάτων Τ1 θεωρώντας μια γνησίως αύξουσα πραγματική συνάρτηση f: RR. Συγκεκριμένα, ένα
διάστημα Τ1 [a,b] μετασχηματίζεται στο διάστημα Τ1 [f(a), f(b)]. Επεκτάσεις μπορούν να γίνουν και στο
χώρο F1 των ΑΔ, όπου, δοθείσης μιας γνησίως αύξουσας πραγματικής συνάρτησης f: RR, ένας ΑΔ
μετασχηματίζεται σε έναν άλλον ΑΔ ως ακολούθως [f(F)]h = f(Fh), h[0,1]. Για παράδειγμα, το Σχήμα 9.8(α)
απεικονίζει μια γνησίως αύξουσα συνάρτηση, αυτή είναι η σιγμοειδής συνάρτηση f(x) = (1-e-x)/(1+e-x), η
οποία μετασχηματίζει τους ΑΔ X1, X2 και X3 του Σχήματος 9.8(α) στους Y1= f(X1), Y2= f(X2) και Y3=
f(X3), αντίστοιχα, του Σχήματος 9.8(β).
1.5
X1 X2 X3
1
0.5
-0.5
f(x)
-1
-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8
(α)
Y1 Y2 Y3
1
0.8
0.6
0.4
0.2
0
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
(β)
Σχήμα 9.8 (α) Η σιγμοειδής συνάρτηση f(x) = (1-e-x)/(1+e-x) και τρεις ΑΔ X1, X2 και X3. (β) Το πεδίο ορισμού [0,1] των
εικόνων Y1= f(X1), Y2= f(X2) και Y3= f(X3) εξ ορισμού ισούται με το πεδίο τιμών [0,1] της σιγμοειδούς f(x) = (1-e-
x
)/(1+e-x).
9-13
1 1
0.8 0.8
w w
x
0.4 0.4
u u
0.3 x 0.3
0.2 0.2
0 0.2 0.4 0.5 0.6 0.9 1 0 0.2 0.4 0.5 0.6 0.9 1
(α) (β)
Σχήμα 9.9 (α) και (β): Η ιδιότητα της Συνέπειας «u⊑w x, u x, w » εγγυάται ότι όταν ένα κουτί u είναι εντός
ενός άλλου w, τότε κάθε κουτί x (ή x) περιέχεται, με την έννοια ενός βαθμού διάταξης, περισσότερο στο w παρά στο u.
9-14
V (u ) v( (0.6)) v(0.7) v( (0.5)) v(0.6) 2.2 2 .8
προκύπτει ⊔(xd,u)= = = 0.6471 και ⊔(xd,w)=
V ( xd u ) v( (0.3)) v(0.7) v( (0)) v(1) 3.4 3.6
0.7778. Συνεπώς, επαληθεύεται η ανισότητα ⊔(xd,u)⊔(xd,w) στο Σχήμα 9.10(β).
1 1
xm w xd w
0.8 0.8
u u
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0 0.3 0.5 0.6 0.7 0.9 1 0 0.3 0.5 0.6 0.7 0.9 1
(α) (β)
Σχήμα 9.10 Η ιδιότητα της Συνέπειας «u⊑w x, u x, w » ισχύει με «απόντα δεδομένα» ή/και με «αδιάφορα
δεδομένα». (α) «απόν δεδομένο» κατά μήκος του κατακόρυφου άξονα, συγκεκριμένα είναι xm= [0.3,0.3] [1,0]. (β)
«Αδιάφορο δεδομένο» κατά μήκος του κατακόρυφου άξονα, συγκεκριμένα είναι xd= [0.3,0.3][0,1].
9-15
Η γραμμή 16 στο Σχήμα 9.12 αφομοιώνει την είσοδο Xi επανυπολογίζοντας το WJ σύμφωνα με τη
σχέση WJ ≐ WJ⊔Xi, όταν ήδη έχει εκπληρωθεί η συνθήκη (WJ⊑Xi) a . Η τελευταία συνεπάγεται
N N (1 a )
a (WJ X i ) . Με άλλα λόγια, ο υπολογισμός WJ ≐ WJ⊔Xi
N (WJ X i ) a
πραγματοποιείται μόνο όταν το μέγεθος Δ(WJ⊔Xi) του ορθογωνίου παραλληλεπίπεδου WJ⊔Xi είναι μέχρι
N (1 a )
. Για τους παραπάνω λόγους ο αλγόριθμος ΣΑΠ για ταξινόμηση, ακόμη και όταν εφαρμόζεται στο
a
γενικότερο πλέγμα ( F1N ,⊑) ή στο πλέγμα ( F2N ,⊑), συχνά ελέγχει τη συνθήκη «Δ(WJ⊔Xi) a » αντί της
συνθήκης «(WJ⊑Xi) a » προκειμένου να προβεί στον υπολογισμό WJ ≐ WJ⊔Xi.
Ένα ζεύγος συναρτήσεων v(.) και (.), το οποίο ικανοποιεί τη συνθήκη v1([a,a])= v(θ(a))+v(a)= 1 στο
βασικό πλέγμα (L=[0,1],) είναι το v(x)= x και (x) = 1-x. Ένα άλλο τέτοιο ζεύγος, το οποίο ικανοποιεί τη
1
συνθήκη v1([a,a])= v(θ(a))+v(a)= 1 στο βασικό πλέγμα (L=[-,+],) είναι το v(x)= ( x )
και (x) =
1 e
1
2-x. Σημειωτέον ότι η συνάρτηση v(x)= είναι γνωστή (α) στη στατιστική ανάλυση με το όνομα
1 e ( x )
λογιστική (logistic) συνάρτηση (Kleinbaum & Klein, 2002) και (β) στη βιβλιογραφία των ΤΝΔ με το όνομα
σιγμοειδής (sigmoid) συνάρτηση (Duda κ.ά., 2001). Η μαθηματική ανάλυση εδώ παρουσίασε ένα
πλεονέκτημα της προαναφερθείσας συνάρτησης v(.) στο χώρο των ΑΔ.
N
1: Έστω ένα σύνολο {W1 ,...,W|C| } C 2F1 , έστω K = |C| η πληθικότητα του συνόλου C και έστω η σταθερά
επαγρύπνησης (vigilance parameter) ρ[0,1] η οποία ορίζεται από κάποιον χρήστη.
2: Από i = 1 έως i = ntrn κάνε
3: Θεώρησε την επόμενη είσοδο (ΑΔ) Xi F1N .
4: Έστω το σύνολο S ≐ C.
5: J = argmax[( X i W j )] .
j{1,...,| S |}
W j S
9-16
N
1: Έστω ένα σύνολο {W1 ,...,W|Ca | } Ca 2F1 , έστω K = |Ca| η πληθικότητα του συνόλου Ca, έστω η σταθερά
επαγρύπνησης a [0,1], η οποία ορίζεται από κάποιον χρήστη, έστω ε ένας πολύ μικρός θετικός αριθμός, έστω B=
{b1,…,bL} ένα σύνολο από «ετικέτες», και έστω μια συνάρτηση : F1N B πάνω στο Ca.
2: Από i = 1 έως i = ntrn κάνε
3: Θεώρησε την επόμενη είσοδο (Xi,ℓ(Xi)) F1N B .
4: Έστω το σύνολο S ≐ Ca.
5: J = argmax[( X i W j )] .
j{1,...,| S |}
W j S
N
1: Έστω ένα σύνολο {W1 ,...,WK } C 2F1 από ΑΔ, έστω |C| η πληθικότητα του συνόλου C, έστω ένα σύνολο B=
{b1,…,bL} από ετικέτες, και έστω μια απεικόνιση : F1N B .
2: Από i = 1 έως i = ntst κάνε
3: Θεώρησε το επόμενο ζευγάρι εισόδου (Xi,bi) F1N B προς αναγνώριση.
4: J = argmax[( X i W j )] .
j{1,...,|C |}
W j C
9-17
9.3.2 Αλγόριθμοι Παλινδρόμησης
Δύο ΑΔ μπορούν να προστεθούν μεταξύ τους. Επίσης, ένας ΑΔ μπορεί να πολλαπλασιαστεί με μη-αρνητικό
αριθμό ή/και να μετασχηματιστεί μη-γραμμικά με τη χρήση μιας (γνησίως) αύξουσας συνάρτησης. Με
εκτέλεση των προαναφερθέντων δύο πράξεων (βλ. πρόσθεση και πολλαπλασιασμός) προκύπτει ένας
αλγόριθμος παλινδρόμησης, ο οποίος απεικονίζει μη-γραμμικά μια Ν-άδα ΑΔ σε ένα ΑΔ. Για παράδειγμα,
θεωρήστε το ΤΝΔ στο Σχήμα 1.2 με βάρη που είναι μόνον θετικοί αριθμοί και εισόδους ΑΔ. Σύμφωνα με τα
προηγούμενα, το ΤΝΔ στο Σχήμα 1.2 μπορεί να υλοποιήσει μια συνάρτηση παλινδρόμησης f: F1N F1
(Kaburlasos κ.ά., 2013). Συνεπώς, η αρχιτεκτονική του Σχήματος 1.2 μπορεί να υλοποιήσει ένα νευρο-ασαφές
σύστημα, αν ένας ΑΔ ερμηνευτεί ως μια κατανομή εφικτότητας. Επεκτάσεις σε ΑΔ Τ2 (Mendel, 2013) είναι
κατευθείαν υλοποιήσιμες.
Περαιτέρω δυνατότητες προκύπτουν αν ένας ΑΔ ερμηνευτεί ως μια κατανομή πιθανότητας. Στην
τελευταία περίπτωση, η αρχιτεκτονική στο Σχήμα 1.2 μπορεί να υπολογίσει μια κατανομή (στην έξοδο του
ΤΝΔ) από Ν κατανομές (στην είσοδο του ΤΝΔ). Συνεπώς, αν ένας ΑΔ αναπαριστάνει μια (τεράστια)
κατανομή αριθμητικών δειγμάτων τότε ο χειρισμός ΑΔ συνεπάγεται τον χειρισμό τεράστιων δεδομένων
(Kaburlasos & Papakostas, 2015).
9-18
p⊔q
p⊔q (ε)
(ε)
p
p q
p⊓q q
p⊓q
(α) (β)
Απόδειξη: Έστω μια ευθεία (ε) με μια τυχαία αρχή και δύο κύκλοι p,qCε. Προς τη μία κατεύθυνση,
η (ορθή) προβολή ενός κύκλου cCε πάνω στην ευθεία (ε) είναι ένα ευθύγραμμο τμήμα [ac,bc]
τέτοιο, ώστε acbc, αν και μόνο αν ο κύκλος c έχει θετική ακτίνα ίση με (bc-ac)/2 και ac>bc, αν και
μόνο αν ο κύκλος c έχει αρνητική ακτίνα ίση με (bc-ac)/2. Προς την άλλη κατεύθυνση, δοθείσης της
προβολής [ac,bc] ενός κύκλου cCε, ο κύκλος c κατασκευάζεται με κέντρο το μέσον του
διαστήματος [ac,bc] και ακτίνα ίση με (bc-ac)/2. Συνεπώς, υπάρχει μια αμφιμονοσήμαντη αντιστοιχία
μεταξύ του συνόλου των κύκλων στο Cε και του συνόλου των γενικευμένων διαστημάτων στο
πλέγμα ([-,-][-,-],).
Δοθέντων των προβολών [ap,bp] και [aq,bq] δύο κύκλων p,qCε η διατομή υπολογίζεται ως
[ap,bp]⊓[aq,bq]= [apaq,bpbq] και η συνένωση υπολογίζεται ως [ap,bp]⊔[aq,bq]= [apaq,bpbq].
Ως συνάρτηση v: R R 0 θετικής τιμοδότησης μπορεί να οριστεί μια γνησίως αύξουσα
συνάρτηση πάνω στην «ευθεία των ακτίνων». Επίσης, ως συνάρτηση : RR δυϊκού
ισομορφισμού μπορεί να οριστεί μια γνησίως φθίνουσα συνάρτηση πάνω στην «ευθεία των
ακτίνων». Σημειωτέον ότι διαφορετικές συναρτήσεις v(.) και (.) μπορούν να οριστούν πάνω σε
διαφορετικές ευθείες. Ωστόσο, όταν ορίσουμε ίδιες συναρτήσεις v(.) και (.) πάνω σε κάθε ευθεία
του επιπέδου τότε το επίπεδο καλείται ισοτροπικό (isotropic).
Τα προηγούμενα μπορούν να επεκταθούν σε υπερ-σφαίρες στον χώρο RN.
Ερωτήσεις:
(α) Να υπολογίσετε μια μετρική ανάμεσα στον κύκλο με κέντρο το σημείο (1,1) και ακτίνα r= 1 και
στον κύκλο με κέντρο το σημείο (2,3) και ακτίνα R= -2.
(β) Δείξτε μια συνάρτηση v: CεCε R 0 θετικής τιμοδότησης που να ικανοποιεί τις δύο λογικές
απαιτήσεις v(O)=0 και v(I)<+.
9.7) Μια συνάρτηση v: L R 0 θετικής τιμοδότησης στο πλέγμα (L=[o,i],) τυπικά επιλέγεται έτσι, ώστε
να ικανοποιούνται οι δύο λογικές απαιτήσεις v(o)=0 και v(i)<+. Ένας τρόπος υπολογισμού της
x
συνάρτησης v(.) είναι η ολοκλήρωση v( x) m(t )dt μιας συνάρτησης μάζας m: L R 0 , η οποία
o
9-19
0.5 x 0.5, αν 1 x 3
9.8) Έστω δύο ΑΔ F1 και F2 με συναρτήσεις βαθμού συμμετοχής f1 x και
x 4, αν 3 x 4
x 6 1, αν 5 x 6
2
(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των ΑΔ F1 και F2.
(β) Να υπολογίσετε τη μετρική απόσταση D1(F1,F2).
(γ) Να υπολογίσετε τους βαθμούς διάταξης ⋏(F1,F2) και ⋎(F1,F2).
(δ) Επαναλάβετε τα παραπάνω ερωτήματα με τις συναρτήσεις (x)= -ex και v(x)= 1/e-x/2.
x 1, αν 1 x 2
9.9) Έστω δύο ΑΔ F1 και F2 με συναρτήσεις βαθμού συμμετοχής f1 x
0.5 x 2, αν 2 x 4
x 7 1, αν 6 x 8
2
(δ) Επαναλάβετε τα παραπάνω ερωτήματα με τις συναρτήσεις (x)= ln(1/x) και v(x)= 1/(1+e-x).
9.10) Έστω δύο ΑΔ F1 και F2 με συναρτήσεις βαθμού συμμετοχής
x 2 1, αν 1 x 3
x 10 x 24, αν 4 x 6
2 2
f1 x και f2 x ,
0, αλλιώς 0, αλλιώς
αντίστοιχα. Θεωρείστε τις δύο γραμμικές συναρτήσεις (x)= -x και v(x)= 2x+1.
(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των ΑΔ F1 και F2.
(β) Να υπολογίσετε την μετρική απόσταση D1(F1,F2).
(δ) Επαναλάβετε τα παραπάνω ερωτήματα με τις συναρτήσεις (x)= e-x και v(x)= ln(x).
9.11) Έστω δύο τραπεζοειδείς ΑΔ F1 και F2 με συναρτήσεις βαθμού συμμετοχής
x 1, αν 1 x 2 x 6, αν 6 x 7
f1 x 1, αν 2 x 3 και f 2 x 1, αν 7 x 10 , αντίστοιχα.
0.5 x 2.5, αν 3 x 5 0.5 x 6, αν 10 x 12
Θεωρείστε τις δύο γραμμικές συναρτήσεις (x)= -2x+1 και v(x)= x+1.
(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των ΑΔ F1 και F2.
(β) Να υπολογίσετε την μετρική απόσταση D1(F1,F2).
9-20
9.12) Έστω ένας τριγωνικός ΑΔ F1 και ένας τραπεζοειδής ΑΔ F2. Η συνάρτηση βαθμού συμμετοχής του
2 x 1, αν 0.5 x 1
F1 είναι f1 x 1 5 , ενώ η συνάρτηση βαθμού συμμετοχής του F2 είναι
x , αν 1 x 5
4 4
0.5 x 3, αν 6 x8
f 2 x 1, αν 8 x 10 . Θεωρήστε τις συναρτήσεις (x)= -2x+1 και v(x)= ex.
x 11, αν 10 x 11
(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των δύο ΑΔ F1 και F2.
(β) Να υπολογίσετε τη μετρική απόσταση D1(F1,F2).
(γ) Να υπολογίσετε τους βαθμούς διάταξης ⋏(F1,F2) και ⋎(F1,F2).
(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των ΑΔ F1, F2, F3 και F4.
(β) Να υπολογίσετε τις μετρικές αποστάσεις D1(F1,F2) και D1(F3,F4).
(γ) Να υπολογίσετε τους βαθμούς διάταξης ⋎(F1,F2) και ⋎(F3,F4).
(δ) Συγκρίνετε και σχολιάστε τα αποτελέσματα του (β) ερωτήματος, καθώς και τα αποτελέσματα
του (γ) ερωτήματος.
(α) Να δείξετε στο επίπεδο τις γραφικές παραστάσεις των ΑΔ F1, F2, F3 και F4.
(β) Να υπολογίσετε τις μετρικές αποστάσεις D1(F1,F2) και D1(F3,F4).
(γ) Να υπολογίσετε τους βαθμούς διάταξης ⋎(F1,F2) και ⋎(F3,F4).
(δ) Συγκρίνετε και σχολιάστε τα αποτελέσματα του (β) ερωτήματος, καθώς και τα αποτελέσματα
του (γ) ερωτήματος.
9-21
9.15) Να υπολογιστεί η μετρική απόσταση D1(F,E) μεταξύ των δύο παραβολικών ασαφών αριθμών F =
F(h) = [ah,bh], h[0,1] και E = E(h) = [ch,dh], h[0,1] που φαίνονται στο παρακάτω σχήμα, με
( x) x και v( x) x .
F E
1
0 2 4 6 9 12 x
9.16) Να υπολογιστεί η μετρική απόσταση D1(F,E) μεταξύ των δύο τριγωνικών ασαφών αριθμών F =
F(h) = [ah,bh], h(0,1] και E = E(h) = [ch,dh], h(0,1] του παρακάτω σχήματος, με ( x) x και
v( x) x .
F E
1
1 3 4 6 x
9.17) Έστω D1(F,E) η μετρική απόσταση μεταξύ των δύο τριγωνικών ασαφών αριθμών F = F(h) = [ah,bh],
h[0,1] και E = E(h) = [ch,dh], h[0,1] του παρακάτω σχήματος, με ( x) x και
x, x k
v( x) .
kx x k
Να υπολογιστεί η θέση “k > 0” της κορυφής του Ε, ώστε D1(F,E) = 21.5.
F E
1
0 2 5 k-1 k k+2 x
ΤΥΠΟΛΟΓΙΟ
1 1
ah bdh a ln ah b C0
2 (ah b)3
ah bdh
3a
C0
9-22
Βιβλιογραφία Κεφαλαίου
Alefeld, G. & Herzberger, J. (1983). Introduction to Interval Computation. New York, NY: Academic Press.
Davey, B.A. & Priestley, H.A. (1990). Introduction to Lattices and Order. Cambridge, UK: Cambridge
University Press.
Dietterich, T.G., Lathrop, R.H. & Lozano-Perez, T. (1997). Solving the multiple-instance problem with axis-
parallel rectangles. Artificial Intelligence, 89(1-2), 31-71.
Duda, R.O., Hart, P.E. & Stork, D.G. (2001). Pattern Classification. 2nd ed. New York, N.Y.: John Wiley &
Sons, Inc..
Kaburlasos, V.G. (2004). FINs: lattice theoretic tools for improving prediction of sugar production from
populations of measurements. IEEE Transactions on Systems, Man and Cybernetics – Part B, 34(2), 1017-
1030.
Kaburlasos, V.G. (2006). Towards a Unified Modeling and Knowledge-Representation Based on Lattice
Theory. Heidelberg, Germany: Springer, series: Studies in Computational Intelligence, 27.
Kaburlasos, V.G. & Kehagias, A. (2006). Novel fuzzy inference system (FIS) analysis and design based on
lattice theory. part I: working principles. International Journal of General Systems, 35(1), 45-67.
Kaburlasos, V.G. & Kehagias, A. (2014). Fuzzy inference system (FIS) extensions based on lattice theory.
IEEE Transactions on Fuzzy Systems, 22(3), 531-546.
Kaburlasos, V.G. & Pachidis, T. (2014). A Lattice-Computing ensemble for reasoning based on formal fusion
of disparate data types, and an industrial dispensing application. Information Fusion, 16, 68-83.
Kaburlasos, V.G. & Papadakis, S.E. (2006). Granular self-organizing map (grSOM) for structure identification.
Neural Networks, 19(5), 623-643.
Kaburlasos, V.G. & Papadakis, S.E. (2009). A granular extension of the fuzzy-ARTMAP (FAM) neural
classifier based on fuzzy lattice reasoning (FLR). Neurocomputing, 72(10-12), 2067-2078.
Kaburlasos, V.G. & Papakostas, G.A. (2015). Learning distributions of image features by interactive fuzzy
lattice reasoning (FLR) in pattern recognition applications. IEEE Computational Intelligence Magazine,
10(3), 42-51.
Kaburlasos, V.G., Papadakis, S.E. & Amanatiadis, A. (2012). Binary image 2D shape learning and recognition
based on lattice computing (LC) techniques. Journal of Mathematical Imaging and Vision, 42(2-3), 118-
133.
Kaburlasos, V.G., Papakostas, G.A., Pachidis, T. & Athinellis, A. (2013). Intervals’ numbers (INs) interpolation
/extrapolation. In Proceedings of the IEEE International Conference on Fuzzy Systems (FUZZ-IEEE
2013), Hyderabad, India, 7-10 July.
Kaufmann, A. & Gupta, M.M. (1985). Introduction to Fuzzy Arithmetic Theory and Applications. New
York, NY: Van Nostrand Reinhold.
Kleinbaum, D.G. & Klein, M. (2002). Logistic Regression A Self-Learning Text. (2nd ed.) (Statistics for
Biology and Health). New York, NY: Springer Science.
Long, P.M. & Tan, L. (1998). PAC learning axis-aligned rectangles with respect to product distributions from
multiple-instance examples. Machine Learning, 30(1), 7-21.
Luxemburg, W.A.J. & Zaanen, A.C. (1971). Riesz Spaces. Amsterdam, The Netherlands: North-Holland.
Mendel, J.M., Hagras, H. & John, R.I. (Eds.) (2013). Special issue on: Type-2 fuzzy sets and systems. IEEE
Transactions on Fuzzy Systems, 21(3), 397-398.
Moore, R.E. (1979). Methods and Applications of Interval Analysis. Philadelphia, PA: SIAM Studies in
Applied Mathematics.
Moore, R. & Lodwick, W. (2003). Interval analysis and fuzzy set theory. Fuzzy Sets and Systems, 135(1), 5-9.
Papadakis, S.E. & Kaburlasos, V.G. (2010). Piecewise-linear approximation of nonlinear models based on
probabilistically/possibilistically interpreted Intervals’ Numbers (INs). Information Sciences, 180(24),
5060-5076.
Ralescu, A.L. & Ralescu, D.A. (1984). Probability and fuzziness. Information Sciences, 34(2), 85-92.
Salzberg, S. (1991). A nearest hyperrectangle learning method. Machine Learning, 6(3), 251-276.
Samet, H. (1988). Hierarchical representations of collections of small rectangles. ACM Computing Surveys,
20(4), 271-309.
Tanaka, H. & Lee, H. (1998). Interval regression analysis by quadratic programming approach. IEEE
Transactions on Fuzzy Systems, 6(4), 473-481.
9-23
Uehara, K. & Fujise, M. (1993). Fuzzy inference based on families of -level sets. IEEE Transactions on
Fuzzy Systems, 1(2), 111-124.
Uehara, K. & Hirota, K. (1998). Parallel and multistage fuzzy inference based on families of -level sets.
Information Sciences, 106(1-2), 159-195.
Vulikh, B.Z. (1967). Introduction to the Theory of Partially Ordered Vector Spaces. Gronigen, The
Netherlands: Wolters-Noordhoff Scientific Publications.
Wonneberger, S. (1994). Generalization of an invertible mapping between probability and possibility. Fuzzy
Sets and Systems, 64(2), 229-240.
Zhang, K. & Hirota, K. (1997). On fuzzy number lattice (R,). Fuzzy Sets and Systems, 92(1), 113-122.
9-24
Παράρτημα Α:
Εισαγωγή στην Χρήση MATLAB και Υπολογιστικά Παραδείγματα
Η λέξη MATLAB είναι ακρώνυμο των λέξεων MATrix (πίνακας) LABoratory (εργαστήριο). Δύο
χαρακτηριστικά γνωρίσματα του MATLAB είναι ο εύκολος χειρισμός πινάκων με αριθμούς, καθώς και η
εύκολη σχεδίαση γραφημάτων. Σήμερα το MATLAB είναι παγκοσμίως αναγνωρισμένο και χρησιμοποιείται
για ανάλυση και σχεδίαση γραμμικών και μη-γραμμικών συστημάτων. Τυπικά, σε κάποιο πεδίο εφαρμογών
(όπως ασαφή συστήματα, νευρωνικά δίκτυα κ.λπ.) αναπτύσσεται ένα εργαλειοθήκη (toolbox) του
MATLAB. Στη συνέχεια παρουσιάζεται μια σύντομη εισαγωγή στο υπολογιστικό περιβάλλον MATLAB.
Εισαγωγή πίνακα:
Α=[1 2 3 4;5 6 7 8]
Α=[1 2 3 4];
Ανάστροφος πίνακα/διανύσματος:
Α=Α'
Για αποθήκευση των μεταβλητών VarName1 VarName2 VarName3 στο αρχείο Filename.
save Filename VarName1 VarName2 VarName3
Για αποθήκευση της μεταβλητής VarName σε ASCII μορφή στο αρχείο Filename.Extension.
save Filename.Extension VarName -ascii
Α-1
Α.2 Χειρισμός Διανυσμάτων και Πινάκων
Α.2.1 Στοιχεία ενός πίνακα
Ένα από τα σημαντικότερα χαρακτηριστικά του MATLAB είναι ο μη-καθορισμός των διαστάσεων ενός
πίνακα εκ των προτέρων.
Ένα διάστημα μπορεί επίσης να οριστεί, αν ορίσουμε την αρχή του, το τέλος του, καθώς και το
πλήθος των σημείων του
k=linspace(-pi,pi,4)
Για λογαριθμική κλίμακα μεταξύ των άκρων ενός διαστήματος χρησιμοποιούμε την εντολή
k=logspace(p1, p2, #points)
όπου τα p1 και p2 είναι δυνάμεις (εκθέτες) του 10, π.χ. η εντολή logspace(1, 2) αντιστοιχεί στο
διάστημα [101, 102].
Εάν “a” και “k” είναι n-διάστατα διανύσματα και τα στοιχεία του “k” είναι 0 και 1 τότε το a(k) δίνει
μόνο τα στοιχεία του “a” που βρίσκονται στην ίδια θέση με τα 1 του διανύσματος “k”.
a=[2 4 45 22];
k=[0 1 0 1];
a(find(k))
ans=
4 22
Α-2
Α.2.4 Ειδικοί πίνακες
Μοναδιαίος πίνακας:
eye(4)
eye(3,4)
Πίνακας με μηδενικά:
zeros(3)
Πίνακας με μονάδες:
ones(1,5)
Το γινόμενο ενός βαθμωτού “a” με ένα διάνυσμα “x” βρίσκεται με την πράξη “a*x”.
Το εσωτερικό γινόμενο δύο διανυσμάτων στήλης “x” και “y” βρίσκεται με την πράξη “x’*y”.
Το γινόμενο δύο διανυσμάτων “x” και “y” στοιχείο-προς-στοιχείο με αποτέλεσμα και πάλι διάνυσμα
βρίσκεται με την πράξη “x.*y”.
Παρόμοια ορίζεται η διαίρεση “x./y” και η ύψωση σε δύναμη “x.^y”.
Α-3
Α.3.2 Διάφορες συναρτήσεις
Στρογγυλοποίηση:
- round στρογγυλοποίηση προς τον πλησιέστερο ακέραιο.
- fix στρογγυλοποίηση προς το μηδέν.
- floor στρογγυλοποίηση προς τον μικρότερο ακέραιο.
- ceil στρογγυλοποίηση προς τον μεγαλύτερο ακέραιο.
Παραγοντοποίηση με ακέραιους:
- gcd μέγιστος κοινός διαιρέτης.
- lcm ελάχιστο κοινό πολλαπλάσιο.
Μιγαδική αριθμητική:
- real το πραγματικό μέρος ενός μιγαδικού αριθμού.
- imag το φανταστικό μέρος ενός μιγαδικού αριθμού.
- conj συζυγής ενός μιγαδικού αριθμού.
- abs το μέτρο ενός μιγαδικού αριθμού.
- angle το όρισμα ενός μιγαδικού αριθμού.
Α.3.3 Παραδείγματα
Στοιχειώδεις συναρτήσεις
x=(1:0.1:5)';
y=log(x);
[x y]
Συναρτήσεις συναρτήσεων
Να υπολογιστεί ένας πίνακας τιμών της συνάρτησης e3tsin(5t)
t=linspace(-2,2,45)';
y=exp(3*t).*sin(5*pi*t);
[t y]
Ρητές συναρτήσεις
3s2 +5s+7
Πίνακας τιμών της συνάρτησης f(s)= με s=j και [10-2, 102].
s3 +5s2 +7s+12
omega=logspace(-2,2);
s=j*omega;
x1=3*s.^2+5*s+7;
x2=s.^3+5*s.^2+7*s+12;
x=x1./x2;
x=abs(x);
[s x]
Α-4
Α.3.4 Λογικοί και σχεσιακοί τελεστές
Οι γνωστοί σχεσιακοί τελεστές , =, , =, ==, ~=.
Οι γνωστοί λογικοί τελεστές &, |, xor, ~.
Παράδειγμα
A=[1 2 3 4;5 6 7 8];
P=(rem(A,2)==0)
ans =
0 1 0 1
0 1 0 1
Α-5
Παράδειγμα
1 2
5 1
Να ταξινομηθούν τα στοιχεία του πίνακα R = ως προς την πρώτη στήλη αλλά χωρίς να χαθεί η
3 3
2 4
συσχέτιση με τα στοιχεία της δεύτερης στήλης.
1 1
2 2
Προσέξτε ότι η εντολή “A=sort(R)” έχει ως αποτέλεσμα A = , οπότε χάνεται η
3 3
5 4
συσχέτιση με τα στοιχεία της δεύτερης στήλης. Ακολουθούν οι σωστές εντολές
[S,i1]=sort(R);
A=R(i1(:,1),:);
1 2
2 4
που έχουν ως αποτέλεσμα A = .
3 3
5 1
Οι προηγούμενες εντολές ισχύουν κατά στήλη και για πίνακες, π.χ. η εντολή “all(all(A0.5))”
επιστρέφει 1 εάν όλα τα στοιχεία του πίνακα Α είναι μικρότερα του 0.5.
Η εντολή “find” επιστρέφει τους δείκτες των μη-μηδενικών στοιχείων του ορίσματός της.
Παράδειγμα
Οι εντολές
t=0:0.005:20;
y=sin(t);
i=find(abs(y-0.5)0.05);
επιστρέφουν τους δείκτες εκείνων των στοιχείων του διανύσματος “y” που απέχουν λιγότερο από 0.05 από
τον αριθμό 0.5 (πρακτικά αυτό σημαίνει ότι μπορούμε να υπολογίσουμε τις τιμές της ανεξάρτητης
μεταβλητής “t” των οποίων οι αντίστοιχες τιμές του “y” είναι 0.5).
Α.5 Πολυώνυμα
Ένα πολυώνυμο ορίζεται ως ένα διάνυσμα με φθίνουσα σειρά των συντελεστών του, π.χ. το πολυώνυμο
p(s)=s3+4s2+2s+5 ορίζεται ως “p=[1 4 2 5]”, ενώ το s3+1 ορίζεται ως “[1 0 0 1]”.
Α-6
Α.5.1 Βασικές πράξεις
Η εντολή “poly(A)” υπολογίζει τους συντελεστές του χαρακτηριστικού πολυωνύμου p(λ) του
πίνακα Α, όπου p(λ)=|λI-A|.
Η εντολή “poly” χρησιμοποιείται επίσης για να υπολογίσει ένα πολυώνυμο από τις ρίζες του, π.χ. το
πολυώνυμο με ρίζες τις 1, -2, j, και -j, υπολογίζεται με την εντολή “poly([1,-2,j,-j])” και
δίνεται από το διάνυσμα “[1 1 -1 1 -2]”.
Η εντολή “conv” υπολογίζει το γινόμενο δύο πολυωνύμων, π.χ. με “a=[1 2 3]” και “b=[4 5
6]” η εντολή “c=conv(a,b)” δίνει c=[4 13 28 27 18].
Οι ρίζες ενός πολυωνύμου υπολογίζονται με την εντολή “roots(p)”.
Η εντολή “polyder(p)” επιστρέφει την πρώτη παράγωγο dp(s)/ds του πολυωνύμου p.
b ( s)
Για να αναπτύξουμε ένα ρητό πολυώνυμο σε μερικά κλάσματα όπως φαίνεται παρακάτω
a ( s)
b( s ) r1 r2 rn
k ( s)
a ( s) s p1 s p2 s pn
Α.5.2 Παρεμβολή
Δοθείσης μιας ανεξάρτητης μεταβλητής στο διάνυσμα “x” και των τιμών που πρόκειται να παρεμβληθούν
στο διάνυσμα “y” η εντολή “p=polyfit(x,y,n)” επιστρέφει ένα πολυώνυμο n-στου βαθμού που
παρεμβάλει τα ζεύγη (xi,yi) με τη μέθοδο των ελαχίστων τετραγώνων.
Παρεμβολή μπορεί να γίνει επίσης με τις εντολές “spline”, “interpft”, “interp1”,
“interp2”.
Α.6 Γραφικά
Α.6.1 Δισδιάστατα γραφικά
Παράδειγμα
t=0:0.05:4*pi;
y=sin(t);
plot(t,y)
Παράδειγμα
t1=(0:0.1:3)’;
y1=sin(t1);
t2=(1:0.1:4)’;
y2=cos(t2);
plot(t1,y1,t2,y2)
Α-7
Α.6.5 Τρισδιάστατα γραφικά
Η εντολή “view(az,el)” ορίζει τη θέση παρατηρητή, όπου az και el είναι οι γωνίες παρατήρησης
azimuth και elevation, όπως φαίνονται στο Σχήμα Α.1. Αρχικά είναι az==-37.5o και el=φ=30o.
z
y
x
if συνθήκη,
(σύνολο εντολών 1)
elseif συνθήκη,
(σύνολο εντολών 2)
else
(σύνολο εντολών 3)
end
1. for i=1:n,
(σύνολο εντολών)
end
2. while συνθήκη
(σύνολο εντολών)
end
Α-8
Α.7.2 Αρχεία γραφής
Παράδειγμα
% An M-file to compute the Fibonacci numbers
f=[1 1]; i=1;
while f(i)+f(i+1)1000
f(i+2)=f(i)+f(i+1);
i=i+1;
end
plot(f)
Α.7.3 Συναρτήσεις
Μια συνάρτηση δημιουργείται όπως ένα αρχείο γραφής (script file), αλλά αρχίζει πάντοτε με την εξής σειρά
Παράδειγμα
function t = trace(a)
% TRACE Sum of diagonal elements,
% TRACE(A) is the sum of the diagonal elements of A,
% which is also the sum of the eigenvalues of A.
t =sum(diag(a));
function y = humps(x)
y=1./((x-0.3).^2+0.01) + 1./((x-0.9).^2+0.04) - 6;
Παράδειγμα
xz1=fzero(‘humps’,0)
xz2=fzero(‘humps’,1)
(Το xz1 ισούται με -0.131, και το xz2 ισούται με 1.299)
Α-9
Ο υπολογισμός του τοπικού ελαχίστου μιας συνάρτησης με μία μεταβλητή γίνεται με την εντολή
“x=fminbnd(‘FunctionName’,x1,x2)”.
Β Υπολογιστικά Παραδείγματα
Αυτή η ενότητα παρουσιάζει παραδείγματα λογισμικού εφαρμογών σε MATLAB.
Α-10
Κώδικας 1 Εφαρμογή προσέγγισης μίας συνάρτησης
Α-11
Κώδικας 2 Εφαρμογή αναγνώρισης προτύπων
%% Αρχικοποίηση του περιβάλλοντος MATLAB
clear all;
close all;
clc;
Α-12
Β.2 Λογισμικό Κεφαλαίου 2
Στην παράγραφο αυτή παρουσιάζονται οι υλοποιήσεις δύο διαφορετικών τύπων ασαφών μοντέλων.
Συγκεκριμένα, το πρώτο ασαφές μοντέλο είναι τύπου Mamdani, υλοποιείται με τον «Κώδικα 3» σε
MATLAB και ρυθμίζει την ταχύτητα περιστροφής ενός ανεμιστήρα στο θάλαμο εντατικής παρακολούθησης
ενός νοσοκομείου, ώστε η θερμοκρασία και η σχετική υγρασία του θαλάμου να διατηρούνται σε επίπεδα
σύμφωνα με τις υποδείξεις των γιατρών. Υπάρχει αισθητήρας θερμοκρασίας που μετράει τη θερμοκρασία
από 0 C έως 50 C, καθώς και αισθητήρας που μετράει τη σχετική υγρασία από 20% έως 100%. Η ταχύτητα
περιστροφής του ανεμιστήρα κυμαίνεται από 120 έως 1200 RPM (Rotations Per Minute). Οι γιατροί έχουν
ορίσει τις παρακάτω 5 προδιαγραφές:
Το δεύτερο ασαφές μοντέλο είναι τύπου Sugeno, υλοποιείται με τον «Κώδικα 4» σε MATLAB και
ρυθμίζει την παραγόμενη χημική ουσία PAC σε μια βιομηχανική διαδικασία καθαρισμού νερού με βάση δύο
μετρήσιμες μεταβλητές εισόδου: 1) το PH του νερού και 2) η αλκαλικότητα AL του νερού, οι οποίες
καθορίζουν την ποσότητα της χημικής ουσίας PAC που θα χρησιμοποιηθεί για τον καθαρισμό μιας
ποσότητας νερού. Έστω x1 η μετρούμενη αριθμητική τιμή του PH, x2 η μετρούμενη αριθμητική τιμή του AL
και y η (υπολογισμένη) αριθμητική τιμή της PAC που πρέπει να χρησιμοποιηθεί για τον καθαρισμό μιας
ποσότητας νερού. Θα χρησιμοποιηθούν οι παρακάτω τρεις κανόνες:
Σημειώστε ότι οι τιμές «κανονικό», «υψηλό», «χαμηλό» και «μέτριο», τις οποίες λαμβάνουν οι
ασαφείς μεταβλητές PH και AL, είναι ασαφείς αριθμοί με τριγωνικές συναρτήσεις συμμετοχής. Επιπλέον,
σημειώστε ότι τα πεδία τιμών των μεταβλητών PH, AL και PAC είναι [6,8], [40,60] και [50,200] αντίστοιχα.
Α-13
Κώδικας 3 Εφαρμογή ασαφούς μοντέλου τύπου Mamdani
%% Αρχικοποίηση του περιβάλλοντος MATLAB
clear all;
close all;
clc;
Α-14
Κώδικας 4 Εφαρμογή ασαφούς μοντέλου τύπου Sugeno
%% Αρχικοποίηση του περιβάλλοντος MATLAB
clear all;
close all;
clc;
Α-15
Β.3 Λογισμικό Κεφαλαίου 3
Για τη μελέτη της συμπεριφοράς αλγορίθμων βελτιστοποίησης αναπτύχθηκαν δύο κώδικες βελτιστοποίησης
της ακόλουθης συνάρτησης Rastrigin δύο μεταβλητών ( n 2 ):
n
f x 10 n xi2 10 cos2 xi 5.12 xi 5.12
i 1
Η συνάρτηση Rastrigin (βλ. Σχήμα Α.2) παρουσιάζει πολλαπλά τοπικά ελάχιστα, ενώ το ολικό
ελάχιστο είναι f (x) 0 για x 0 .
Για τη βελτιστοποίηση (βλ. εύρεση ελάχιστου) της συνάρτησης Rastrigin, εφαρμόζεται πρώτον, ένας
Γενετικός Αλγόριθμος (ΓΑ), ο οποίος υλοποιείται με τον «Κώδικα 5» σε MATLAB και δεύτερον, η μέθοδος
Βελτιστοποίησης με Σμήνος Σωματιδίων (ΒΣΣ), η οποία υλοποιείται με τον «Κώδικα 6» σε MATLAB.
Σημειώστε ότι ο «Κώδικας 6» διατίθεται δωρεάν (Mostapha Kalami Heris, 2015).
Α-16
Κώδικας 5 Εφαρμογή βελτιστοποίησης (βλ. εύρεση ελαχίστου) της συνάρτησης
Rastrigin με τη χρήση Γενετικού Αλγόριθμου (ΓΑ)
%% Αρχικοποίηση του περιβάλλοντος MATLAB
clear all;
close all;
clc;
Α-17
Κώδικας 6 Εφαρμογή βελτιστοποίησης (βλ. εύρεση ελαχίστου) της συνάρτησης
Rastrigin με τη χρήση Βελτιστοποίησης Σμήνους Σωματιδίων (ΒΣΣ)
% Copyright (c) 2015, Yarpiz (www.yarpiz.com)
% All rights reserved. Please read the "license.txt" for license terms.
%
% Project Code: YPEA102
% Project Title: Implementation of Particle Swarm Optimization in MATLAB
% Publisher: Yarpiz (www.yarpiz.com)
%
% Developer: S. Mostapha Kalami Heris (Member of Yarpiz Team)
%
% Contact Info: sm.kalami@gmail.com, info@yarpiz.com
%
clc;
clear;
close all;
%% Problem Definition
%% PSO Parameters
% PSO Parameters
w=1; % Inertia Weight
wdamp=0.99; % Inertia Weight Damping Ratio
c1=1.5; % Personal Learning Coefficient
c2=2.0; % Global Learning Coefficient
% % Constriction Coefficients
% phi1=2.05;
% phi2=2.05;
% phi=phi1+phi2;
% chi=2/(phi-2+sqrt(phi^2-4*phi));
% w=chi; % Inertia Weight
Α-18
% wdamp=1; % Inertia Weight Damping Ratio
% c1=chi*phi1; % Personal Learning Coefficient
% c2=chi*phi2; % Global Learning Coefficient
% Velocity Limits
VelMax=0.1*(VarMax-VarMin);
VelMin=-VelMax;
%% Initialization
empty_particle.Position=[];
empty_particle.Cost=[];
empty_particle.Velocity=[];
empty_particle.Best.Position=[];
empty_particle.Best.Cost=[];
particle=repmat(empty_particle,nPop,1);
GlobalBest.Cost=inf;
for i=1:nPop
% Initialize Position
particle(i).Position=unifrnd(VarMin,VarMax,VarSize);
% Initialize Velocity
particle(i).Velocity=zeros(VarSize);
% Evaluation
particle(i).Cost=CostFunction(particle(i).Position);
GlobalBest=particle(i).Best;
end
end
BestCost=zeros(MaxIt,1);
for it=1:MaxIt
for i=1:nPop
% Update Velocity
particle(i).Velocity = w*particle(i).Velocity ...
+c1*rand(VarSize).*(particle(i).Best.Position-
particle(i).Position) ...
+c2*rand(VarSize).*(GlobalBest.Position-
particle(i).Position);
Α-19
% Apply Velocity Limits
particle(i).Velocity = max(particle(i).Velocity,VelMin);
particle(i).Velocity = min(particle(i).Velocity,VelMax);
% Update Position
particle(i).Position = particle(i).Position +
particle(i).Velocity;
% Evaluation
particle(i).Cost = CostFunction(particle(i).Position);
particle(i).Best.Position=particle(i).Position;
particle(i).Best.Cost=particle(i).Cost;
GlobalBest=particle(i).Best;
end
end
end
BestCost(it)=GlobalBest.Cost;
w=w*wdamp;
end
BestSol = GlobalBest;
%% Results
figure;
%plot(BestCost,'LineWidth',2);
semilogy(BestCost,'LineWidth',2);
xlabel('Iteration');
ylabel('Best Cost');
grid on;
disp(['Minimum = ' num2str(GlobalBest.Cost) ' for x1='
num2str(GlobalBest.Position(1)) ' x2=' num2str(GlobalBest.Position(1))]);
Α-20
Β.4 Λογισμικό Κεφαλαίου 9
Στη συνέχεια παρουσιάζεται ο «Κώδικας 7» σε MATLAB για τον υπολογισμό ενός ΑΔ από μια κατανομή
(αριθμητικών) δειγμάτων. Συγκεκριμένα, ακριβώς κάτω από το σχόλιο “Preprocessing: Load the data” γίνεται
η φόρτωση των (αριθμητικών) δειγμάτων από το αρχείο “area20050301_7a.txt” στη μεταβλητή (διάνυσμα)
“population1”. Κατόπιν υπολογίζεται πρώτον, ένας ΑΔ σε μορφή αναπαράστασης-συνάρτησης-συμμετοχής
με τη ρουτίνα “fin(population)” και αποθηκεύεται στις μεταβλητές “pts1” (τετμημένες) και “val1”
(τεταγμένες) και δεύτερον, ο προαναφερθείς ΑΔ σε μορφή αναπαράστασης-διαστημάτων με την ρουτίνα
“in(pts1,val1,L)” σε L=32 διαστήματα για ισαπέχουσες τιμές στο διάστημα τετμημένων [0,1].
Το λογισμικό ακριβώς κάτω από το σχόλιο “plot a population as a histogram” στον «Κώδικα 7»
τυπώνει το (μη-κυρτό) ιστόγραμμα που φαίνεται στο Σχήμα Α.3(α). Το λογισμικό ακριβώς κάτω από το
σχόλιο “plot a population as a IN membership function” στον «Κώδικα 7» τυπώνει τον ΑΔ που φαίνεται στο
Σχήμα Α.3(β), ο οποίος έχει αναπαράσταση-συνάρτησης-συμμετοχής πάντα κυρτή εκ κατασκευής. Τέλος, το
λογισμικό ακριβώς κάτω από το σχόλιο “plot a population as a IN set of a-cuts” στον «Κώδικα 7» τυπώνει
στο Σχήμα Α.3(γ) τον προαναφερθέντα ΑΔ σε μορφή αναπαράστασης-διαστημάτων.
Ο «Κώδικας 8» σε MATLAB υπολογίζει έναν ΑΔ από αριθμητικά δείγματα, τα οποία βρίσκονται
αποθηκευμένα στο διάστημα “x”. Συγκεκριμένα, υπολογίζεται ένας ΑΔ σε μορφή αναπαράστασης-
συνάρτησης-συμμετοχής με τις τετμημένες να τοποθετούνται στο διάστημα “pts” και τις τεταγμένες να
τοποθετούνται στο διάστημα “val”. Σημειώστε ότι o «Κώδικας 8» υλοποιεί μια μορφή του αλγόριθμου
CALCIN.
Ο «Κώδικας 9» σε MATLAB υπολογίζει έναν ΑΔ από μορφή αναπαράστασης-συνάρτησης-
συμμετοχής με τετμημένες αποθηκευμένες στο διάνυσμα “pts” και τεταγμένες αποθηκευμένες στο διάνυσμα
“val” σε μορφή αναπαράστασης-διαστημάτων σε L διαστήματα (α-διατομές) για ισαπέχουσες τιμές στο
διάστημα τετμημένων [0,1].
whitebg('w')
figure(1)
subplot(3,1,1);
x= step:step:width;
Α-21
bar(x-step/2,ppdf,0.8,'w');
grid;
axis([0 width 0 0.25]);
set(gca,'XTick',[0:step:width]);
set(gca,'YTick',0:0.05:0.25);
0.25
0.2
0.15
(α)
0.1
0.05
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50
1
0.8
0.6 (β)
0.4
0.2
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50
1
0.8
0.6 (γ)
0.4
0.2
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50
Σχήμα A.3 (α) Το (μη-κυρτό) ιστόγραμμα μιας κατανομής δειγμάτων. (β) Αναπαράσταση-συνάρτησης-συμμετοχής (πάντα
κυρτή, εκ κατασκευής) ενός ΑΔ, ο οποίος υπολογίστηκε από την παραπάνω κατανομή σύμφωνα με τον αλγόριθμο CALCIN.
(γ) Αναπαράσταση-διαστημάτων του προαναφερθέντος ΑΔ.
Α-22
Κώδικας 8 Μια υλοποίηση του αλγόριθμου CALCIN για τον υπολογισμό ενός
ΑΔ από μια κατανομή (αριθμητικών) δειγμάτων
function [pts, val] = fin(x)
%[pts, val] = fin(x) computes a FIN out of a (real number) data
population vector 'x'
%Column vector 'pts' returns the (FIN's) domain points
%Column vector 'val' returns the values on the domain points
% The following lines "arrange" such that there are no identical points
in vector 'x' by adding a small positive (real) number where appropriate
%
x= sort(x);
if min(abs(diff(x))) == 0, %condition for identifying identical numbers
for i=1:length(x),
j= i+1;
while (j <= length(x))&(x(i) == x(j)),
x(j)= x(i) + epsilon;
j= j+1;
end %while
end %for
end %if
Α-23
Κώδικας 9 Υπολογισμός ενός ΑΔ σε μορφή αναπαράστασης-διαστημάτων από
τον (ίδιο) ΑΔ σε μορφή αναπαράστασης-συνάρτησης-συμμετοχής
function [level, acuts] = in(pts, val, L)
% [level, acuts] = in(pts, val, L) computes a IN in terms of its acuts
([ah, bh]) per level
% Column vector 'pts' includes the x-
values of a FIN membership function
% Column vector 'val' includes the y-
values of a FIN membership function
% Integer number 'L' is the number of a-
cut levels
epsilon = 0.000001;
%it follows the main loop that computes a-cuts, one at a loop
acuts = [];
for i = 1:1:L,
indices= find(level(i)-epsilon <= val);
minIndex= min(indices);
maxIndex= max(indices);
Α-24
Από την ανάλυση στο Επίπεδο-1, αναφορικά με το πλέγμα (Ι1,⊑) των διαστημάτων Τ1 γνωρίζουμε
ότι μια μετρική (συνάρτηση) δίδεται από την Εξ.(9.1): d1([a,b],[c,e])= [v((ac))-v((ac))] + [v(be)-v(be)]
= d(θ(a),θ(c)) + d(b,e). Μια επιλογή του ζεύγους συναρτήσεων θ(.) και v(.) είναι θ(x)= -x και v(.), ώστε v(x)=
-v(-x), οπότε προκύπτει η L1 (Hamming) μετρική d1([a,b],[c,e])= |a-c| + |b-e|. Συνεπώς, η απόσταση μεταξύ
των τετριμμένων διαστημάτων [a,a] και [b,b], τα οποία αναπαριστάνουν τους αριθμούς a και b, υπολογίζεται
να είναι d1([a,a],[b,b])= |a-b| + |a-b|= 2|a-b|. Προκειμένου η συνάρτηση d1(.,.) να υπολογίζει την
(αναμενόμενη) απόσταση |a-b| μεταξύ των αριθμών a και b, μπορούμε να εισαγάγουμε το συντελεστή 0.5
στην Εξ.(9.1). Προφανώς η χρήση της εξίσωσης d1([a,b],[c,e])= 0.5[d(θ(a),θ(c))+d(b,e)] μπορεί να γενικευτεί
για μη-τετριμμένα διαστήματα [a,b] και [c,e], καθώς και για συναρτήσεις θ(x) ≠ -x και v(x) ≠ -v(-x).
Έστω τα ακόλουθα τρία ζεύγη ΑΔ: E1 και E2 , F1 και F2 , G1 και G2 με συναρτήσεις βαθμού
συμμετοχής σχήματος ισοσκελών τριγώνων όπως φαίνεται στο Σχήμα Α.4. Συγκεκριμένα, η συνάρτηση του
x 2, αν 2 x 3 x 7, αν 7 x 8
ΑΔ E1 είναι e1 x x 4, αν 3 x 4 , του ΑΔ E2 είναι e2 x x 9, αν 8 x 9 , του ΑΔ F1
0, διαφορετικά 0, διαφορετικά
0.5 x 0.5, αν 1 x 3 0.5 x 3, αν 6 x 8
είναι f1 x 0.5 x 2.5, αν 3 x 5 , του ΑΔ F2 είναι f 2 x 0.5 x 5, αν 8 x 10 , του ΑΔ G1
0, διαφορετικά 0, διαφορετικά
0.334 x, αν 0 x 3 0.334 x 1.667 αν 5 x 8
είναι g1 x 0.334 x 2, αν 3 x 6 , και του ΑΔ G2 είναι g 2 x 0.334 x 3.667 αν 8 x 11 .
0, διαφορετικά 0, διαφορετικά
1 E1 E2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 ( ) 6 7 8 9 10 11
1 F1 F2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 () 6 7 8 9 10 11
1 G1 G2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9 10 11
()
Α-25
Για ( E1 )h = [ah , bh ] και ( E2 )h = [ch , dh ] υπολογίστηκαν ah h 2 , bh 4 h , ch h 7 ,
dh 9 h . Για ( F1 )h = [ah , bh ] και ( F2 )h = [ch , dh ] υπολογίστηκαν ah 2h 1 , bh 5 2h , ch 2h 6 ,
dh 10 2h . Για (G1 )h = [ah , bh ] και (G2 )h = [ch , dh ] υπολογίστηκαν ah 3h , bh 6 3h , ch 3h 5 ,
dh 11 3h .
Στη συνέχεια υπολογίζονται μετρικές αποστάσεις καθώς και βαθμοί διάταξης για διάφορες επιλογές
των συναρτήσεων (.) και v(.).
Πρώτον, στο πλήρες πλέγμα (L [0,11], ) έστω ότι επιλέγουμε τις συναρτήσεις ( x) 11 x και
v( x) x . Επαληθεύουμε ότι για τη συνάρτηση θ(.) ισχύουν οι δύο απαιτήσεις (o 0) 11 i και
(i 11) 0 o , ενώ για τη συνάρτηση v(.) αντίστοιχα ισχύουν οι δύο απαιτήσεις v(o 0) 0 και
v(i 11) 11 . Συνεπώς, για τους ΑΔ E1 και E2 προκύπτουν:
1
D1 ( E1 , E2 ) 0.5* 10dh 5 .
0
13 2h
1
( E1 , E2 ) 18 2h dh = ( E2 , E1 ) .
0
Για τον υπολογισμό του προηγούμενου ολοκληρώματος με MATLAB δημιουργούμε αρχείο ASCII
με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= y= (13 - 2*h)./(18 - 2*h)
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.7055
1
D1 ( F1 , F2 ) 0.5* 10dh 5
0
15 4h
1
( F1 , F2 ) 20 4h dh ( F2 , F1 )
0
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= (15 - 4*h)./(20 - 4*h)
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.7211
Α-26
Εξαιτίας της μη-επικάλυψης των ΑΔ F1 και F2 προκύπτει ( F1 , F2 ) 0 ( F2 , F1 ) .
1
D1 (G1 , G2 ) 0.5* 10dh 5
0
17 6h
1
(G1 , G2 ) 22 6h dh = (G2 , G1 )
0
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= (17 - 6*h)./(22 - 6*h)
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.7346
12 6h
1/ 6
(G1 , G2 ) dh (G2 , G1 ) .
0
17 6h
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= (12 - 6*h)./(17 - 6*h)
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1/6)” και
παίρνουμε το εξής αποτέλεσμα:
ans =
0.1161
Δεύτερον, στο πλήρες πλέγμα (R, ) έστω ότι επιλέγουμε τις συναρτήσεις ( x) x και
v( x) 1/ (1 e( x 3) ) , όπου η τελευταία (σιγμοειδής) συνάρτηση δείχνεται στο Σχήμα Α.5. Επαληθεύουμε ότι
για τη συνάρτηση θ(.) ισχύουν οι δύο απαιτήσεις (o ) i και (i ) o , ενώ για την
συνάρτηση v(.) αντίστοιχα ισχύουν οι δύο απαιτήσεις v(o ) 0 και v(i ) 1 . Συνεπώς, για
τους ΑΔ E1 και E2 προκύπτουν:
0.9
0.7
0.5
0.3
0.1
-5 -3 -1 1 3 5 7 9 11
1
Σχήμα A.5 Η γνησίως αύξουσα (σιγμοειδής) συνάρτηση v( x) .
1 e ( x 3)
Α-27
1
1 1 1 1
D1 ( E1 , E2 ) 0.5* h 5
h 10
h 6
dh
0 1 e 1 e 1 e 1 eh 1
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= 0.5*(1./(1+exp(h+5)) - 1./(1+exp(h+10)) + 1./(1+exp(h-6)) - 1./(1+exp(h-1)))
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμαQ
ans =
0.1899
1 1
1 h 10
( E1 , E2 ) 1 e 1 e h 6 dh
1 1
0
h 5
1 e 1 e h 6
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= (1./(1+exp(h+10)) + 1./(1+exp(h-6)))./(1./(1+exp(h+5)) + 1./(1+exp(h-6)))
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.9958
1 1
1 h5
( E2 , E1 ) 1 e 1 e h 1 dh
1 1
0
h 5
1 e 1 e h 6
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= (1./(1+exp(h+5)) + 1./(1+exp(h-1)))./(1./(1+exp(h+5)) + 1./(1+exp(h-6)))
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.6242
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
Α-28
function y = func(h)
y= 0.5*(1./(1+exp(2*h+4)) - 1./(1+exp(2*h+9)) + 1./(1+exp(2*h-7)) - 1./(1+exp(2*h-2)))
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.1440
1 1
1 2 h 9
( F1 , F2 ) 1 e 1 e2 h 7 dh
1 1
0
1 e 2 h 4 1 e 2 h 7
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= (1./(1+exp(2*h+9)) + 1./(1+exp(2*h-7)))./(1./(1+exp(2*h+4)) + 1./(1+exp(2*h-7)))
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.9923
1 1
1 2h4
( F2 , F1 ) 1 e 1 e 2 h 3 dh
1 1
0
1 e 2 h 4 1 e 2 h 7
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= (1./(1+exp(2*h+4)) + 1./(1+exp(2*h-3)))./(1./(1+exp(2*h+4)) + 1./(1+exp(2*h-7)))
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.8709
1
1 1 1 1
D1 (G1 , G2 ) 0.5* 3h 3
3 h 8
3h 8
3 h 3
dh
0 1 e 1 e 1 e 1 e
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= 0.5*(1./(1+exp(3*h+3)) - 1./(1+exp(3*h+8)) + 1./(1+exp(3*h-8)) - 1./(1+exp(3*h-3)))
Α-29
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.1140
1 1
1 3 h 8
(G1 , G2 ) 1 e 1 e3h 8 dh
1 1
0
3h 3
1 e 1 e3h 8
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= (1./(1+exp(3*h+8)) + 1./(1+exp(3*h-8)))./(1./(1+exp(3*h+3)) + 1./(1+exp(3*h-8)))
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.9851
1 1
1 3h 3
(G2 , G1 ) 1 e 1 e3h 3 dh
1 1
0
3h 3
1 e 1 e 3 h 8
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= (1./(1+exp(3*h+3)) + 1./(1+exp(3*h-3)))./(1./(1+exp(3*h+3)) + 1./(1+exp(3*h-8)))
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1)” και παίρνουμε
το εξής αποτέλεσμα:
ans =
0.7885
1 1
1/6 3 h 8
1 e 1 e3h 3 dh
(G1 , G2 ) 1 1
0
3h 3
1 e 1 e3 h 3
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= (1./(1+exp(3*h+8)) + 1./(1+exp(3*h-3)))./(1./(1+exp(3*h+3)) + 1./(1+exp(3*h-3)))
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1/6)” και
παίρνουμε το εξής αποτέλεσμα:
ans =
0.1603
Α-30
1 1
1/6 3h 8
1 e 1 e3h 3 dh
(G2 , G1 ) 1 1
0
3h 8
1 e 1 e 3 h 8
Για τον υπολογισμό δημιουργούμε αρχείο ASCII με όνομα “func.m” και περιεχόμενο:
function y = func(h)
y= (1./(1+exp(3*h+8)) + 1./(1+exp(3*h-3)))./(1./(1+exp(3*h+8)) + 1./(1+exp(3*h-8)))
Κατόπιν δίνουμε στο Command Window του MATLAB την εντολή “quad('func',0,1/6)” και
παίρνουμε το εξής αποτέλεσμα:
ans =
0.1566
Τα παραπάνω παραδείγματα έδειξαν ότι για δύο ΑΔ, έστω F και E, με συμμετρικές (βλ. ισοσκελείς)
συναρτήσεις συμμετοχής η απόσταση D1(F,E) δεν επηρεάζεται με τη μεταβολή του εύρους της βάσης, όταν
οι συναρτήσεις (.) και v(.) είναι γραμμικές. Σε διαφορετική περίπτωση τόσο η απόσταση D1(F,E), όσο και
βαθμός διάταξης σ(F,E) εξαρτώνται από τις συναρτήσεις (.) και v(.). Συνεπώς, οι συναρτήσεις (.) και v(.)
μπορούν να χρησιμεύσουν για τη ρύθμιση τόσο της απόστασης D1(F,E), όσο και του βαθμού διάταξης
σ(F,E).
Βιβλιογραφία
Fisher, R.A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2), 179-
188.
Mostapha Kalami Heris, S. (2015). Yarpiz. (www.yarpiz.com).
Α-31
Παράρτημα Β:
Στατιστική Αξιολόγηση Μοντέλων Υπολογιστικής Νοημοσύνης
Από την Εισαγωγή αυτού του βιβλίου γνωρίζουμε ότι, από τεχνική άποψη, μια τυπική μεθοδολογία ΥΝ
υλοποιεί μια συνάρτηση f: RNT, όπου το πεδίο ορισμού R είναι το σύνολο των πραγματικών αριθμών, ενώ
το πεδίο τιμών T μπορεί να είναι είτε T= RΜ (σε προβλήματα παλινδρόμησης), είτε ένα σύνολο από ετικέτες
(σε προβλήματα αναγνώρισης). Σε κάθε περίπτωση, υπάρχει ανάγκη αξιολόγησης ενός μοντέλου ΥΝ μέσω
της σύγκρισής του με ένα εναλλακτικό μοντέλο (Devijver & Kittler, 1982). Για το σκοπό αυτό έχει οριστεί
ένας αριθμός στατιστικών τεχνικών αξιολόγησης, κάποιες από τις οποίες παρουσιάζονται στη συνέχεια.
Η απλή αξιολόγηση (holdout validation) είναι η απλούστερη τεχνική αξιολόγησης, η οποία
περιλαμβάνει μόνο έναν υπολογιστικό κύκλο. Συγκεκριμένα, σε κάποιες περιπτώσεις ένα σύνολο δεδομένων
δίδεται διαμερισμένο σε ένα υποσύνολο δεδομένων εκπαίδευσης (training data set) και ένα υποσύνολο
δεδομένων εξέτασης (testing data set). Ενώ όταν δε δίδεται συγκεκριμένος διαμερισμός ενός συνόλου
δεδομένων, τότε χρησιμοποιείται ένας (τυχαίος) διαμερισμός, όπου τουλάχιστον το 70% των δεδομένων
επιλέγονται τυχαία και αποτελούν το υποσύνολο εκπαίδευσης, ενώ όλα τα υπόλοιπα δεδομένα αποτελούν το
υποσύνολο εξέτασης. Σε κάθε περίπτωση ο σκοπός είναι η εκπαίδευση ή, ισοδύναμα, η μάθηση, έτσι ώστε να
προκύψει μια αποδεκτή ικανότητα γενίκευσης. Η ικανότητα γενίκευσης ορίζεται είτε ως το ποσοστό επιτυχών
ταξινομήσεων σε προβλήματα αναγνώρισης, είτε ως το σφάλμα ελαχίστων τετραγώνων (ΣΕΤ) (least
squares error (LSE)) σε προβλήματα παλινδρόμησης, πάντα αναφορικά με το υποσύνολο εξέτασης, το
οποίο σε κάθε περίπτωση παρουσιάζεται μόνο μία φορά.
Το υποσύνολο εκπαίδευσης μπορεί και αυτό να διαμεριστεί σε δύο υποσύνολα εκ των οποίων το ένα
χρησιμοποιείται αποκλειστικά για εκτίμηση των παραμέτρων του μοντέλου, ενώ το άλλο (βλ. υποσύνολο
δεδομένων αξιολόγησης (validation data set)) χρησιμοποιείται για να περιοριστούν προβλήματα
αποστήθισης, τα οποία χαρακτηρίζονται από καλή εκμάθηση των δεδομένων εκπαίδευσης αλλά κακή
ικανότητα γενίκευσης στα δεδομένα εξέτασης. Σημειώστε ότι προβλήματα αποστήθισης τυπικά εμφανίζονται,
όταν το υποσύνολο εκπαίδευσης είναι μικρό ή/και όταν ο αριθμός παραμέτρων του μοντέλου είναι μεγάλος.
Προκειμένου να ποσοτικοποιηθεί η μεταβλητότητα (variability) της ικανότητας γενίκευσης ενός
μοντέλου, μια απλή αξιολόγηση μπορεί να επαναληφθεί πολλές φορές, όπως περιγράφεται στη συνέχεια.
Η σταυρωτή αξιολόγηση (cross validation) είναι μια τεχνική αξιολόγησης πολλών υπολογιστικών
κύκλων, η οποία αποτιμά την ικανότητα γενίκευσης ενός μοντέλου εφαρμόζοντας μια απλή αξιολόγηση ανά
υπολογιστικό κύκλο. Τελικά, η ικανότητα γενίκευσης μιας τεχνικής σταυρωτής αξιολόγησης ορίζεται ως
(σταθμισμένος) μέσος όρος της ικανότητας γενίκευσης κάθε απλής αξιολόγησης ανά υπολογιστικό κύκλο.
Δημοφιλείς τύποι σταυρωτής αξιολόγησης είναι οι ακόλουθοι.
H εξαντλητική (exhaustive) σταυρωτή αξιολόγηση αξιολογεί όλους τους δυνατούς διαμερισμούς
ενός συνόλου δεδομένων σε ένα υποσύνολο εκπαίδευσης και ένα υποσύνολο εξέτασης. Aξιολογεί πλήρως
ένα μοντέλο αναφορικά με ένα συγκεκριμένο σύνολο δεδομένων, αλλά τυπικά έχει μεγάλο «υπολογιστικό
κόστος» εξαιτίας των πολλών διαμερισμών που υπάρχουν για ένα σύνολο δεδομένων. Γι’ αυτόν τον λόγο
χρησιμοποιούνται μη-εξαντλητικές τεχνικές σταυρωτής αξιολόγησης, όπως περιγράφεται στη συνέχεια.
Η άσε-k-έξω (leave-k-out) σταυρωτή αξιολόγηση επιλέγει k (από συνολικά n) δεδομένα ως το
υποσύνολο εξέτασης, ενώ τα υπόλοιπα n-k δεδομένα αποτελούν το υποσύνολο εκπαίδευσης ενός
n n!
υπολογιστικού κύκλου. Συνολικά, επαναλαμβάνονται Ckn υπολογιστικοί κύκλοι για
k k !( n k )!
όλους τους δυνατούς τρόπους που k δεδομένα μπορούν να επιλεγούν από n δεδομένα. Σημειώστε ότι για
μεγάλες τιμές του n ο συνολικός αριθμός Ckn των υπολογιστικών κύκλων γίνεται τόσο μεγάλος, ώστε δεν
είναι πρακτικά εφικτή η εκτέλεση όλων των υπολογισμών. Σ’ αυτήν την περίπτωση λέμε ότι το
«υπολογιστικό κόστος» είναι μεγάλο. Η άσε-1-έξω (leave-1-out) σταυρωτή αξιολόγηση είναι μια ειδική
περίπτωση της άσε-k-έξω σταυρωτής αξιολόγησης για k=1. Έπεται ότι C1n n, συνεπώς το σύνολο των
υπολογισμών είναι εφικτό, διότι οι υπολογισμοί είναι σχετικά λίγοι. Σ’ αυτήν την περίπτωση λέμε ότι το
«υπολογιστικό κόστος» είναι μικρό.
Ακόμη και η άσε-k-έξω σταυρωτή αξιολόγηση, η οποία αξιολογεί μόνον εκείνους τους διαμερισμούς
που περιλαμβάνουν ακριβώς k δεδομένα στο υποσύνολο εξέτασης, μπορεί να έχει μεγάλο «υπολογιστικό
κόστος». Περαιτέρω απλοποιήσεις εφαρμόζονται προκειμένου να αποτιμάται γρήγορα (και αξιόπιστα) η
Β-1
ικανότητα γενίκευσης ενός μοντέλου. Συγκεκριμένα, θεωρούμε ότι η άσε-k-έξω σταυρωτή αξιολόγηση
υπολογίζει μια αξιόπιστη ικανότητα γενίκευσης, την οποία επιδιώκουμε να προσεγγίσουμε με μη-
εξαντλητικές τεχνικές σταυρωτής αξιολόγησης, μερικές από τις οποίες παρουσιάζονται στη συνέχεια.
Η k-πλή (k-fold) σταυρωτή αξιολόγηση διαμερίζει (τυχαία) το σύνολο δεδομένων σε k υποσύνολα
περίπου ίσης πληθικότητας το καθένα. Από τα προαναφερθέντα k υποσύνολα, ένα χρησιμοποιείται ως
υποσύνολο εξέτασης, ενώ η συνολοθεωρητική ένωση των υπόλοιπων k-1 υποσυνόλων χρησιμοποιείται ως
υποσύνολο εκπαίδευσης. Συνολικά εκτελούνται k υπολογιστικοί κύκλοι, έτσι ώστε με τη σειρά κάθε ένα από
τα k υποσύνολα να χρησιμοποιείται ως υποσύνολο εξέτασης. Το πλεονέκτημα αυτής της τεχνικής
αξιολόγησης, συγκριτικά με την τεχνική της επαναλαμβανόμενης αξιολόγησης τυχαίας δειγματοληψίας (βλ.
παρακάτω) είναι ότι κάθε δεδομένο εγγυημένα χρησιμοποιείται τόσο για εκπαίδευση, όσο και για εξέταση.
Μάλιστα για εξέταση χρησιμοποιείται ακριβώς μια φορά. Η παράμετρος k μπορεί να λάβει οποιαδήποτε
(θετική) ακέραια τιμή. H πλέον δημοφιλής επιλογή σε πρακτικές εφαρμογές (McLachlan κ.ά., 2004) είναι k =
10. Για k = 1 η k-πλή σταυρωτή αξιολόγηση ταυτίζεται με την άσε-1-έξω σταυρωτή αξιολόγηση.
H επαναλαμβανόμενη αξιολόγηση τυχαίας δειγματοληψίας (repeated random sub-sampling
validation) διαμερίζει τυχαία το σύνολο των δεδομένων σε ένα υποσύνολο εξέτασης προκαθορισμένης
πληθικότητας, έστω k, και σε ένα υποσύνολο εκπαίδευσης. Στη συνέχεια πραγματοποιείται μια απλή
αξιολόγηση και υπολογίζεται η ικανότητα γενίκευσης του μοντέλου. Ο προαναφερθείς υπολογιστικός κύκλος
επαναλαμβάνεται για προκαθορισμένες φορές. Ως τελικό αποτέλεσμα υπολογίζεται ο μέσος όρος των
(μερικών) αποτελεσμάτων του συνόλου των υπολογιστικών κύκλων. Από τη μια πλευρά το πλεονέκτημα
αυτής της τεχνικής συγκριτικά με την k-πλή σταυρωτή αξιολόγηση είναι ότι η αναλογία δεδομένων
εκπαίδευσης-εξέτασης δεν εξαρτάται από τον αριθμό των υπολογιστικών κύκλων. Από την άλλη πλευρά το
μειονέκτημα αυτής της τεχνικής είναι ότι κάποια δεδομένα μπορεί να μην επιλεγούν ποτέ για εξέταση, ενώ
κάποια άλλα μπορεί να επιλεγούν περισσότερες από μία φορές. Όταν ο αριθμός των υπολογιστικών κύκλων
αυξάνει, τότε το αποτέλεσμα αυτής της τεχνικής τείνει στο αποτέλεσμα της άσε-k-έξω σταυρωτής
αξιολόγησης.
Τεχνικές σταυρωτής αξιολόγησης μπορούν ακόμα να χρησιμοποιηθούν για εξαγωγή χαρακτηριστικών
σε ένα πρόβλημα, όπως περιγράφεται στο επόμενο παράδειγμα. Συγκεκριμένα, έστω ότι είναι διαθέσιμες 20
μεταβλητές χαρακτηριστικών πρωτεϊνών με σκοπό την πρόβλεψη της ανταπόκρισης ενός (βιολογικού)
οργανισμού σε ένα συγκεκριμένο φάρμακο. Ο προσδιορισμός του βέλτιστου υποσυνόλου των 20
προαναφερθέντων μεταβλητών για βέλτιστη πρόβλεψη αποτελεί ένα πρόβλημα εξαγωγής χαρακτηριστικών,
το οποίο μπορεί να λυθεί με τεχνικές σταυρωτής αξιολόγησης.
Μια τεχνική σταυρωτής αξιολόγησης εφαρμόζεται δοθείσης μιας μεθόδου πρόβλεψης, π.χ. ενός
μοντέλου ΥΝ, που χρησιμοποιείται ως «μαύρο κουτί», χωρίς να είναι απαραίτητη η γνώση της λειτουργίας
της. Σημειωτέον ότι η εφαρμογή μιας τεχνικής σταυρωτής αξιολόγησης καταλήγει σε χρήσιμα αποτελέσματα
μόνον όταν το υποσύνολο εξέτασης έχει επιλεγεί από τον ίδιο πληθυσμό σύμφωνα με την ίδια κατανομή
πιθανότητας, όπως και το υποσύνολο εκπαίδευσης.
Έστω ότι θέλουμε να αποτιμήσουμε την ικανότητα γενίκευσης ενός μοντέλου και χρησιμοποιούμε
μια τεχνική σταυρωτής αξιολόγησης για να υπολογίσουμε μια εκτίμηση F* της μέσης τιμής (expected value)
EF της ικανότητας γενίκευσης του μοντέλου. Έχει ενδιαφέρον ο υπολογισμός στατιστικών ιδιοτήτων της
τιμής F* όπως εξηγείται στη συνέχεια.
Η τιμή F* μιας τεχνικής σταυρωτής αξιολόγησης αποτελεί μια σχεδόν αμερόληπτη (unbiased)
εκτίμηση της μέσης τιμής EF. Ο λόγος για τη (σχεδόν) αμεροληψία είναι ότι το υποσύνολο εκπαίδευσης είναι
λίγο μικρότερο από το συνολικό πληθυσμό. Συγκεκριμένα, για την τεχνική άσε-1-έξω σταυρωτή αξιολόγηση,
το υποσύνολο εκπαίδευσης περιλαμβάνει n-1 από τα συνολικά n δεδομένα. Ωστόσο, η στατιστική διασπορά
του F* μπορεί να είναι μεγάλη (Efron & Tibshirani, 1997· Stone, 1977). Για αυτόν τον λόγο σημειώνουμε ότι
όταν συγκρίνονται δύο μοντέλα χρησιμοποιώντας μια τεχνική σταυρωτής αξιολόγησης, το μοντέλο το οποίο
θα δώσει το καλύτερο αποτέλεσμα μπορεί να μην έχει την καλύτερη μέση τιμή EF. Ήδη έχει δημοσιευτεί
κάποια πρόοδος σχετικά με τον υπολογισμό διαστημάτων εμπιστοσύνης (confidence intervals) της τιμής
του F* (Efron & Tibshirani, 1997), αλλά η εύρεση του βέλτιστου μοντέλου με τη χρήση μιας τεχνικής
σταυρωτής αξιολόγησης θεωρείται δύσκολο πρόβλημα.
Πέραν των τεχνικών σταυρωτής αξιολόγησης έχουν παρουσιαστεί συγκριτικά, επιπλέον στατιστικές
τεχνικές αξιολόγησης (Kohavi, 1995), μερικές από τις οποίες συνοψίζονται στη συνέχεια.
Η δειγματοθέτηση (bootstrap) είναι μια δημοφιλής τεχνική για την εκτίμηση χαρακτηριστικών μιας
στατιστικής (π.χ. για την εκτίμηση της διασποράς της στατιστικής του μέσου όρου δείγματος) με τον
υπολογισμό των προαναφερθέντων χαρακτηριστικών στη βάση ενός συνόλου ληφθέντων δειγμάτων (Efron,
Β-2
1979· Efron & Tibshirani, 1993). Συγκεκριμένα, θεωρώντας ότι τα ληφθέντα δείγματα αντιστοιχούν σε
ανεξάρτητες και απαράλλακτα κατανεμημένες τυχαίες μεταβλητές, η πρακτική είναι να επιλεγεί (με
επανατοποθέτηση) πολλές φορές από τα ληφθέντα δείγματα ίδιος αριθμός δειγμάτων με τον αριθμό των
αρχικά ληφθέντων δειγμάτων, όπως περιγράφεται στα ακόλουθα δύο παραδείγματα.
Πρώτο παράδειγμα. Έστω ότι μας ενδιαφέρει να υπολογίσουμε το μέσο όρο του ύψους όλων των
ανθρώπων. Επειδή δεν είναι εφικτή η καταγραφή του ύψους κάθε ανθρώπου πάνω στη γη σε μια
συγκεκριμένη χρονική στιγμή, αρκούμαστε στην λήψη ενός δείγματος μεγέθους N. Δηλαδή, μετρούμε το
ύψος N ανθρώπων επιλεγμένων ομοιόμορφα τυχαία από το σύνολο όλων των ανθρώπων. Από το ληφθέν
δείγμα μπορούμε να εκτιμήσουμε τον παγκόσμιο μέσο όρο υπολογίζοντας το μέσο όρο των N
καταγεγραμμένων υψών. Προκειμένου να λάβουμε χρήσιμες αποφάσεις ποσοτικοποιούμε τη μεταβλητότητα
του υπολογισθέντος μέσου όρου, όπως περιγράφεται στη συνέχεα. Η απλούστερη τυχαία δειγματοληψία με
επανατοποθέτηση, η οποία καλείται επανα-δειγματοληψία (re-sampling), αποφεύγει αυθαίρετες παραδοχές
περί κανονικότητας της κατανομής επιλέγοντας ομοιόμορφα τυχαία ένα δείγμα μεγέθους N από το σύνολο
των ήδη ληφθέντων N υψών ανθρώπων. Η προαναφερθείσα διαδικασία επαναλαμβάνεται πάρα πολλές φορές
(συνήθως 1.000 έως 10.000 φορές) και για κάθε δείγμα υπολογίζεται ο αντίστοιχος μέσος όρος, ο οποίος
καλείται εκτίμηση δείγματος (bootstrap estimate). Έτσι, προκύπτει ένα ιστόγραμμα όλων των εκτιμήσεων
δειγμάτων, από το οποίο μπορεί να υπολογιστεί η μεταβλητότητα της εκτίμησης δείγματος. H προηγούμενη
μέθοδος για το μέσο όρο μπορεί να επεκταθεί και σε οποιαδήποτε άλλη στατιστική.
Δεύτερο παράδειγμα. Έστω ένα πείραμα όπως το «στρίψιμο νομίσματος» με δύο τυχαία
αποτελέσματα, βλ. «κορώνα» και «γράμματα», τα οποία αναπαρίστανται με τους αριθμούς 0 και 1
αντίστοιχα. Έστω ότι εκτελούμε το πείραμα «στρίψιμο νομίσματος» 10 φορές και X= x1, x2,…, x10 είναι οι 10
παρατηρήσεις (0 ή 1) που καταγράφονται. Ο μέσος όρος των 10 πειραμάτων υπολογίζεται ως
1
x ( x1 x2 ... x10 ) . Μπορούμε να χρησιμοποιήσουμε τυχαία δειγματοληψία με επανατοποθέτηση
10
προκειμένου να υπολογίσουμε την κατανομή του x όπως περιγράφεται στη συνέχεια. Επιλέγουμε ένα τυχαίο
δείγμα X 1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Παρατηρήστε ότι πρώτον, το δείγμα X 1* περιέχει (και αυτό)
ακριβώς 10 δεδομένα και δεύτερον, στο δείγμα X 1* μπορεί κάποια δεδομένα να επαναλαμβάνονται
περισσότερες από μία φορές εξαιτίας της επανατοποθέτησής τους πριν τη δειγματοληψία. Στη συνέχεια
υπολογίζουμε το μέσο όρο, έστω 1* , του δείγματος X 1* . Επαναλαμβάνουμε την προηγούμενη διαδικασία και
επιλέγουμε τυχαία ένα νέο δείγμα, έστω X 2* , για το οποίο υπολογίζουμε τον αντίστοιχο μέσο όρο 2* . Μετά
από, έστω 100, επαναλήψεις της προαναφερθείσας διαδικασίας έχουμε υπολογίσει τους μέσους όρους 1* ,
2* , …, 100
*
, οι οποίοι αποτελούν μια εμπειρική κατανομή (τυχαίας δειγματοληψίας με επανατοποθέτηση)
του μέσου όρου δείγματος. Από την προαναφερθείσα κατανομή μπορούμε να υπολογίσουμε ένα διάστημα
εμπιστοσύνης στο πλαίσιο ενός στατιστικού ελέγχου υποθέσεων (statistical hypothesis testing).
Βιβλιογραφία
Devijver, P.A. & Kittler, J. (1982). Pattern Recognition: A Statistical Approach. London, G.B.: Prentice-Hall.
Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The Annals of Statistics, 7(1), 1-26.
Efron, B. & Tibshirani, R. (1993). An Introduction to the Bootstrap. Boca Raton, FL: Chapman & Hall/CRC.
Efron, B. & Tibshirani, R. (1997). Improvements on cross-validation: The .632 + Bootstrap Method. J.
American Statistical Association, 92(438), 548-560.
Kohavi, R. (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. In:
Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence 2 (12): 1137-
1143. San Mateo, CA: Morgan Kaufmann.
McLachlan, G.J., Do, K.-A. & Ambroise, C. (2004). Analyzing Microarray Gene Expression Data. New
York, N.Y.: Wiley.
Stone, M. (1977). Asymptotics for and against cross-validation. Biometrika, 64(1), 29-35.
Β-3
Παράρτημα Γ:
Εφαρμογές της Υπολογιστικής Νοημοσύνης
Εδώ σκιαγραφούνται ενδεικτικά πεδία εφαρμογών ΥΝ και περιλαμβάνονται επιλεγμένες εφαρμογές των
συγγραφέων αυτού του βιβλίου. Συγκεκριμένα, η παρουσίαση διαρθρώνεται ανά πεδίο εφαρμογών ως
ακολούθως: (1) Μηχανική Μάθηση, (2) Αναγνώριση Προτύπων, (3) Επεξεργασία Προτύπων, (4) Πρόβλεψη,
(5) Αυτόματος Έλεγχος, (6) Συστήματα Στήριξης Αποφάσεων, και (7) Εξαγωγή Χαρακτηριστικών.
H Μηχανική Μάθηση και η Αναγνώριση Προτύπων είναι δημοφιλή πεδία εφαρμογών ΥΝ. Ωστόσο,
τα όρια μεταξύ των προαναφερθέντων πεδίων είναι δυσδιάκριτα. Ως διακριτικό χαρακτηριστικό της
Μηχανικής Μάθησης θεωρούμε την εξόρυξη γνώσης, ενώ ως διακριτικό χαρακτηριστικό της Αναγνώρισης
Προτύπων θεωρούμε την ικανότητα γενίκευσης κατά τη λήψη αποφάσεων. Σημειώστε ότι ως εξόρυξη
γνώσης εδώ ορίζουμε την ανακάλυψη αναπαραστάσεων γνώσης μέσα σε βάσεις δεδομένων, ενώ ως
Μηχανική Μάθηση ορίζουμε τη μελέτη αλγορίθμων οι οποίοι, βασιζόμενοι σε δεδομένα, βελτιώνουν την
ικανότητά τους να παρέχουν εκτιμήσεις στη βάση αναπαραστάσεων γνώσης που αναπτύσσουν.
Γ.4 Πρόβλεψη
Πιθανοτικά μοντέλα ΥΝ έχουν χρησιμοποιηθεί για αναγνώριση ομιλίας και για άλλες εφαρμογές πρόβλεψης
χρονοσειρών (Petridis & Kehagias, 1998). Γνωσιακοί χάρτες έχουν επίσης χρησιμοποιηθεί σε πρόγνωση
χρονικών σειρών (Froelich & Salmeron, 2014).
Γ-1
Γ.5 Αυτόματος Έλεγχος
Σημαντική δουλειά έχει δημοσιευτεί για την εφαρμογή αλγορίθμων βελτιστοποίησης εμπνευσμένων από τη
φύση σε τομείς όπως: σχεδίαση συστημάτων μεγάλης κλίμακας (Akay & Karaboga, 2012), σχεδίαση
συστημάτων βέλτιστου ελέγχου (Jamshidi κ.ά., 2003) κ.ά. Γνωσιακοί χάρτες έχουν χρησιμοποιηθεί για
έλεγχο συστημάτων (Stylios & Groumpos, 2000· Kottas κ.ά., 2006), για μοντελοποίηση πολύπλοκων
συστημάτων (Rodriguez-Repiso κ.ά., 2007), καθώς και σε εφαρμογές γεωργίας ακριβείας (precision
farming) (Papageorgiou κ.ά., 2009).
Βιβλιογραφία
Akay, B. & Karaboga, D. (2012). Artificial bee colony algorithm for large-scale problems and engineering
design optimization. J. of Intel. Manuf., 23(4) 1001-1014.
Bishop, C.M. (2006). Pattern Recognition and Machine Learning (Information Science and Statistics).
Heidelberg, Germany: Springer.
Froelich, W. & Salmeron, J.L. (2014). Evolutionary learning of fuzzy grey cognitive maps for the forecasting
of multivariate, interval-valued time series. International Journal of Approximate Reasoning, 55(6),
1319-1335.
Jamshidi, M., Coelho, L.D.S., Krohling, R.A. & Fleming, P.J. (2003). Robust Control Systems with Genetic
Algorithms. Boca Raton, Florida: CRC Press.
Jamshidi, Y. & Kaburlasos, V.G. (2014). gsaINknn: A GSA optimized, lattice computing knn classifier.
Engineering Applications of Artificial Intelligence, 35, 277-285.
Kaburlasos, V.G. (2006). Towards a Unified Modeling and Knowledge-Representation Based on Lattice
Theory (Studies in Computational Intelligence 27). Heidelberg, Germany: Springer.
Kaburlasos, V.G., Papadakis, S.E. & Papakostas, G.A. (2013). Lattice computing extension of the FAM
neural classifier for human facial expression recognition. IEEE Transactions on Neural Networks &
Learning Systems, 24(10), 1526-1538.
Kottas, T.L., Boutalis, Y.S. & Karlis, A.D. (2006). New maximum power point tracker for PV arrays using
fuzzy controller in close cooperation with fuzzy cognitive networks. IEEE Transactions on Energy
Conversion, 21(3), 793-803.
Liu, Z. & Satur, R. (1999). Contextual fuzzy cognitive map for decision support in geographic information
systems. IEEE Transactions on Fuzzy Systems, 7(5), 495-507.
Nezamabadi-pour, H., Saryazdi, S. & Rashedi, E. (2006). Edge detection using ant algorithms. Soft
Computing, 10(7), 623-628.
Papadakis, S.E., Tzionas, P., Kaburlasos, V.G. & Theocharis, J.B. (2005). A genetic based approach to the Type
I structure identification problem. Informatica, 16(3), 365-382.
Papageorgiou, E.I. (2011). A new methodology for Decisions in Medical Informatics using fuzzy cognitive
maps based on fuzzy rule-extraction techniques. Applied Soft Computing, 11(1), 500-513.
Γ-2
Papageorgiou, E.I., Markinos, A. & Gemptos, T. (2009). Application of fuzzy cognitive maps for cotton yield
management in precision farming. Expert Systems with Applications, 36(10), 12399-12413.
Papakostas, G.A. (2015). Improving the Recognition Performance of Moment Features by Selection. In U.
Stanczyk & L.C. Jain (Eds.), Feature Selection for Data and Pattern Recognition (Studies in
Computational Intelligence 584, pp. 305-327). Berlin, Germany: Springer.
Papakostas, G.A., Boutalis, Y.S., Koulouriotis, D.E. & Mertzios, B.G. (2008). Fuzzy cognitive maps for
pattern recognition applications. International Journal of Pattern Recognition and Artificial
Intelligence, 22(8), 1461-1468.
Papakostas, G.A., Tsougenis, E.D., Koulouriotis, D.E. & Tourassis, V.D. (2014). Moment-based local image
watermarking via genetic optimization. Applied Mathematics and Computation, 227, 222-236.
Petridis, V. & Kehagias. A. (1998). Predictive modular neural networks Applications to time series. Norwell,
MA: Kluwer Academic Publishers.
Rashedi, E., Nezamabadi-Pour, H. & Saryazdi, S. (2011). Filter modeling using gravitational search
algorithm. Engineering Applications of Artificial Intelligence, 24(1), 117-122.
Rodriguez-Repiso, L., Setchi, R. & Salmeron, J.L. (2007). Modelling IT projects success with Fuzzy
Cognitive Maps. Expert Systems with Applications, 32(2), 543-559.
Shalev-Shwartz, S. & Ben-David, S. (2014). Understanding Machine Learning: From Theory to Algorithms.
New York, NY: Cambridge University Press.
Salmeron, J.L. (2012). Fuzzy cognitive maps for artificial emotions forecasting. Applied Soft Computing,
12(12), 3704-3710.
Stylios, C.D. & Groumpos, P.P. (2000). Fuzzy cognitive maps in modeling supervisory control systems.
Journal of Intelligent and Fuzzy Systems, 8(2), 83-98.
Sutton, R.S. & Barto, A.G. (1998). Reinforcement Learning An Introduction. Cambridge, MA: The MIT
Press.
Vonk, E., Jain, L.C. & Johnson, R.P. (1997). Automatic Generation of Neural Network Architecture Using
Evolutionary Computation. Singapore: World Scientific.
Xirogiannis, G., Stefanou, J. & Glykas, M. (2004). A fuzzy cognitive map approach to support urban design.
Expert Systems with Applications, 26(2), 257-268.
Γ-3
Ευρετήριο
αιτιατό 6-8
αίτιο 6-8
αίτιο (κανόνα) 2-6, 2-14, 2-15, 2-17, 2-20, 2-23, 2-24, 7-2
άλγεβρα 7-15
Boole 7-16, 8-1
συνεπαγωγών πλέγματος 8-3
αλγόριθμος
ασαφών κ-μέσων 5-12
βαρυτικής αναζήτησης 3-12
εμπνευσμένος από την φύση 3-1
ηγέτη-ακόλουθου 1-14
κ-μέσων 5-11
κατάβασης 3-2
άλεσμα αριθμών 0-2, 1-17, ΙΙΙ-2
αμφιμονοσήμαντη αντιστοιχία 7-12
αναγνώριση προτύπων 0-2, Α-10, Γ-1
αναδρομικό ΤΝΔ 1-17
αναπαράσταση
ΑΔ 9-12
-διαστημάτων 9-4
νευρώνων 1-5
προτύπων 1-5
-συνάρτησης-συμμετοχής 9-4
ανατροφοδοτούμενο ΤΝΔ 1-10
ανόμοιοι τύποι δεδομένων 7-7, 7-12
ανταγωνιστική μάθηση 1-13
αντικείμενo 8-4
απο-ασαφοποίηση 2-20, 2-21, 2-22, 2-23
από κοινού συνάρτηση
κατανομής πιθανότητας 6-1, 6-13
μάζας 5-16, 5-18
απόντα δεδομένα 9-14, 9-15
απόσταση Hamming 7-7
αποτέλεσμα (κανόνα) 2-6, 2-14, 2-15, 2-17, 2-20, 2-23, 7-2
αποφάσεις αρχών 9-6
αριθμητική
ασαφών αριθμών 2-9, 9-12
διαστημάτων 9-12
αριθμός διαστημάτων (ΑΔ) 9-4,
τύπου-2 (Τ2) 9-4
αρχή
της ανάλυσης 8-4
της δυϊκότητας 7-13, 7-16
της επέκτασης 2-3
ασαφές
πλέγμα 7-1
σύνολο 2-1
διαισθητικό 2-5, 4-13
τύπου-1 (Τ1) 2-4, 2-9
(γενικευμένο) τύπου-2 (Τ2) 2-5, 2-24
σύστημα (ΑΣ) 2-8, 2-15
σύστημα συμπερασμού (ΑΣΣ) 2-14, 2-23
Ευρετ-1
ασαφής
αριθμός 2-9
τύπου-2 (Τ2) 2-24
κανόνας 2-14, 2-24
λογική 2-1, 2-5, 2-6, 2-8, 2-15
μεταβλητή 2-8, 2-15
σχέση 2-4, 2-13
ασαφοποίηση 2-3, 2-15, 2-19
άσε-k-έξω Β-1
ασθενής κατηγοριοποιητής 5-1
ατομικό πλέγμα 7-4, 7-16
άτομο
(σε μδσυν) 7-7, 7-14
(σε πληθυσμό) 3-3, 3-4, 3-5, 3-7, 3-8, 3-10
αυτοματοποιημένη συλλογιστική 8-4
βαθιά μάθηση 1-17
βαθμός
αλήθειας 2-5, 2-7, 2-17, 7-1
διάταξης 7-2, 7-3, 7-4, 7-5, 7-6, 7-7, 7-9, 7-10, 7-11, 7-17, 9-11
ενεργοποίησης 2-17, 2-19, 2-20, 2-23
καταλληλότητας 3-4
συμμετοχής 2-2, 2-15, 2-18, 2-19, 2-23
βάση
γνώσης 2-15
δεδομένων 8-5
βελτιστοποίηση 3-1
αποικίας μυρμηγκιών 3-12
γραμμική 3-1
με περιορισμούς 3-1
πολλαπλών στόχων 3-1
σμήνους σωματιδίων (ΒΣΣ) 3-10
γενικευμένος κανόνας Δέλτα 1-9, 1-10
γενίκευση 0-2, 4-1, 4-5, 5-1, 5-2, Β-1
γνώρισμα [ή, εναλλακτικά, χαρακτηριστικό] (διάκρισης) 6-2, 6-3, 8-4, 8-5
γνώση 0-2
δεδομένα 0-2
δειγματοθέτηση Β-2
δένδρο αποφάσεων 5-2, 5-3
διάγραμμα Hasse 7-13, 7-14
διαίρει-και-βασίλευε 6-2, 6-3
διάνυσμα στήριξης 4-5, 4-6, 4-7, 4-8
διάσταση Vapnik-Chervonenkis 4-10
διασταύρωση 3-4, 3-8, 3-9, 3-10
διάστημα
γενικευμένο 7-5, 9-12
εμπιστοσύνης Β-2, Β-3
τύπου-1 (Τ1) 7-4, 7-5, 7-7, 9-1, 9-2, 9-12, 9-13
τύπου-2 (Τ2) 9-2, 9-3
δίκτυο
ακτινωτής βάσης (ΔΑΒ) 4-2, 4-5, 4-10
Bayes (ΔΒ) 6-1, 6-2, 6-12
Markov (ΔM) 6-1
πεποίθησης 6-1
δίλημμα ευστάθειας/πλαστικότητας 1-12
δυϊκό 7-13, 7-16
Ευρετ-2
ισομορφισμός (δυϊκός) 7-6, 7-7, 7-8, 7-11
πρόβλημα (δυϊκό) 4-7, 4-8, 4-10
πρόταση (δυϊκή) 7-13, 7-16
δυναμοσύνολο 5-15, 5-17, 7-7, 7-9, 7-13, 7-14, 7-16, 8-6
εγκλεισμός (συνολοθεωρητικός) 2-3, 7-2
εκθετική έκρηξη 2-24
εκπαίδευση [ή, εναλλακτικά, μάθηση] 0-2, Β-1
εκπαίδευση που κατευθύνεται από έρευνα 0-2
ελάχιστο άνω φράγμα 2-2, 2-3, 2-12, 7-7, 7-15, 9-1, 9-2, 9-3, 9-4, 9-18
ελιτισμός 3-8, 3-10
έμπειρο σύστημα 2-12
ενεργή μάθηση 5-2, 6-10
έννοια 2-1, 4-10
εντροπία 6-4, 6-6
εξαγωγή γνωρισμάτων/χαρακτηριστικών 8-7, B-2, Γ-2
εξαναγκασμένη μάθηση Γ-1
εξελισσόμενο πρόγραμμα 3-6
εξερεύνηση (του χώρου αναζήτησης) 3-3, 3-9
εξόρυξη γνώσης 5-5, Γ-1
επαγωγή 6-2, 6-4
επανατοποθέτηση (χρωμοσωμάτων) 3-10
επαναφορά 1-15, 1-16
επιλογή 3-7
με διαγωνισμό 3-7
ρουλέτας 3-7, 3-8
τοπική 3-7
του καλύτερου συζύγου 3-7
επιτροπή εμπειρογνωμόνων 5-1
εποπτεία [ή, εναλλακτικά, επίβλεψη] 1-3, 4-3
εργαλειοθήκη (MATLAB) 2-22, Α-1
Ευκλείδεια απόσταση 7-8
ζ-Φέτα 9-10
θεώρημα της ταυτοποίησης 2-3, 9-4
θεωρία
γράφων 6-1
διάταξης [ή, εναλλακτικά, πλεγμάτων] ΙΙΙ-2, 7-1, 7-2, 7-7, 7-12, 7-15, 7-16, 7-17
πληροφορίας 6-4
προσαρμοστικού συντονισμού (ΘΠΣ) 1-12, 1-14, 9-15
συναρτήσεων πεποίθησης 5-15
τεκμηρίων 5-15, 5-17
ισομορφισμός 7-13, 7-17
ισχυρός κατηγοριοποιητής 5-1
k-πλή σταυρωτή αξιολόγηση Β-2
κανόνας
αλυσίδας 6-1
Δέλτα 1-4, 1-5, 1-6
κατάβαση βαθμίδας 3-2, 4-3, 4-12
κατανομή
εφικτότητας 9-10, 9-18
πιθανότητας 9-10, 9-11, 9-13, 9-18
κατευθυνόμενος ακυκλικός γράφος (ΚΑΓ) 6-1
κατηγόρημα 2-8
κατηγοριοποίηση 0-2, 1-3, 1-12, 1-15, 1-16, 4-3, 4-4, 4-5, 4-6, 4-7, 4-8, 4-12, 5-1, 5-2, 5-3, 5-5
κατηγορούμενο 2-8
κέρδος πληροφορίας 6-4, 6-6, 6-13
Ευρετ-3
κόκκος πληροφορίας 2-1, ΙΙΙ-2, 9-4, 9-7
κοκκώδης υπολογισμός ΙΙΙ-2
κύκλος μάθησης 1-7
κυρτός 3-1, 3-2, 3-3, 7-4, 7-7, 7-16, 9-6, 9-9
κωδικοποίηση (χρωμοσώματος) 3-4, 3-5, 3-6, 3-9
κώνος 9-4, 9-12
λογικές απαιτήσεις 7-3, 7-5, 7-6, 7-17
λογικοφάνεια 5-15, 5-16
μάθηση [ή, εναλλακτικά, εκπαίδευση] 0-2, Β-1
κατά Hebb 1-1
με εποπτεία 1-3
χωρίς εποπτεία 1-3, 5-5
μαντείο 5-5
μαύρο κουτί 0-2, 4-1
μέγιστο κάτω φράγμα 2-3, 7-15, 9-1, 9-2, 9-3, 9-18
μεθοδολογία 8-1, 8-7
μέθοδος των ελαχίστων τετραγώνων 3-1
μερικώς
διατεταγμένη σχέση 7-1, 7-7, 7-12, 7-13, 8-1, 8-7, 9-12
διατεταγμένο σύνολο (μδσυν) 7-4, 7-6, 7-13, 7-14, 7-15, 7-18, 9-2, 9-3, 9-9, 9-18
μετα-αλγόριθμος 5-1, 5-2
μετάλλαξη 3-5, 3-9
μέτρηση 9-1, 9-13
μετρήσιμος χώρος 7-8
μετρικός χώρος 7-17
μέτρο εγκλεισμού 9-11
μηχανές
ακραίας μάθησης (ΜΑΜ) 4-12
διανυσμάτων στήριξης (ΜΔΣ) 4-5
μηχανική μάθηση 5-1, 9-15, Γ-1
μοντέλο 0-1, 0-2, 0-3, 1-2, 1-12, 2-4, 2-6, 2-8, 2-13, 2-14, 2-23, 2-24, 4-5, 4-12, 5-1, 5-3, 5-17, 6-11,
ΙΙΙ-2, Α-13, Α-14, Α-15, Β-1, Β-2, Γ-1, Γ-2
κ πλησιέστερων γειτόνων (κΠΓ) 4-4
μοντελοποίηση 0-2, 0-3, 1-12, 2-5, 2-6, 2-8, 2-23, 3-4, 6-8, 6-9, 6-11, 7-12, Γ-2
νευρο-ασαφή συστήματα (ΝΑΣ) 4-1
προσαρμοστικά συμπερασμού (ΠΝΑΣΣ) 4-1, 4-2
νευρώνας 1-1, 1-2, 1-3, 1-4, 1-9, 1-10, 1-13, 1-16, 1-17, 4-1, 4-2, 4-3, 4-12
νευρωνικός υπολογισμός 0-2, 1-1
νοημοσύνη σμήνους 3-12
ομαδοποίηση 0-2, 1-3, 1-11, 1-12, 1-13, 1-14, 1-15, 1-16, ΙΙ-2, 4-3, 5-5, 5-9, 5-11, 5-12, 5-13, 5-14, 9-
15, 9-16
ομιλούμενη γλώσσα 2-5, 2-6, 2-8, 2-14, 2-25
οντολογία 7-12, 8-5
οπισθόδρομη μάθηση 1-9
οπτικοποίηση 1-12
παλινδρόμηση (στατιστική) 0-2, 4-4, 4-5, 5-2, 5-3, 9-13, 9-15, 9-18, Β-1
πιθανώς ορθό κατά προσέγγιση (ΠΟΠ) 5-2, 5-3, 5-5
πλέγμα 7-1, 7-2, 7-3, 7-15
συνένωσης 7-9
πλήρες 7-15
πλειότιμη (λογική) 2-5, 2-7
πληθικότητα 2-23, 4-11, 5-15, 6-6, 8-7, 9-4, 9-16, 9-17
πληροφορία 0-2
πολλαπλή δειγματοθέτηση 5-2
πράκτορας λογισμικού Γ-1
Ευρετ-4
πράξη 7-15
πρόβλημα
αποστήθισης 5-2, 5-3
βελτιστοποίησης 3-1
πολλαπλασιασμού των κατηγοριών 1-15
προβολή 2-4
προσωτροφοδοτούμενο ΤΝΔ 1-2, 1-3, 1-10, Α-10
πρόταση 2-5, 2-6
σύνθετη 2-8
κατηγορηματική 2-8, 2-12
πρόωρη σύγκλιση 3-3
πυρήνας
(ασαφούς συνόλου) 2-2
(ΜΔΣ) 4-9, 4-10
ρυθμός μάθησης 1-11, 1-13,
σ-άλγεβρα 7-8
σαγματικό σημείο 4-7, 5-9
σημασιολογία 1-17, ΙΙΙ-2, 7-7, 7-12
σμήνος
(για εφαρμογές εξελικτικού υπολογισμού) 3-10
(για εφαρμογές ομαδοποίησης) 0-2, 5-11, 5-13
στατιστικός έλεγχος υποθέσεων Β-3
σταυρωτή αξιολόγηση Β-1
στοχαστικά δάση 5-3
συγκερασμός ανόμοιων τύπων δεδομένων 7-12
συλλογιστική
από κάτω προς τα πάνω 6-1
από πάνω προς τα κάτω 6-1
ασαφών πλεγμάτων (ΣΑΠ) 7-2, 9-6, 9-15, 9-16, 9-17
κατ’ αναλογία 7-2
παραγωγική 7-2
προσεγγιστική 7-2
συμπερασμός (ασαφούς κανόνα) 2-11, 2-14
συνάρτηση
αθροιστικής κατανομής 9-11
αντικειμενική [ή, εναλλακτικά, κόστους] 1-12, 1-13, 3-1, 3-2, 3-3, 3-4, 3-8, 3-10, 3-11, 3-12, 4-3,
4-7, 5-2, 5-12, Α-17, Γ-1
βάρους 9-7
διατήρησης τάξης 7-13
καταλληλότητας 3-4, 3-6, 3-7
λογιστική 1-2, 9-16
μάζας 5-15, 5-16, 5-17, 9-19
μεγέθους 7-6, 7-7, 7-14, 7-17, 9-2, 9-3, 9-7, 9-9, 9-16
μεταφοράς 1-1, 1-2, 1-4, 1-7, 1-8, 1-9
μετρική 7-3, 7-5, 7-6, 7-7, 7-9, 7-10, 7-11, 7-17, 9-1, 9-2, 9-3, 9-7, 9-9
μέτρου 7-8
πεποίθησης 5-15, 5-16
πυκνότητας πιθανότητας 5-6, 5-13, 9-7
σίγμα-διατομής 7-2, 7-4
σίγμα-συνένωσης 7-2, 7-4
σιγμοειδής 9-16
συμμετοχής 2-1, 2-3, 2-5, 2-8, 2-23, 2-24, 2-25
συνεπαγωγής 2-6, 2-8
τιμοδότησης 7-3, 7-6, 7-10, 7-17
μονότονης 7-3
Ευρετ-5
θετικής 7-2, 7-3, 7-4, 7-5, 7-6, 7-7, 7-8, 7-10, 7-11, 7-17, 9-1, 9-2, 9-3, 9-9, 9-15, 9-18
συνδυαστικός κανόνας του Dempster 5-16, 5-17
συνθετικός συμπερασματικός κανόνας (του Zadeh) 2-12, 2-13, 2-26
σύνολο
αναφοράς [ή, εναλλακτικά, βασικό σύνολο] 2-1, 2-2, 2-3, 2-4, 2-5, 2-8, 2-9, 2-10, 2-11, 2-15,
2-23, 2-24
κατηγοριοποιητών 5-1
συστήματα στήριξης αποφάσεων Γ-2
σφάλμα
ελαχίστων τετραγώνων (ΣΕΤ) 5-11, Β-1
μέσο τεραγωνικό (ΜΤΣ) 1-7
σχέση 7-3, 7-6, 7-8, 7-12, 7-13, 7-14
ασαφής 7-1
δυαδική 7-1, 7-7, 7-12, 7-15
ισοδυναμίας 7-13
σωματίδιο (σμήνους) 3-10, 3-11
τελεστής 2-3, 2-4, 2-6, 2-7, 2-12, 3-3, 3-4, 3-5, 3-8, 3-9, 3-10
τεράστια δεδομένα 0-1, 4-12, 9-18
τεχνητή νοημοσύνη (ΤΝ) 0-1
τοπολογικά διατεταγμένοι χάρτες 1-11
τριγωνική
ανισότητα (συνθήκη) 7-17
νόρμα [ή, εναλλακτικά, τ-νόρμα] 2-6, 2-7
συννόρμα [ή, εναλλακτικά, τ-συννόρμα /σ-νόρμα] 2-6, 2-7
τρόπος που θέτει 2-11, 7-2
τυποποιημένα συμφραζόμενα 8-4
τυποποιημένη έννοια 8-4, 8-5
τυφλή αναζήτηση 6-4
υπερ-παραλληλεπίπεδο 1-14
υποκείμενο (πρότασης) 2-8, 2-14
υπολογισμός
με λέξεις 2-24, 2-25
σε πλέγματα ΙΙΙ-2, 7-7, 8-1
υποσύνολο δεδομένων
αξιολόγησης Β-1
εκπαίδευσης Β-1
εξέτασης Β-1
φυσική επιλογή 3-4
φυσικός υπολογισμός ΙΙ-2, Γ-1
χαρακτηριστικό [ή, εναλλακτικά, γνώρισμα] (διάκρισης) 6-2, 6-3, 8-4, 8-5
χαρακτηριστική συνάρτηση 2-1, 2-2, 2-3, 2-4, 2-9, 2-10, 2-11, 2-20, 2-24, 2-25
πρωτεύουσα 2-24
δευτερεύουσα 2-24
χρωμόσωμα 3-4, 3-5, 3-6, 3-7, 3-8, 3-9, 3-10, 3-12, 3-13
χώρος
αναζήτησης των λύσεων 3-1, 3-3, 3-4, 3-6, 3-9, 3-10
μέτρου 7-8, 7-9
πιθανότητας 5-17, 7-9, 7-14
ψευδο-
αντίστροφος 4-3
μετρική συνάρτηση 7-17
ώθηση 5-1, 5-2
Ευρετ-6
Γλωσσάρι
α-διατομή: α-cut
αβεβαιότητα: uncertainty
αδιάφορα δεδομένα: don’t care data
αιτιατό: effect
αίτιο: cause
αίτιο (κανόνα): antecedent (of a rule)
αιτιοκρατικός: deterministic
άλγεβρα: algebra
Boole: Boolean algebra
συνεπαγωγών πλέγματος: lattice implication algebra
αλγεβρικός ορισμός (πλέγματος): algebraic definition (of a lattice)
αλγόριθμος
αναμόχλευσης: leveraging algorithm
ασαφών κ-μέσων: k-means algorithm
βαρυτικής αναζήτησης: gravitational search algorithm
διαφορικής εξέλιξης: differential evolution algorithm
εμπνευσμένος από την φύση: nature-inspired algorithm
ηγέτη-ακόλουθου: leader-follower algorithm
κ-μέσων: k-means algorithm
κατάβασης: descent algorithm
κλασικής βελτιστοποίησης: classical optimization algorithm
νυχτερίδας: bat algorithm
πυγολαμπίδας: firefly algorithm
στρατηγικής εξέλιξης: evolution strategy algorithm
τεχνητή αποικία μελισσών: artificial bee colony algorithm
άλεσμα αριθμών: number crunching
αλυσίδα: chain
αμερόληπτος: unbiased
αμοιβαία πληροφορία: mutual information
αμφιβολία: ambiguity
αμφιμονοσήμαντη
αντιστοιχία: bijection
αναγνώριση προτύπων: pattern recognition
αναδρομικό ΤΝΔ: recursive ANN
ανάθεση: assignment
βασικής πεποίθησης: basic belief assignment
μάζας πιθανότητας: probability mass assignment
ποιότητας με βάση την τάξη: rank-based fitness assignment
ανακλαστική (συνθήκη): reflexivity (condition)
ανάκτηση: retrieval
ανάλυση
ανεξάρτητων συνιστωσών: independent component analysis
ίδιων τιμών: singular value decomposition
κυρίων συνιστωσών: principal component analysis
αναπαράσταση: representation
-διαστημάτων: interval-representation
νευρώνων: neuron representation
προτύπων: pattern representation
-συνάρτησης-συμμετοχής: membership-function-representation
ανάστροφο (πίνακα): (matrix) transpose
ανατροφοδοτούμενο ΤΝΔ: recurrent ANN
ανιχνεύσιμος: identifiable
Γλωσ-1
άνοιγμα (ΜΜ): opening (MM)
ανόμοιοι τύποι δεδομένων: disparate data types
ανταγωνιστική μάθηση: competitive learning
αντικείμενo: object
αντιμεταθετική ιδιότητα: commutativity
αντίστροφη σχέση: inverse relation
αντισυμμετρική (συνθήκη): antisymmetry (condition)
απλή αξιολόγηση: holdout validation
άπληστος: greedy
απο-ασαφοποίηση: de-fuzzification
απο-ασαφοποιητής: de-fuzzifier
από κοινού συνάρτηση: joint function
κατανομής πιθανότητας: joint probability distribution function
μάζας: joint mass function
απόντα δεδομένα: missing data
απλοποιημένο (υποσύνολο): simplified (subset)
απορρόφηση (ιδιότητα): absorption (law)
απόσταση Hamming: Hamming distance [ή, εναλλακτικά, city-block distance]
αποτέλεσμα (κανόνα): consequent (of a rule)
αποφάσεις αρχών: principled decision-making
αριθμήσιμο σύνολο: countable set
αριθμητική: arithmetic
ασαφών αριθμών: fuzzy number arithmetic
διαστημάτων: interval arithmetic
αριθμός διαστημάτων (ΑΔ): intervals’ number (IN)
άνω: upper IN
γενικευμένος: generalized IN
κάτω: lower IN
τύπου-1 (Τ1): intervals’ number (IN) type-1 (T1)
τύπου-2 (Τ2): intervals’ number (IN) type-2 (T2)
άρνηση: negation
άρρητος (αριθμός): irrational (number)
αρχείο γραφής: script file
αρχή: principle
της ανάλυσης: resolution principle
της δυϊκότητας: duality principle
της επέκτασης: extension principle
ασαφές: fuzzy
διάστημα: fuzzy interval
δυναμοσύνολο: fuzzy power set
μοντέλο: fuzzy model
πλέγμα: fuzzy lattice
σύνολο: fuzzy set
διαισθητικό: intuitionistic fuzzy set
διαστημότιμο: interval-valued fuzzy set
κανονικό: normal fuzzy set
κενό: empty fuzzy set
τύπου-1 (Τ1): type-1 (T1) fuzzy set
(γενικευμένο) τύπου-2 (Τ2): (generalized) type-2 (T2) fuzzy set
σύστημα (ΑΣ): fuzzy system (FS)
σύστημα συμπερασμού (ΑΣΣ): fuzzy inference system (FIS)
ασαφής: fuzzy
αλγόριθμος: fuzzy algorithm
αριθμός: fuzzy number
τύπου-1 (Τ1): type-1 (Τ1) fuzzy number
Γλωσ-2
τύπου-2 (Τ2): type-2 (Τ2) fuzzy number
κανόνας: fuzzy rule
λογική: fuzzy logic
μεταβλητή: fuzzy variable
σχέση: fuzzy relation
ασαφοποίηση: fuzzification
ασαφοποιητής: fuzzifier
άσε-1-έξω: leave-1-out
άσε-k-έξω: leave-k-out
ασθενής: weak
(ασαφής) σχέση μερικής διάταξης: weak (fuzzy) partial order relation
κατηγοριοποιητής: weak classifier/learner
ατομικό πλέγμα: atomic lattice
άτομο
(σε μδσυν): atom (in a poset)
(σε πληθυσμό): individual (in a population)
αυτοματοποιημένη συλλογιστική: automated reasoning
αυτόματος έλεγχος: automatic control
αυτο-οργανούμενοι χάρτες: self-organizing maps
βαθιά μάθηση: deep learning
βαθμός
αλήθειας: degree of truth
διάταξης: fuzzy order
ενεργοποίησης: degree of activation
καταλληλότητας: degree of fitness
συμμετοχής: degree of membership
βάση: base
γνώσης: knowledge base
δεδομένων: data base
βασικό πλέγμα: constituent lattice
βελτιστοποίηση: optimization
αποικίας μυρμηγκιών: ant colony optimization
βιογεωγραφίας: biogeography-based optimization
γραμμική: linear optimization
με περιορισμούς: constrained optimization
μη-γραμμική: non-linear optimization
πολλαπλών στόχων: multiobjective optimization
σμήνους σωματιδίων (ΒΣΣ): particle swarm (PSO) optimization
χωρίς περιορισμούς: unconstrained optimization
γενετικό σχέδιο: genetic plan
γενετικός αλγόριθμος: genetic algorithm
γενικευμένος κανόνας Δέλτα: generalized Delta rule
γενίκευση: generalization
γεωργία ακριβείας: precision farming
γνώρισμα [ή, εναλλακτικά, χαρακτηριστικό] (διάκρισης): (discrimination) attribute [feature]
γνώση: knowledge
γνωσιακοί χάρτες (ΓΧ): cognitive maps (CM)
γονίδιο: gene
γραμμικός χώρος: linear space
δεδομένα: data
δειγματοθέτηση: bootstrap
δενδρική δομή: tree structure
δένδρο αποφάσεων: decision tree
διάβρωση (ΜΜ): erosion (MM)
διάγνωση: diagnosis
Γλωσ-3
διάγραμμα Hasse: Hasse diagram
διάζευξη: disjunction
διαίρει-και-βασίλευε: divide-and-conquer
διαισθητική ασαφή λογική: intuitionistic fuzzy logic
διακριτός: discrete
διαμερισμός: partition
διάμεσος: median
διάνυσμα στήριξης: support vector
διασπορά: variance
διάσταση Vapnik-Chervonenkis: Vapnik-Chervonenkis dimension
διασταύρωση: crossover
αριθμητική: arithmetic crossover
ομοιόμορφη: uniform crossover
πολλαπλών σημείων: multi-point crossover
διάστημα: interval
γενικευμένο: generalized interval
εμπιστοσύνης: confidence interval
τύπου-1 (Τ1): type-1 (T1) interval
τύπου-2 (Τ2): type-2 (T2) interval
διαστολή (ΜΜ): dilation (MM)
διατομή (πλέγματος): (lattice) meet
διαφορική μάθηση τύπου Hebb (ΔΜΗ): differential Hebbian learning (DHL)
διευρυμένη ΥΝ: enhanced CI
δίκτυο: network
ακτινωτής βάσης (ΔΑΒ): radial basis function (RBF) network
Bayes (ΔΒ): Bayesian network (BN)
Markov (ΔM): Markov network (MN)
πεποίθησης: belief network
δίλημμα ευστάθειας/πλαστικότητας: stability/plasticity dilemma
δίτιμη (λογική): two-valued [ή, εναλλακτικά, Boolean] (logic)
διχοτόμηση: dichotomy
δοκιμασία: test
δοκιμή-και-σφάλμα: trial-and-error
δομικό στοιχείο (ΜΜ): structure element (MM)
δυαδικό δένδρο: binary tree
δυϊκός: dual
(δυϊκή) πρόταση: dual statement
(δυϊκό) πρόβλημα: dual problem
ισομορφισμός: dual isomorphism
δυϊκώς: dually
δυναμοσύνολο: power set
δυφίο: bit
εγκλεισμός (συνολοθεωρητικός): inclusion (set theoretic)
εικόνα (συνάρτησης): image (of a function)
εικονοστοιχείο: pixel
εκθετική έκρηξη: exponential explosion
εκμετάλλευση (του χώρου αναζήτησης): exploitation (of the search space)
εκπαίδευση [ή, εναλλακτικά, μάθηση]: learning
εκπαίδευση που κατευθύνεται από έρευνα: research driven education
εκτίμηση δείγματος: bootstrap estimate
ελάχιστο: least
άνω φράγμα: least upper bound [ή, εναλλακτικά, sup(remum)]
ελιτισμός: elitism
έμπειρο σύστημα: expert system
εμπειρογνώμονας: expert
Γλωσ-4
ενεργή μάθηση: active learning
ενεργή μάθηση τύπου Hebb (ΕΜΗ): active Hebbian learning (AHL)
έννοια: concept
ενσωματώνω εμπειρία: a posteriori
εντροπία: entropy
ένωση (συνολοθεωρητική): union (set theoretic)
εξαγωγή
γνωρισμάτων: attribute extraction [ή, εναλλακτικά, variable selection]
χαρακτηριστικών: feature extraction [ή, εναλλακτικά, variable selection]
εξαναγκασμένη μάθηση: reinforcement learning
εξαντλητική σταυρωτή αξιολόγηση: exhaustive cross validation
εξελικτικός υπολογισμός (ΕΥ): evolutionary computation (EC)
εξελισσόμενο πρόγραμμα: evolving program
εξερεύνηση (του χώρου αναζήτησης): exploration (of the search space)
εξομοιώνω: emulate
εξόρυξη γνώσης: data mining
επαγωγή: induction
επανα-δειγματοληψία: re-sampling
επαναλαμβανόμενη αξιολόγηση τυχαίας δειγματοληψίας: repeated random sub-sampling validation
επαναληπτικός: iterative
επανατοποθέτηση (χρωμοσωμάτων): reinsertion (of chromosomes)
επαναφορά: reset
επεξεργασία προτύπων: pattern analysis
επικάλυψη (ασαφών συνόλων): overlapping (of fuzzy sets)
επιλογή: selection
με διαγωνισμό: tournament selection
ρουλέτας: roulette wheel selection
τοπική: local selection
του καλύτερου συζύγου: top mate selection
επιμεριστική ταυτότητα: distributive identity
επιμεριστικός: distributive
επιτροπή εμπειρογνωμόνων: committee of experts
εποπτεία [ή, εναλλακτικά, επίβλεψη]: supervision
εργαλειοθήκη (MATLAB): toolbox (MATLAB)
ετικέτα: label
ευέλικτος υπολογισμός (ΕυΥ): soft computing (SC)
Ευκλείδεια απόσταση: Euclidean distance
ευρετικός: heuristic
εύρος: spread
ζ-Φέτα: zSLice
θεώρημα της ταυτοποίησης: resolution identity theorem
θεωρία: theory
γράφων: graph theory
διάταξης [ή, εναλλακτικά, πλεγμάτων]: order [ή, εναλλακτικά, lattice] theory
δυναμικών πεδίων: dynamic field theory
πληροφορίας: information theory
προσαρμοστικού συντονισμού (ΘΠΣ): adaptive resonance theory (ART)
συναρτήσεων πεποίθησης: belief functions
τεκμηρίων: evidence theory
θρυμματίζεται: shatter
ιδεώδη αλγεβρικών αριθμών: ideals of algebraic numbers
ικανότητα γενίκευσης: generalization capacity
ίσα (ασαφή σύνολα): equal (fuzzy sets)
ισομορφικός: isomorphic
ισομορφισμός: isomorphism
Γλωσ-5
πλέγματος: lattice isomorphism
ισοτροπικός: isotropic
ισχυρός κατηγοριοποιητής: strong classifier/learner
k-πλή σταυρωτή αξιολόγηση: k-fold cross validation
καθολικός προσεγγιστής: universal approximator
καλύπτω (στοιχείο μδσυν): cover (a poset element)
κανόνας: rule
αλυσίδας: chain rule
Δέλτα: Delta rule
κανονικός: normal
κανονικοποίηση: normalization
Καρτεσιανό γινόμενο: Cartesian product
κατάβαση βαθμίδας: gradient descent
κατανομή: distribution
εφικτότητας: possibility distribution
πιθανότητας: probability distribution
κατευθυνόμενος ακυκλικός γράφος (ΚΑΓ): directed acyclic graph (DAG)
κατευθυνόμενος σύνδεσμος: directed connection
κατεύθυνση αναζήτησης: search direction
κατηγόρημα: predicate
κατηγοριοποίηση: classification
κατηγοριοποιητής: classifier
κατηγορούμενο: predicative
κατώφλι: threshold
κέρδος πληροφορίας: information gain
κλασική ΥΝ: classic CI
κλείσιμο (ΜΜ): closing (MM)
κόκκος πληροφορίας: information granule
κοκκώδης υπολογισμός: granular computing
κριτήριο: criterion
κέρδους: gain criterion
τερματισμού: termination criterion
κύκλος μάθησης: epoch
κυρτός: convex
κυρτότητα: convexity
κωδωνοειδή (κυρτή) συνάρτηση συμμετοχής: bell-shaped (convex) membership function
κωδικοποίηση (χρωμοσώματος): encoding (of a chromosome)
δένδρου: tree encoding
δυαδική: binary encoding
μετάθεσης: permutation encoding
συμπληρώματος: complement coding
τιμών: value encoding
κώνος: cone
λογικές απαιτήσεις: reasonable constraints
λογικιστής: logician
λογικοφάνεια: plausibility
λόγος κέρδους: gain ratio
μαθηματική μορφολογία (ΜΜ): mathematical morphology (MM)
μάθηση [ή, εναλλακτικά, εκπαίδευση]: learning
κατά Hebb: Hebbian learning
με εποπτεία: supervised learning
χωρίς εποπτεία: unsupervised learning
μαντείο: oracle
μάσκα διασταύρωσης: mask crossover
μαύρο κουτί: black box
Γλωσ-6
μέγεθος βήματος: step size
μέγιστο: greatest
κάτω φράγμα: greatest lower bound [ή, εναλλακτικά, inf(imum)]
μεθοδολογία: paradigm
μέθοδος: method
αναζήτησης του κούκου: cuckoo search method
των ελαχίστων τετραγώνων: least-squares method
του Νεύτωνα: Newton’s method
μετάλλαξη: mutation
μετατόπιση (ΜΜ): translation (MM)
μέτρηση: measurement
μέτρο εγκλεισμού: inclusion measure
μερική διάταξη: partial order
μερικώς: partially
διατεταγμένη σχέση: partially ordered relation
διατεταγμένο σύνολο (μδσυν): partially ordered set (poset)
μεροληψία: bias
μέση τιμή: expected value
μετα-αλγόριθμος: meta-algorithm
μεταβατική (συνθήκη): transitivity (condition)
μεταβλητότητα: variability
μετρήσιμος χώρος: measurable space
μετρική: metric
μετρικός χώρος: metric space
μη-γραμμική μάθηση τύπου Hebb (ΜΓΗ): non-linear Hebbian learning (NLH)
μη-κυρτός: non-convex
μη-συγκρίσιμα (στοιχεία πλέγματος): incomparable (lattice elements)
μηχανές: machines
ακραίας μάθησης (ΜΑΜ): extreme learning machines (ELMs)
διανυσμάτων στήριξης (ΜΔΣ): support vector machines (SVM)
μηχανική μάθηση: machine learning
μίξη πυκνότητας: mixture density
μονοτονική (ιδιότητα): monotonicity (property)
μονότονος: monotone
μοντέλο: model
κ πλησιέστερων γειτόνων (κΠΓ): k nearest neighbors (kNN) model
μοντελοποίηση: modeling
μορφισμός (πλέγματος): (lattice) morphism
διατομής: meet morphism
συνένωσης: join morphism
N-άδα: N-tuple
νευρο-ασαφή συστήματα (ΝΑΣ): neuro-fuzzy systems (NFS)
προσαρμοστικά συμπερασμού (ΠΝΑΣΣ): adaptive neuro-fuzzy inference system (ANFIS)
νευρώνας: neuron
νευρωνικός υπολογισμός: neural computing ή, εναλλακτικά, neuro-computing
νοημοσύνη σμήνους: swarm intelligence
ολικά καλύτερο: global best
ολική διάταξη: total order
ολικό ελάχιστο: global minimum
ολικώς διατεταγμένο σύνολο: totally ordered set
ομαδοποίηση: clustering
ομιλούμενη γλώσσα: spoken language
οντολογία: ontology
οπισθόδρομη μάθηση: backpropagation learning
οπτικοποίηση: visualization
Γλωσ-7
ουδέτερο στοιχείο: identity element
Π-ασαφές σύνολο: L-fuzzy set
παλινδρόμηση (στατιστική): regression (statistical)
παλινδρομητής: regressor
παράλληλα (στοιχεία πλέγματος): parallel (lattice elements)
παράμετροι ανάμιξης: mixing parameters
παρεμβολή: crosstalk
πεπερασμένο: finite
πεποίθηση: belief
περίγραμμα (λεκτικό): descriptor (linguistic)
περιορισμός: constraint
πηλίκο: quotient
πιθανολογική καθολική δειγματοληψία: stochastic universal sampling
πιθανώς ορθό κατά προσέγγιση (ΠΟΠ): probably approximately correct (PAC)
πλέγμα: lattice
συνένωσης: join lattice
πλήρες: complete lattice
πλειότιμη (λογική): multi-valued (logic)
πληθικότητα: cardinality
πληροφορία : information
ποικιλομορφία: diversity
πολλαπλή δειγματοθέτηση: bootstrap aggregating [ή, εναλλακτικά, bagging για συντομία]
πολυτροπικός: multimodal
πράκτορας λογισμικού: software agent
πράξη: operation
πρόβλεψη: prediction
πρόβλημα: problem
αποστήθισης: overfitting problem
βελτιστοποίησης: optimization problem
πολλαπλασιασμού των κατηγοριών: category proliferation problem
προβολή: projection
προσεταιριστική ιδιότητα: associativity property
προσωτροφοδοτούμενο ΤΝΔ: feedforward ANN
πρόταση: proposition
σύνθετη: composite proposition
κατηγορηματική: categorical proposition
πρότυπο: pattern
πρόωρη σύγκλιση: premature convergence
πρωταρχικό (πρόβλημα): primal (problem)
πρωτεύον: principal
ιδεώδες: principal ideal
φίλτρο: principal filter
πυρήνας
(ασαφούς συνόλου): core (of a fuzzy set)
(ΜΔΣ): kernel (SVM)
ρητός (αριθμός): rational (number)
ρυθμός μάθησης: learning rate
σ-άλγεβρα: σ-algebra
σαγματικό σημείο: saddle point
σειριακά δεδομένα: sequential data
σημασιολογία: semantics
σημασιολογικός: semantic
Ιστός: semantic Web
ορισμός (πλέγματος): semantic definition (of a lattice)
σμήνος
Γλωσ-8
(για εφαρμογές ομαδοποίησης): cluster
(για εφαρμογές εξελικτικού υπολογισμού): swarm
σταθερά
επαγρύπνησης: vigilance parameter
πόλωσης (νευρώνα): bias (of a neuron)
στατιστικός έλεγχος υποθέσεων: statistical hypothesis testing
σταυρωτή αξιολόγηση: cross validation
στήριγμα [ή, εναλλακτικά, φορέας] ασαφούς συνόλου/ΑΔ: support of a fuzzy set/IN
στοχαστικός: stochastic
στοχαστικά δάση: random forests
συγκερασμός ανόμοιων τύπων δεδομένων: disparate data fusion
συγκρίσιμα (στοιχεία πλέγματος): comparable (lattice elements)
σύζευξη: conjunction
συζυγής κατάβαση: conjugate descent
σύζυγος: mate
συλλογιστική: reasoning
από κάτω προς τα πάνω: bottom-up reasoning
από πάνω προς τα κάτω: top-down reasoning
ασαφών πλεγμάτων (ΣΑΠ): fuzzy lattice reasoning (FLR)
κατ’ αναλογία: reasoning by analogy
παραγωγική: deductive reasoning
προσεγγιστική: approximate reasoning
συμμετρική (συνθήκη): symmetry (condition)
συμπερασμός (ασαφούς κανόνα): inference (of a fuzzy rule)
συμπλήρωμα: complement
συμπληρωματωμένο (πλέγμα): complemented (lattice)
συνάρτηση: function
αθροιστικής κατανομής: cumulative distribution function
αντικειμενική [ή, εναλλακτικά, κόστους]: objective [ή, εναλλακτικά, cost] function
βάρους: weight function
γνησίως αύξουσα: strictly increasing
γνησίως φθίνουσα: strictly decreasing
διατήρησης τάξης: order preserving function
εμφύτευσης τάξης: order embedded function
ένα προς ένα: injection
ένα προς ένα και επί: bijection
επί: surjection
ζήτα: zeta function
καταλληλότητας: fitness function
λογιστική: logistic function
μάζας: mass function
μεγέθους: size function
μεταφοράς: transfer function
μετρική: metric function
μέτρου: measure function
μη-συμμετοχής: non-membership function
μονότονη: monotone
πεποίθησης: belief function
πυκνότητας πιθανότητας: probability density function
σίγμα-διατομής: sigma-meet function
σίγμα-συνένωσης: sigma-join function
σιγμοειδής: sigmoid function
συμμετοχής: membership function
συνεπαγωγής: implication function
σύνθετη: composite function
Γλωσ-9
τιμοδότησης: valuation function
μονότονης: monotone valuation function
θετικής: positive valuation function
συνδυασμός: combination
συνδυαστικός κανόνας του Dempster: Dempster’s rule of combination
συνένωση (πλέγματος): (lattice) join
συνέπεια (ιδιότητα): consistency (law)
συνηθισμένο διάστημα: ordinary interval
συνθετικός συμπερασματικός κανόνας (του Zadeh): (Zadeh’s) compositional rule of inference
συνθήκη αφομοίωσης: assimilation condition
σύνολο (κλασικό): set (crisp)
σύνολο
αναφοράς [ή, εναλλακτικά, βασικό σύνολο]: universe of discourse
γνωρισμάτων: pool of attributes
κατηγοριοποιητών: ensemble of classifiers
χαρακτηριστικών: pool of features
συνολοθεωρητικός: set theoretic
συστατικές πυκνότητες (πιθανότητας): component (probability) densities
συστήματα στήριξης αποφάσεων: decision support systems
σφάλμα: error
ελαχίστων τετραγώνων (ΣΕΤ): least squares error (LSE)
μέσο τεραγωνικό (ΜΤΣ): mean square error (MSE)
σχέση: relation
ασαφής: fuzzy relation
δυαδική: relation binary
ισοδυναμίας: equivalence relation
σωματίδιο (σμήνους): particle (of the swarm)
τ-συννόρμα φραγμένου αθροίσματος: bounded sum t-conorm
ταύτιση (συνθήκη): identity of indiscernibles (condition)
ταυτοτική (ιδιότητα): idempotent (law)
ταχύτητα: velocity
τελεστής: operator
τεράστια δεδομένα: big data
τετραγωνικός προγραμματισμός: quadratic programming
τετριμμένος: trivial
τεχνητή νοημοσύνη (ΤΝ): artificial intelligence (AI)
τεχνολογία λογισμικού: software engineering
τεχνητό νευρωνικό δίκτυο (ΤΝΔ): artificial neural network (ANN)
ακιδωτό: spiking ANN
βαθιάς συνέλιξης: deep convolutional ANN
τομή (συνολοθεωρητική): intersection (set theoretic)
τοπικό ελάχιστο: local minimum
τοπολογικά διατεταγμένοι χάρτες: topologically ordered maps
τραχύ σύνολο: rough set
τριγωνική: triangular
ανισότητα (συνθήκη): triangular inequality (condition)
νόρμα [ή, εναλλακτικά, τ-νόρμα]: triangular norm [t-norm]
συννόρμα [ή, εναλλακτικά, τ-συννόρμα /σ-νόρμα]: triangular conorm [t-conorm /s-norm]
τρικ του πυρήνα: kernel trick
τρόπος που θέτει: modus ponens
γενικευμένος: generalized modus ponens
τροχός ρουλέτας: roulette wheel
τυποποιημένα συμφραζόμενα: formal context
τυποποιημένη
ανάλυση εννοιών (ΤΑΕ): formal concept analysis (FCA)
Γλωσ-10
έννοια: formal concept
τυφλή αναζήτηση: blind search
υπεκφυγή (λεκτική): hedge (linguistic)
υπερ-παραλληλεπίπεδο: hyperbox
υπεράτομο: super individual
υπερπλέγμα: superlattice
υποκείμενο (πρότασης): subject (of a proposition)
υπολογισμός: computing
με λέξεις: computing with words
σε πλέγματα: lattice computing
υπολογιστική νοημοσύνη (ΥΝ): computational intelligence (CI)
υποπλέγμα: sublattice
υποσύνολο δεδομένων: data set
αξιολόγησης: validation data set
εκπαίδευσης: training data set
εξέτασης: testing data set
υποσυνολότητα: subsethood
ύψος (ασαφούς συνόλου/ΑΔ): height (of a fuzzy set/IN)
φίλτρο: filter
αμοιβάδας: amoeba filter
συντεταγμένης λογικής: coordinate logical filter
φορέας [ή, εναλλακτικά, στήριγμα] ασαφούς συνόλου/ΑΔ: support of a fuzzy set/IN
φυσική επιλογή: natural selection
φυσικός υπολογισμός: natural computing
χαλαρές παράμετροι: slack variables
χαρακτηριστικό [ή, εναλλακτικά, γνώρισμα] (διάκρισης): (discrimination) feature [attribute]
χαρακτηριστική συνάρτηση: characteristic function
πρωτεύουσα: primary characteristic function
δευτερεύουσα: secondary characteristic function
άνω: upper characteristic function
κάτω: lower characteristic function
χρωμόσωμα: chromosome
χώρισμα πληροφορίας: split information
χώρος: space
αναζήτησης των λύσεων: solution search space
μέτρου: measure space
πιθανότητας: probability space
ψευδο: pseudo
-αντίστροφος: pseudo-inverse
-μετρική συνάρτηση: pseudo-metric function
ώθηση: boosting
Γλωσ-11