Download as pdf or txt
Download as pdf or txt
You are on page 1of 31

Θησαυροί

Δρ. Αφροδίτη Μάλλιαρη, Επίκουρη Καθηγήτρια

malliari@libd.teithe.gr
9η εβδομάδα

ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ, XML, RDF,


ΘΗΣΑΥΡΟΙ ΚΑΙ ΟΝΤΟΛΟΓΙΕΣ
Εισαγωγή

n θησαυροί, οντολογίες (ελεγχόμενα λεξιλόγια)


n Σημαντικά εργαλεία για τη διαμόρφωση του
μελλοντικού Παγκοσμίου Ιστού, γνωστού και ως

n RDF: Τρόπος αναπαράστασης των δεδομένων στο


σημασιολογικό ιστό
n SPARQL: Γλώσσα ανάκτησης δεδομένων του
σημασιολογικού ιστού
n OWL: Επιτρέπει τον ορισμό εννοιών με στόχο την
επαναχρησιμοποίησή τους
n Απαραίτητη η πρότερη παρουσίαση των
τεχνολογιών- γλωσσών HTML, XML.
Σημασιολογικός ιστός-Θησαυροί
n Για την παράσταση των θησαυρών στο
σημασιολογικό ιστό χρησιμοποιείται το
(Resource Description Framework Schema), η
και η (Web Ontology Language) [ISO
25964]
n Εφαρμογή του RDF είναι το
n παριστάνεται η βασική δομή και το περιεχόμενο
εννοιολογικών σχημάτων, που αφορούν ελεγχόμενα
λεξιλόγια, όπως είναι θησαυροί.
Σήμερα
n Έχουμε…
n Διαδίκτυο – διακίνηση πληροφοριών
/αρχείων
n Παγκόσμιο Ιστό – αμέτρητοι servers με
ιστοσελίδες και αρχεία(doc, pdf, ppt, jpeg…)
n Μηχανές αναζήτησης- εντοπισμός και
πρόσβαση
Τι εντοπίζουν οι μηχανές αναζήτησης;
n Οι μηχανές εντοπίζουν σελίδες στις οποίες
εμφανίζονται συγκεκριμένοι όροι αναζήτησης
n Αυτή η λειτουργία καλύπτει μεγάλο μέρος των
αναγκών αναζήτησης.
n Όχι όμως όλες

Η διαφάνεια βασίζεται σε διάλεξη του κ. Νίτσου στο πλαίσιο του


Μεταπτυχιακού Προγράμματος Σπουδών.
Τι εντοπίζουν; (…συνέχεια)
n Μπορείτε να βρείτε άρθρα που έχει γράψει ο Δημήτριος
Νικολάου;
n ΌΧΙ
n Αυτό που μπορείτε να βρείτε είναι άρθρα στα οποία υπάρχουν οι
λέξεις «Δημήτριος» και «Νικολάου». Αλλά δεν σημαίνει ότι ο
συγγραφέας
n Μπορείτε να βρείτε το άρθρο της ελληνικής Huffington
Post με τα περισσότερα σχόλια;
n ΌΧΙ
n Η μηχανή αναζήτησης δεν μπορεί να αναγνωρίσει τι είναι σχόλιο
και τι μέρος του άρθρου μέσα σε μία σελίδα

Η διαφάνεια βασίζεται σε διάλεξη του κ. Νίτσου στο πλαίσιο του


Μεταπτυχιακού Προγράμματος Σπουδών.
Σε τι οφείλονται αυτοί οι περιορισμοί;
n Οι ιστοσελίδες που δημοσιεύονται στον παγκόσμιο ιστό
ακολουθούν κανόνες μορφοποίησης, αλλά δεν ακολουθούν
κανόνες περιγραφής των δεδομένων τους

n Δεν υπάρχει σημειωμένη η πληροφορία μέσα στη σελίδα ότι


συγγραφέας είναι ο Δημήτριος Νικολάου.
n Αλλά και να υπάρχει θα πρέπει να είναι κοινός σε όλες τις σελίδες
και να χρησιμοποιεί συγκεκριμένη σύμβαση
n Η έλλειψη κανόνων περιγραφής καθιστά αδύνατη την απάντηση
ερωτήσεων όπως
n Ποιος είναι ο συγγραφέας
n Ποιο είναι το έτος
n Πόσα είναι τα σχόλια
Η διαφάνεια βασίζεται σε διάλεξη του κ. Νίτσου στο πλαίσιο του
Μεταπτυχιακού Προγράμματος Σπουδών.
… η λύση
n Aπαιτείται η ‘κατανόηση’ από πλευράς των Η/Υ του
νοήματος του περιεχομένου που φιλοξενείται σε
ιστοσελίδες και αρχεία.
n Τα βήματα που απαιτούνται είναι:

n περιγραφή (αναπαράσταση) της πληροφορίας με τρόπο που


τόσο οι Η/Υ να ‘κατανοούν’ περί τίνος πρόκειται, αλλά και τις
σχέσεις μεταξύ των διαφόρων οντοτήτων, όσο και οι άνθρωποι

n ανάπτυξη Υπηρεσιών Ιστού, οι οποίες θα αξιοποιούν αυτές τις


περιγραφές και ανάλογα θα αποδίδουν στους χρήστες τους
κάποια υπηρεσία
Σημασιολογικός ιστός
n Τη λύση στα παραπάνω προβλήματα έρχεται να
δώσει ο σημασιολογικός ιστός
n Η γνώση πρέπει να οργανωθεί και να γίνει
περιγραφή των εννοιών στο περιεχόμενο που
δημοσιεύεται στο Διαδίκτυο
n Με τον τρόπο αυτό, αυτόματα εργαλεία θα
μπορέσουν να χρησιμοποιηθούν για τη διερμηνεία
των περιεχομένων και την ανακάλυψη νέας
γνώσης
n Οι χρήστες θα μπορούν να λάβουν απαντήσεις σε
νέα, πιο σύνθετα ερωτήματα
HTML
(Hypertext Markup Language)
n Η γλώσσα που επικρατεί σήμερα στο Internet
n Είναι γλώσσα περιγραφής κειμένου.
n Χρησιμοποιείται για να περιγράψει παραγράφους (<p>),
τίτλους κεφαλαίων (<h1>, <h2>, κ.ο.κ.), μπλοκ κειμένου
(<div>), λίστες (<ul>, <ol>, <li>) κ.ο.κ.
n Αυτό που λείπει από την HTML είναι η εννοιολογική
πληροφορία
n Επομένως, η HTML περιγράφει κείμενα
n ένα πρόγραμμα πλοήγησης (Firefox, Chrome)
μορφοποιεί το περιεχόμενο κατάλληλα και το
εμφανίσει στον τελικό χρήστη.
n Απουσιάζουν έννοιες και περιγραφή των εννοιών
Η διαφάνεια βασίζεται σε διάλεξη του κ. Νίτσου στο πλαίσιο του
Μεταπτυχιακού Προγράμματος Σπουδών.
HTML

n Π.χ. η διεύθυνση www.ILoveIce-creams.gr παραπέμπει σε


έναν Η/Υ, ο οποίος με τη σειρά του στέλνει στο δικό σας Η/Υ
την εικόνα του, τα αρχεία, τα οποία εσείς βλέπετε μέσω του
προγράμματος φυλλομέτρησης (Firefox, Internet Explorer,
κ.λπ.)

n Στην ουσία τι κάνει η HTML;

n Απλά περιγράφει πώς πρέπει να παρουσιαστούν οι


πληροφορίες στο δικό σας Η/Υ, ώστε ΕΣΕΙΣ να τις
κατανοήσετε.
Παράδειγμα HTML
XML
(eXtensible Markup Language)
n Καλύπτει κάποια από τα κενά που εμφανίζονται από
τη χρήση της HTML
n Σε αντίθεση με την HTML
n η XML δεν διαθέτει ένα προκαθορισμένο σύνολο από
ετικέτες
n ένα πρόγραμμα πλοήγησης δεν γνωρίζει πώς μπορεί να
εμφανίσει τα δεδομένα μιας σελίδας XML
n Ο εκδότης ενός XML αρχείου πρέπει να περιγράψει
τη δομή, τη σύνταξη και τη χρήση του μέσω
ετικετών <tags>. Μόνο τότε μπορεί ο αναγνώστης να
το διερμηνεύσει.

Η διαφάνεια βασίζεται σε διάλεξη του κ. Νίτσου στο πλαίσιο του


Μεταπτυχιακού Προγράμματος Σπουδών.
XML (…συνέχεια)
n Η XML δεν απευθύνεται σε αναγνώστες που
είναι άνθρωποι, αλλά σε μηχανές, οι οποίες
συγκεντρώνουν μαζικά δεδομένα και
μπορούν να τα διερμηνεύσουν, προκειμένου
να απαντήσουν ερωτήσεις που υποβάλλουν
άνθρωποι

Η διαφάνεια βασίζεται σε διάλεξη του κ. Νίτσου στο πλαίσιο του


Μεταπτυχιακού Προγράμματος Σπουδών.
Παράδειγμα XML
XML και RDF
n Η XML
n σχεδιάστηκε για τη μεταφορά και αποθήκευση της
πληροφορίας.
n επιτρέπει τη δημιουργία ετικετών, χωρίς όμως να ορίζει το
περιεχόμενο των ετικετών.
n παρέχει, δηλαδή, μία σύνταξη για την αναπαράσταση της
πληροφορίας, αλλά όχι κάποιον μηχανισμό για την απόδοση
του νοήματος.
n Η απόδοση του νοήματος πραγματοποιείται με τη
χρήση του RDF (Resource Description Framework).
RDF (Resource Description Framework) 1

n Με το RDF είναι δυνατή η περιγραφή των πάντων


(αρχεία, άνθρωποι, αφηρημένες έννοιες, φυσικά
αντικείμενα, κ.ά.)
χάρη στο μοντέλο δεδομένων του (data model), το
οποίο αναγνωρίζει τρεις οντότητες:

n τον Πόρο (Resource),


n την Ιδιότητα (Property) και
n την Τιμή της Ιδιότητας (Property value).

n Στο πλαίσιο RDF η περιγραφή των δεδομένων


πραγματοποιείται χρησιμοποιώντας προτάσεις
(statements).
RDF (Resource Description Framework) 2

n Ένας Πόρος είναι ο,τιδήποτε μπορεί να έχει μία


διεύθυνση διαδικτύου (URI), όπως
http://www.libd.teithe.gr/staff/malliari

n Μία Ιδιότητα είναι ένας Πόρος που έχει συγκεκριμένο


όνομα και νόημα, π.χ. ‘συγγραφέας’, ‘καθηγητής’

n Η τιμή μιας ιδιότητας μπορεί να είναι ένα απλό κείμενο


(literal) ή ένας άλλος Πόρος (resource).

Με τη χρήση αυτών των οντοτήτων είναι δυνατή η


δημιουργία οποιασδήποτε Δήλωσης (Statement).
To RDF μοντέλο με σχήματα

n Πόρος (Resource)
Πόρος

n Ιδιότητα (Property) Ιδιότητα

n Τιμή Ιδιότητας
(Property values)
n Πόρος (Resource) Πόρος Κείμενο
n Κείμενο (Literal)
RDF (…συνέχεια)
n Οι προτάσεις ακολουθούν τη μορφή: υποκείμενο –
κατηγόρημα – αντικείμενο
n Λόγω της παραπάνω μορφής, συχνά οι προτάσεις
ισοδύναμα αναφέρονται και ως τριπλέτες
n Το υποκείμενο αναφέρεται στον πόρο που περιγράφει η
πρόταση
n Το κατηγόρημα αναφέρεται σε γνωρίσματα ή πτυχές του
υποκειμένου και εκφράζει κάποιου είδους συσχέτιση
ανάμεσα στο υποκείμενο και το αντικείμενο
n Το αντικείμενο αναφέρεται επίσης σε κάποιον πόρο, ή
μπορεί να αντιστοιχεί σε λεκτική τιμή (literal value)

Η διαφάνεια βασίζεται σε διάλεξη του κ. Νίτσου στο πλαίσιο του


Μεταπτυχιακού Προγράμματος Σπουδών.
RDF
υποκείμενο – κατηγόρημα – αντικείμενο
n Υποκείμενο:
n Εκφράζεται πάντοτε με τη χρήση κάποιου URI. Το URI
αυτό είναι μοναδικό παγκοσμίως και αναφέρεται στον
ίδιο πόρο σε όποιο έγγραφο RDF και αν εμφανίζεται.
n Κατηγόρημα:
n Εκφράζεται πάντοτε με τη χρήση κάποιου URI. Το URI
αυτό είναι μοναδικό παγκοσμίως και αναφέρεται στο
ίδιο πόρο σε όποιο έγγραφο RDF και αν εμφανίζεται.
n Αντικείμενο:
n Το αντικείμενο είτε εκφράζεται με τη χρήση ενός URI,
ακριβώς όπως το υποκείμενο, μπορεί όμως
εναλλακτικά να είναι απλώς κάποια λεκτική τιμή μέσα
σε εισαγωγικά, π.χ. "150", "πράσινο" κτλ.

Η διαφάνεια βασίζεται σε διάλεξη του κ. Νίτσου στο πλαίσιο του


Μεταπτυχιακού Προγράμματος Σπουδών.
Παράδειγμα RDF: 2 RDF
δηλώσεις

Αυτές οι δηλώσεις μπορούν να συνδεθούν με άλλες


και έτσι να διασυνδέονται οι πληροφορίες μεταξύ τους.
Παράδειγμα RDF: πολλές RDF
δηλώσεις
Το παράδειγμα RDF σε XML


Το παράδειγμα RDF σε XML (συνέχεια)

RDF λεξιλόγια
n Δεδομένου ότι υπάρχουν έννοιες και σχέσεις
ως κοινή ανάγκη σε όσους δημοσιεύουν
πληροφορίες σε RDF, έχουν ήδη
δημιουργηθεί λεξιλόγια για να εκφράσουν τις
συγκεκριμένες έννοιες

Η διαφάνεια βασίζεται σε διάλεξη του κ. Νίτσου στο πλαίσιο του


Μεταπτυχιακού Προγράμματος Σπουδών.
RDF λεξιλόγια
n Χρησιμοποιούνται λεξιλόγια αναφοράς κατά τη
δημιουργία των RDF δηλώσεων.
n Αυτά τα λεξιλόγια είναι ελεγχόμενα και ανάλογα με
τεχνολογία και το επίπεδο λεπτομέρειας που
χρησιμοποιούν- διακρίνονται σε:
n Λίστες κωδικών
n Ταξινομίες
n Θησαυρούς
n Οντολογίες.
Λεξιλόγια αναφοράς
n Λίστες κωδικών: κωδικοποιημένες τιμές για χρήση με
συγκεκριμένες ιδιότητες
n Ταξινομίες: έννοιες-όροι και η ιεραρχία τους
n Θησαυροί: έννοιες-όροι που διασυνδέονται με σχέσεις
ιεραρχίας και συσχέτισης. Ακόμα διευκρινιστικές
σημειώσεις σχετικά με τους προτιμώμενους όρους.
n Οντολογίες: Ελεγχόμενα λεξιλόγια που περιλαμβάνουν
εκτός από τις σχέσεις μεταξύ των όρων και κανόνες
εξαγωγής συμπερασμάτων
n Σημειώνεται ότι οι οντολογίες είναι κατανοητές από ανθρώπους
και υπολογιστικά συστήματα
RDF – Σύνοψη
n Υπάρχουν δεδομένα τα οποία δημοσιεύονται
στον παγκόσμιο ιστό ως RDF
n Τα δεδομένα αυτά διασυνδέονται και
συναποτελούν τον παγκόσμιο ιστό των
δεδομένων, τον σημασιολογικό ιστό
Σημασιολογικός Ιστός

n Βασίζεται στη γνώση που είναι αποθηκευμένη στις οντολογίες,


καθώς με βάση αυτή τη γνώση μπορούν οι Η/Υ να
‘κατανοούν’ πληροφορίες και να ‘παίρνουν σχετικές
αποφάσεις’

n Αυτό που χρειάζεται είναι:


n Γλώσσες για τη δημιουργία οντολογιών
n Τεχνολογίες για ανάπτυξη υπηρεσιών Ιστού που θα βασίζονται σε
οντολογίες

You might also like