Download as pdf or txt
Download as pdf or txt
You are on page 1of 21

ΟΙ ΝΕΟΕΛΛΗΝΙΚΕΣ ΔΙΑΛΕΚΤΟΙ ΣΤΟΝ ΨΗΦΙΑΚΟ ΧΑΡΤΗ:

ΑΝΑΣΚΟΠΗΣΗ ΚΑΙ ΠΡΟΤΑΣΕΙΣ

Αθανάσιος Καρασίμος
akarasimos@academyofathens.gr
Ακαδημία Αθηνών

Abstract
The aim of this paper is to draw the digital map of the Modern Greek Dialects through the prism of several dialectal
digital projects and products. Since the birth of Digital Humanities and the domination of Computational Linguistics,
the first steps of Computational Dialectology in Greece have been steady and straightforward. Following the success of
several European and worldwide digital products, the Greek research community offers some significant dialectal
products, such as multimedia dialectal databases, electronic lexica and vocabularies from dialects and idioms and
linguistic atlas. All these projects can be a light beacon for all the following dialectal researches. Nevertheless, we
suggest specific best practices and strategies to evolve these products or future similar researches. We underline the
necessity and importance of following standard metadata schemata, creating a dialectal annotation template,
supporting open data/ open access policies and crowdsourcing.

Λέξεις Κλειδιά: Νεοελληνικές Διάλεκτοι, Διαλεκτολογία, Υπολογιστική Γλωσσολογία, Υπολογιστική Διαλεκτολογία,


Digital Humanities, Πολυμεσικές Βάσεις Δεδομένων, Ηλεκτρονικά Λεξικά, Επισημείωση, Μεταδεδομένα

1. Εισαγωγή

Η Νέα Ελληνική είναι πλούσια σε διαλεκτικές ποικιλίες, οι οποίες χρησιμοποιούνται στον καθημερινό λόγο, ενώ
υπάρχουν και κάποιες γλωσσικές ποικιλίες που περιορίζονται σε συγκεκριμένες ομάδων πρεσβύτερων/ γερόντων και
αντιμετωπίζουν το φάσμα της εξαφάνισης και εξάλειψης (Κοντοσόπουλος, 2006; Chambers & Trudgill, Dialectology,
1998). Πέρα από τα στενά γεωγραφικά και φυσικά όρια, τα οποία «περιόρισαν» τις Νεοελληνικές Διαλέκτους, υπήρξαν
και ιστορικοπολιτικές συγκυρίες και στρατηγικές που περιθωριοποίησαν και οδήγησαν στην εξαφάνιση αρκετές από
αυτές. Εντούτοις, η τεχνολογία και η ψηφιακότητα μπορούν να αποτελέσουν μια εναλλακτική σανίδα σωτηρίας και
προθήκη προβολής ενός ανεκτίμητου τμήματος της ελληνικής πολιτισμικής κληρονομιάς.
Στην Ελλάδα υπάρχει από το 1908 ένα εθνικό ερευνητικό κέντρο στην Ακαδημία Αθηνών, το οποίο ενδιαφέρεται
για γραπτά και προφορικά διαλεκτικά δεδομένα, αλλά τα διαλεκτικά δεδομένα δεν είναι ψηφιοποιημένα, τα
περισσότερα είναι αδημοσίευτα με αυξημένες δυσκολίες πρόσβασης για τους εξωτερικούς ερευνητές. Μη-
ψηφιοποιημένα διαλεκτικά δεδομένα εντοπίζονται παράλληλα σε συγκεκριμένους συλλόγους και οργανισμούς από
πρόσφυγες από κάθε γωνιά της Ελλάδος, όπως για παράδειγμα το Ιστορικό Αρχείο των Μικρασιατών Ελλήνων στη
Θεσσαλονίκη, το κέντρο Μικρασιατικών σπουδών, η Ένωση Ποντίων στην Παναγία Σουμελά Ημαθίας, αλλά έχουν
συλλεχθεί κυρίως με ιστορικά κριτήρια και στόχους και φυσικά δεν έχουν ταξινομηθεί και κατηγοριοποιηθεί
συστηματικά.
Η πρώτη συστηματική προσπάθεια ψηφιοποίησης, καταλογογράφησης και κωδικοποίησης διαλεκτικών
δεδομένων έγινε από το Εργαστήριο Νεοελληνικών Διαλέκτων του Πανεπιστημίου Πατρών με την υλοποίηση της
ηλεκτρονικής βάσης GreeD, η οποία περιέχει γλωσσολογικά και μεταγλωσσολογικά σώματα κειμένων. Αυτά τα
δεδομένα συλλέχθηκαν από έρευνες πεδίου, όπου καταγράφηκαν δεδομένα φυσικής και αυθόρμητης ομιλίας με στόχο
το σχηματισμό μιας αντιπροσωπευτικής εικόνας της γλωσσολογικής κατάστασης συγκεκριμένων γεωγραφικών και
κοινωνικών περιοχών της Ελλάδος. Παράλληλα, η ψηφιακή απεικόνιση του Ιστορικού Λεξικού της Ελληνικής εντάσσει
δυναμικά την διαλεκτική έρευνα στο ψηφιακό χάρτη των ηλεκτρονικών λεξικών. Παράλληλα, μικρότερα
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

προγράμματα διαλεκτικής έρευνας υπακούοντας στις επιταγές της Υπολογιστικές Διαλεκτολογίας και των Digital
Humanities προσφέρουν αξιέπαινα προϊόντα για την ελληνική και διεθνή ερευνητική κοινότητα.

2. Από την Υπολογιστική Γλωσσολογία στα Digital Humanities: μια διαλεκτική ματιά στον πολιτισμό
2.1. Τα Digital Humanities στην υπηρεσία της διαφύλαξης Πολιτισμικής Κληρονομιάς

Μια αδιάσπαστη σχέση συνδέει την γέννηση των Ψηφιακών Σπουδών στις Ανθρωπιστικές (και Κοινωνικές)
Επιστήμες (Digital Humanities) με τη διαφύλαξη πολιτισμικής κληρονομιάς, η οποία περιλαμβάνει και τις διαλέκτους
και ποικιλίες του κόσμου, όχι μόνο αυτές που τελούν υπό εξαφάνιση ή βρίσκονται σε πορεία εξαφάνισης, αλλά και
αυτές που περιορίζονται με τον καιρό ή ομιλούνται από περιορισμένες ομάδες ή ακόμα και οι διάλεκτοι που κυριαρχούν
σε μεγάλες γεωγραφικές περιοχές. Από τη μια μεριά, ο τομέας της πολιτιστικής κληρονομιάς χρησιμοποιήσει πλέον εδώ
και δύο δεκαετίες ψηφιακά εργαλεία, εφαρμογές και μεθοδολογίες, αλλά η χρήση αυτή δεν συνεπάγεται κατ' ανάγκην
την αναγνώριση του επιστημονικά σημαντικού τους ρόλου. Από την άλλη πλευρά, τα ερευνητικά κέντρα, τα μουσεία,
οι βιβλιοθήκες, τα αρχεία και οι πολιτιστικοί σύλλογοι διασώζουν φυσικά τεκμήρια, τα ψηφιοποιούν και προσφέρουν
πρόσβαση στο περιεχόμενο στους ερευνητές των Digital Humanities (DH) και όχι μόνο (Benardou, Champion, Dallas, &
Hughes, 2018).
Είναι, λοιπόν, ενδιαφέρον να γίνει κατανοητό αν τα εργαλεία και οι μέθοδοι των DH οδήγησαν και οδηγούν σε
έναν επαναπροσδιορισμό των θεωρητικών, μεθοδολογικών και τεχνικών διαδικασιών, μέχρι μια πραγματική
επανασυγκέντρωση της γνώσης στους τομείς της πολιτιστικής κληρονομιάς. Τουλάχιστον δύο ζητήματα
υπογραμμίζουν την ύπαρξη μιας αλληλοσύνδεσης. Το πρώτο είναι ο θεωρητικός προβληματισμός σχετικά με τη
διαχείριση πληροφοριών και τα δεδομένα κειμένου, που αναπτύχθηκε στο πλαίσιο της Υπολογιστικής Γλωσσολογίας
και της ψηφιακής βιβλιοθηκονομίας, και έχει σημαντικό αντίκτυπο σε ολόκληρο τον τομέα DH· το δεύτερο είναι η
αυξανόμενη ζήτηση για να περιγράψει ποιος θα είναι ο δημόσιος αντίκτυπος της έρευνας, και ειδικότερα το εκτόπισμα
στη σχέση με την κοινωνία ως σχετικό στοιχείο στο πλαίσιο της πολιτιστικής κληρονομίας και εν προκειμένω στη
διασύνδεση των διαλέκτων με τις εκάστοτε κοινωνίες. Αν και η συγκεκριμένη προβληματική ξεκίνησε στο πλαίσιο της
διαφύλαξης πολιτισμικής κληρονομίας για ιστορικούς λόγους, γρήγορα έχει επεκταθεί και στον γλωσσικό και
διαλεκτικό παγκόσμιο και ευρωπαϊκό χάρτη που επιδιώκει να λάβει σημαντική μερίδα στην ψηφιακή έρευνα (Berry,
2012; Schreibman, Siemens, & Unsworth, 2016; Berry & Fagerjord, 2017).

2.2. Ψηφιακές Υποδομές για την Έρευνα στη Γλωσσολογία και τις Ανθρωπιστικές Επιστήμες

Οι ψηφιακές τεχνολογίες έχουν οδηγήσει στην δημιουργία μεγάλου όγκου ψηφιακών αρχείων, αλλά και σε
πληθώρα καινοτόμων μεθοδολογιών έρευνας των αρχείων αυτών. Στόχος μας είναι τώρα να εναρμονίσουμε την
ψηφιακή αυτή πληροφορία με τις νέες μεθόδους ψηφιακής έρευνας. Αυτή είναι η αποστολή νέων πανευρωπαϊκών
φορέων με την ονομασία Ευρωπαϊκές Ερευνητικές Υποδομές (European Research Infrastructures). Οι ερευνητικές
υποδομές διευκολύνουν την διεθνή επιστημονική κοινότητα να διενεργεί πολύ υψηλού επιπέδου έρευνα παρέχοντας
ολοκληρωμένες υποδομές και πόρους.
Στο σύγχρονο περιβάλλον της αλματώδους ανάπτυξης και της διασύνδεσης των Ανθρωπιστικών και
Κοινωνικών Επιστημών με τις Ψηφιακές Τεχνολογίες στο πλαίσιο των DH, η Ελλάδα συμμετέχει δυναμικά σε μεγάλες
ευρωπαϊκές ερευνητικές υποδομές (Καρασίμος, και συν., 2018), όπως είναι:
• το DARIAH-EU (DARIAH-GR/ΔΥΑΣ, το ελληνικό μέλος) για τις Ανθρωπιστικές Επιστήμες
• το CLARIN-ERIC (CLARIN_EL, το ελληνικό μέλος) για τους γλωσσικούς πόρους και τη γλωσσική τεχνολογία και
• το PARTHENOS-EU, μία υποδομή ομπρέλα που ενσωματώνει πολλές επί μέρους ερευνητικές υποδομές.

2.2.1. CLARIN_EL: Ψηφιακές εφαρμογές και εργαλεία

[2]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

Η υποδομή clarin:el1 είναι το ελληνικό σκέλος της ευρωπαϊκής υποδομής CLARIN 2, ενός πανευρωπαϊκού δικτύου
οργανισμών μέσω του οποίου συγκεντρώνονται, τεκμηριώνονται, συντηρούνται και διαμοιράζονται Γλωσσικοί Πόροι,
Τεχνολογίες και διαδικτυακές Υπηρεσίες Γλωσσικής Επεξεργασίας. Οργανωτικά, η ερευνητική υποδομή CLARIN έχει
τη μορφή ενός ανοιχτού πανευρωπαϊκού δικτύου ερευνητικών κέντρων, στο οποίο συμμετέχουν φορείς που παράγουν
και διαμοιράζουν γλωσσικούς πόρους και τεχνολογίας, όχι μόνο για γλωσσολόγους, αλλά και για ερευνητές των
Ανθρωπιστικών Επιστημών. Η Ελλάδα συμμετείχε ενεργά στη διαδικασία διάχυσης της έρευνας και στη διαμόρφωση
του καταστατικού του CLARIN-ERIC.
Το ελληνικό CLARIN ενσωματώνει σε ένα δίκτυο αποθετηρίων ψηφιακούς, γλωσσικούς, κειμενικούς και
οπτικοακουστικούς πόρους και εργαλεία γλωσσικής τεχνολογίας, όπως εργαλεία αναγνώρισης φωνής,
λημματοποιητές, συντακτικούς αναλυτές, εργαλεία αυτόματης εξαγωγής περίληψης, εργαλεία εξαγωγής πληροφορίας
κτλ., που θα είναι διαθέσιμα μέσω διαδικτυακών υπηρεσιών σε ερευνητές όλων των επιστημών. Πιο συγκεκριμένα, το
ερευνητικό πρόγραμμα CLARIN προσφέρει μια μόνιμη και σταθερή υποδομή στην οποία θα μπορούν να βασίζονται οι
ερευνητές, για την πρόσβαση σε γλωσσικούς πόρους και διαδικτυακές υπηρεσίες γλωσσικής επεξεργασίας, την
υποστήριξη κάθε ερευνητικής δραστηριότητας που βασίζεται σε γλωσσικό υλικό ανεξαρτήτως επιστημονικού
αντικειμένου, και τη διευκόλυνση της πρόσβασης σε ευρωπαϊκούς πόρους και εργαλεία, μέσω της διασύνδεσής της με
την ευρωπαϊκή υποδομή.

2.2.2. DARIAH-GR/ ΔΥΑΣ: Μητρώα και Θησαυροί

Η Εθνική Ψηφιακή Υποδομή για την Έρευνα στις Ανθρωπιστικές Επιστήμες DARIAH-GR/ΔΥΑΣ υλοποιήθηκε από
ένα δίκτυο έξι ακαδημαϊκών ιδρυμάτων, πανεπιστημίων και ερευνητικών κέντρων, το οποίο συγκροτήθηκε
προκειμένου να συμβάλει στην ανάπτυξη της έρευνας στις Ανθρωπιστικές Επιστήμες με χρήση τεχνολογιών της
πληροφορίας. Η εισαγωγή της διαχείρισης της πληροφορίας και των ψηφιακών μεθόδων έρευνας στο πεδίο των
ανθρωπιστικών επιστημών κατέστησε αναγκαία την πρωτοβουλία αυτή, που διευκολύνει τη χρήση μεθοδολογικών και
τεχνολογικών προτύπων, βέλτιστων πρακτικών, καθώς και την ανταλλαγή τεχνογνωσίας και την πρόσβαση σε
γνωσιακούς πόρους. Οι τρεις βασικοί πυλώνες της έρευνας είναι οι ακόλουθοι: (α.) εργαλεία και μητρώα (εργαλεία
ανάλυσης και επεξεργασίας δεδομένων και μητρώα (registries) συλλογών, (β.) παρατηρητήριο (για την παρακολούθηση
των εξελίξεων και τη διάχυση της γνώσης στις εντός Ελλάδος ενδιαφερόμενες κοινότητες καθώς και για τη μεταφορά
βέλτιστων πρακτικών), και (γ.) ενίσχυση της κοινότητας των ερευνητών των Ανθρωπιστικών Επιστημών γύρω από
ζητήματα ψηφιακών εργαλείων και τεχνολογιών, καθώς και γύρω από θεωρητικά και μεθοδολογικά ζητήματα που
προκύπτουν από τη χρήση τους στην έρευνα, διδασκαλία και δημοσίευση).
Σημαντική συμβολή αποτελεί το Μητρώο Πόρων Ανθρωπιστικών Σπουδών 3, μέσω του οποίου ο χρήστης
ερευνητής ή μελετητής των ανθρωπιστικών επιστημών και των τεχνών μπορεί να αναζητήσει πληροφορίες τόσο για
φορείς (οργανισμούς ή ιδιώτες) της Ελλάδας, όσο και για τις συλλογές, φυσικές και ψηφιακές, που κατέχουν ή
διαχειρίζονται. Oι χρήστες του εργαλείου αξιοποιούν την προσφερόμενη τεχνογνωσία και τους διαθέσιμους ψηφιακούς
πόρους για την αναβάθμιση της ποιότητας της έρευνάς τους ή και για εκπαιδευτικούς σκοπούς.
Οι διαχειριστές ερευνητικών ιδρυμάτων, πανεπιστημίων, κρατικών και ιδιωτικών φορέων και πολιτιστικών
συλλογών (αρχειονόμοι, βιβλιοθηκονόμοι, επιμελητές μουσείων) αξιοποιούν τη συλλογική τεχνογνωσία για την
ευρύτερη δυνατή κοινωνική αξιοποίηση των ψηφιακών πόρων των ανθρωπιστικών επιστημών και της πολιτιστικής
κληρονομιάς. Το περιεχόμενο του ψηφιακού εργαλείου εμπλουτίζεται και επικαιροποιείται συνεχώς με στόχο τη
διάδοση του ελληνικού αναλογικού και ψηφιακού περιεχομένου και την πρόσβαση σε επιστημονικό περιεχόμενο.
Αν και οι αναλογικές και ψηφιακές συλλογών με διαλεκτικά δεδομένα είναι περιορισμένες, εντούτοις όλες οι
βασικές πληροφορίες και τα μεταδεδομένα από συλλογές προφορικού και γραπτού υλικού από τις Νεοελληνικές
Διαλέκτους εσωκλείονται στο συγκεκριμένο μητρώο. Μεγάλοι φορείς, όπως το Κέντρο Ερεύνης Νεοελληνικών

1
http://www.clarin.gr/el/
2
https://www.clarin.eu/
3
http://registries.dyas-net.gr/gr

[3]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

Διαλέκτων και Ιδιωμάτων4, το Εργαστήριο Νεοελληνικών Διαλέκτων5 (βλ. εικόνα 1) και το Ίδρυμα Μ.
Τριανταφυλλίδη6/ Κέντρο Ελληνικής Γλώσσας7, καθώς και αρκετοί πολιτιστικοί και λαογραφικοί φορείς και σύλλογοι,
όπως το Ιστορικό Αρχείο Ελλήνων Προσφύγων Καλαμαριάς Θεσσαλονίκης8 και ο Πολιτιστικός Σύλλογος Καλύμνου
είναι καταχωρημένοι στο Μητρώο προσφέροντας όλες τις απαραίτητες πληροφορίες για τις φυσικές και ψηφιακές
συλλογές (βλ. εικόνα 2). Δίνεται η δυνατότητα ακολουθώντας διεθνή πρότυπα μεταδεδομένων να ενταχθούν σε μια
ευρωπαϊκή πλατφόρμα αναζήτησης δεδομένων πολιτιστικής κληρονομιάς.

Εικόνα 1: Δείγμα από το Μητρώο Φορέων με τις γενικές πληροφορίες και τις διασυνδεμένες συλλογές από το
Εργαστήριο Νεοελληνικών Διαλέκτων.

Εικόνα 2: Δείγμα από το Μητρώο Συλλογών με τις γενικές πληροφορίες και τις λοιπές καρτέλες από την καταχώρηση
για το «Ιστορικόν Λεξικόν της Νέας Ελληνικής Γλώσσης της τε κοινώς ομιλουμένης και των ιδιωμάτων».

Παράλληλα η δημιουργία διαθεματικού θησαυρού αποτέλεσε θεμέλιο εργαλείο για τη διασύνδεση των
επιστημών και την οντολογία επιστημονικών όρων και δη των γλωσσολογικών. Η επιστημολογική μέθοδος οργάνωσης
της γνώσης πραγματοποιήθηκε με βάση τρεις σημαντικές αρχές, όπως είναι η αντικειμενικότητα, διεπιστημονικότητα,

4
http://www.academyofathens.gr/el/research/centers/greekdialects
5
http://lmgd.philology.upatras.gr/index.php/el/
6
http://ins.web.auth.gr/index.php?lang=el
7
http://greeklanguage.gr/
8
http://www.iape.org.gr/index.php?lang=el

[4]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

διαφάνεια (αναλυτικότερα για τη μεθοδολογία, βλ. (Καρασίμος, και συν., 2018). Βασισμένο στο THEMAS (Thesaurus
Management System), το οποίο ένα διαδικτυακό σύστημα ανοικτού κώδικα που δημιουργήθηκε από το ΙΤΕ για να
εξυπηρετήσει τη διαχείριση πολύγλωσσων θησαυρών όρων, καλύφθηκαν κύρια χαρακτηριστικά, τους είναι (α.) η
επεξεργασία και διαχείριση σημασιολογικών σχέσεων των όρων των θησαυρών (βλ. εικόνα 3), (β.) η δυνατότητα
εύκολης πλοήγησης ανάμεσα σε διασυνδεδεμένους όρους, καθώς και (γ.) η δυνατότητα πολλαπλής παρουσίασης των
όρων και του περιβάλλοντουςτους (βλ. εικόνα 4). Η ύπαρξη ενός ανεπτυγμένου θησαυρού που χαρακτηρίζεται από
θεματική αντικειμενική ταξινόμηση, μικρό αριθμό εννοιών, υπερκείμενες έννοιες ορισμένες ανεξαρτήτως του
περιβάλλοντος χρήσης τους μα επιτρέπει να τον συνδέσουμε σε οποιαδήποτε περιγραφή διαλεκτικών ψηφιακών
βάσεων δεδομένων, λεξιλογίων, διαλεκτικών διαδραστικών χαρτών, κτλ.

Εικόνα 3: Δείγμα από την ιεραρχία όρων του THEMAS για τον όρο ‘Νεοελληνική διάλεκτος’

Εικόνα 4: Δείγμα από την ανάλυση όρου (μόρφημα) στο THEMAS

2.3. To Πέρασμα της Διαλεκτολογίας στην ψηφιακότητα

Οι ταχύτατες και αλματώδεις εξελίξεις στην Υπολογιστική Γλωσσολογία έφεραν μια εναλλακτική προσέγγιση
των περισσότερων θεωρητικών ζητημάτων της περιγραφής, ανάλυσης και επεξεργασίας της γλώσσας. Με τη συνδρομή
των εργαλείων ανάλυσης κειμένων, την επεξεργασία ομιλίας και τη δημιουργία ψηφιακών σωμάτων κειμένων, σχεδόν
όλοι οι κλάδοι της Γλωσσολογίας εντάσσονται δυναμικά στο τεχνολογικό άρμα με απώτερο σκοπό την ταχύτερη
επεξεργασία των δεδομένων, τη διαχείριση μεγαλύτερου όγκου υλικού, την αυτόματη επισημείωση και ανάλυση. Οι
παραπάνω αλλαγές δεν άφησαν ανεπηρέαστη τη Διαλεκτολογία που προϋποθέτει την ύπαρξη μεγάλου όγκου υλικού
για να αναπτύξει και δημιουργήσει τις θεωρητικές της προσεγγίσεις. Από τη αναλογική διαχείριση δύσκολα

[5]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

συλλεχθέντων δεδομένων, γίνεται το πέρασμα στην ψηφιακότητα στις διαλέκτους και τα πρώτα βήματα κυριαρχίας
της Υπολογιστικής Διαλεκτολογίας.
Αξιοποιούνται πλέον κύριες υπολογιστικές μέθοδοι που μπορούν να χρησιμοποιηθούν για την υλοποίηση των
διαλεκτομετρικών αναλύσεων. Οι κατηγορικές συγκρίσεις, οι αναλύσεις συχνοτήτων και η απόσταση επεξεργασίας των
φωνητικών ακολουθιών είναι οι μέθοδοι που χρησιμοποιούνται για τη μέτρηση της γλωσσικής απόστασης μεταξύ δύο
ή παραπάνω τοπικών γειτονικών διαλέκτων (Heeringa & Prokić, 2007), εφαρμόζοντας διάφορες κατηγορηματικές
συγκρίσεις για τη μέτρηση των ομοιοτήτων μεταξύ ενός ζεύγους τοποθεσιών σε σχέση με συγκεκριμένα γλωσσικά
φαινόμενα, κυρίως όμως φωνητικά/φωνολογικά (Manni, 2017). Στην Υπολογιστική Διαλεκτολογία η επικύρωση των
αναλύσεων βασίζεται πλέον στη σύγκριση ταύτισης ανάλυσης μεταξύ πηγών και ειδικών διαλεκτολόγων, συσχέτιση
των αντιληπτικών μετρήσεων με τη γεωγραφική έλλειψη συνοχής, καθώς και την αξιοπιστία στις διαλεκτομετρικές
μεθόδους.
Παράλληλα η τυπολογία των τεχνικών χαρτογράφησης αξιοποιείται στους σκοπούς των διαλεκτικών χαρτών.
Ο βασικότερος στόχος των συγκεκριμένων χαρτών είναι η απεικόνιση της χωρικής κατανομής των γλωσσικών
χαρακτηριστικών ή των δομών σε μια ευρύτερη ή στενότερη περιοχή με βάση γλωσσικά φαινόμενα ή συγκεκριμένους
τύπους (Rabanus, 2017). Οι χάρτες που επιδιώκουν αυτόν τον στόχο μπορεί να είναι περίπλοκοι, καθώς παρουσιάζουν
τη διαλεκτική περιοχή και αφήνουν στον αναγνώστη να βγάλει περαιτέρω συμπεράσματα. Η οπτικοποίηση των
διαλεκτολογικών γεγονότων, φαινομένων και τύπων σε διαδραστικούς ψηφιακούς χάρτες προσφέρει ένα ευρύ φάσμα
δυνατοτήτων για τη δημοσίευση διαλεκτικών χαρτών και διαλεκτολογικών ερευνών παρέχοντας ταυτόχρονα
πρόσβαση σε δεδομένα, όπως αρχεία ήχου/βίντεο, γραπτές πηγές ή βιβλιογραφικές αναφορές.
Τέλος, η μετάβαση στα ψηφιακά σώματα κειμένων οδηγεί σε επανεπίσκεψη αρκετών ερευνητικών ερωτημάτων,
όπως για συγχρονικά, διαχρονικά και τυπολογικά της γεωγλωσσολογίας, η ανακάλυψη ιεραρχίας στους περιορισμούς
και η εξόρυξη δεδομένων, τα οποία χρησιμοποιούνται στη συγκριτική διαλεκτολογία για την αναζήτηση
κανονικοτήτων και παρεκκλίσεων σε διαλεκτικές περιοχές (Szmrecsanyi & Anderwald, 2017). Στο πλαίσιο των
ερευνητικών ζητημάτων μπορούν να διακριθούν τρεις βασικές μέθοδοι διαλεκτικής μελέτης με βάση τα σώματα
κειμένων: εξόρυξη ποιοτικών παραδειγμάτων και στατιστικών, ποσοτικές μεμονωμένες μελέτες και ποσοτικές μελέτες
πολλαπλών γλωσσικών χαρακτηριστικών. Τα σώματα κειμένων συμβάλουν σε μια μεθοδολογική σύγκλιση, μιας και
στους διαλεκτολόγους και τυπολόγους η ανάλυση εξαρτάται όλο και περισσότερο από τις κειμενικές βάσεις δεδομένων,
αντί τις αποσαφηνισμένες και αποδελτιωμένες γραμματικές αναφορές ή μεμονωμένους πληροφορητές.

3. Οι Διάλεκτοι στον Παγκόσμιο και Ευρωπαϊκό Ψηφιακό Χάρτη


Πριν μερικές δεκαετίες οι πρώτες απόπειρες για την κατασκευή ενός ηλεκτρονικού σώματος κειμένων ή
προφορικού λόγου αποτελούσε μεγάλη πρόκληση και εξαιρετικά δύσκολη προσπάθεια τόσο στην ψηφιοποίηση όσο και
στην οργάνωση του υλικού. Ωστόσο, η ανάγκη για διαχείριση μεγάλου όγκου διαλεκτικών δεδομένων, καθώς και
αξιοποίηση των ήδη υπαρχόντων μέσων καταχώρησης υλικού, όπως ημερολόγια, σημειωματάρια, βιβλία, κασέτες,
μπομπίνες, ηχητικοί κύλινδροι οδήγησε σε μια συστηματική προσπάθεια προς την κατεύθυνση της συνύπαρξης με την
Υπολογιστική Γλωσσολογία. Έχοντας αυτά ως βάση, η Υπολογιστική/ Ψηφιακή Διαλεκτολογία είχε όλα τα εχέγγυα για
να πραγματοποιήσει τα πρώτα ψηφιακά προγράμματα μεγάλης εμβέλειας, όπως είναι το SAND, το FRED, το SCOTS, το
ONZE, αρκετών διαλεκτικών Ατλάντων μεταξύ άλλων.
To project Scottish Corpus of Texts and Speech9 (SCOTS) καλύπτει ένα μεγάλο εύρος των 30 διαφορετικών
γλωσσών/διαλέκτων που εντοπίζονται στην καθημερινή ζωή και τον εργασιακό χώρο της Σκοτίας (Anderson, Beavan,
& Kay, 2007). Έχοντας ξεκινήσει από το 2001, στόχος του SCOTS είναι να κατασκευάσει ένα σώμα κειμένων που να
αντιπροσωπεύει και να επιβλέπει τις διαλέκτους της συγκεκριμένης περιοχής. Η επιλογή των κειμένων και του
προφορικού λόγου έγιναν με αυστηρά κοινωνιογλωσσικά και εθνογραφικά κριτήρια για να καλυφθεί ένα συγκεκριμένο
εύρος γλωσσικών φαινομένων, ενώ τα κείμενα και το οπτικοακουστικό υλικό είναι από διάφορα είδη λόγου. Η
ψηφιοποίηση του υλικού εξαρτάται από το μέσο των δεδομένων, καθώς για όλα τα βίντεο και τα ηχητικά αρχεία

9
http://www.scottishcorpus.ac.uk/

[6]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

παρατίθεται και μεταγραφή μαζί με επισημείωση, ενώ τα κείμενα είναι πλήρως επεξεργάσιμα και όχι εικόνες.
Αντίστοιχα και τα πεδία των μεταδεδομένων διαφοροποιούνται σημαντικά ανάλογα από το μέσο (Anderson, Beavan, &
Kay, 2007, σσ. 19-22). Για τον υπερκερασμό των προβλημάτων μεταγραφής κειμένων παλαιότερων αιώνων, αλλά και
κωδικοποίησης μεταγραφών προφορικού λόγου, το SCOTS έχει τη συνδρομή των δύο μεγαλύτερων ιστορικών λεξικών
της Σκοτίας (Scottish National Dictionary και Dictionary of the Older Scottish Tongue) που έχουν ψηφιοποιηθεί10. To
SCOTS είναι πλήρως ψηφιοποιήμενο με μηχανικώς και ανθρωπίνως αναγνώσιμα δεδομένα και είναι προσβάσιμο μέσω
διαδικτυακής πλατφόρμας ώστε να μπορεί να αξιοποιηθεί πλήρως από γλωσσολόγους, λεξικογράφους, συγγραφείς,
μελετητές, αλλά και χρήστες των συγκεκριμένων διαλέκτων.
To project Freiburg English Dialect Corpus11 (FRED) είναι ένα στοχευμένο διαλεκτικό σώμα κειμένων που
επικεντρώνεται κυρίως σε μη-κοινά μορφοσυντακτικά φαινόμενα, αλλά όχι σε φωνητικά και φωνολογικά (Anderwald
& Wagner, 2007). Έχοντας το προαναφερθέν κριτήριο ως βασική επιλογή, συνέλεξαν υλικό από προϋπάρχοντα σώματα
κειμένων ή ψηφιοποιημένα διαλεκτικά κείμενα από διαφορετικές χρονικούς περιόδους (από τους παγκόσμιους
πολέμους και έπειτα). Παράλληλα έγινε συλλογή προφορικού υλικού, όπου η μεταγραφή αποτέλεσε δύσκολη (για την
κανονικοποίηση της απόδοσης των φωνημάτων), αλλά απαραίτητη διεργασία για το FRED. Δόθηκε μεγάλη προσοχή
στην κοινή επεξεργασία και «διόρθωση» των κειμένων με τις μεταγραμμένες ορθογραφικές επισημειώσεις των
συνεντεύξεων (420 ομιλητών), ώστε να υπάρχει ίδια στρατηγική απεικόνισης και μεταγραφής, ενώ παράλληλα
διατήρησαν τις φωνητικές και φωνολογικές παραλλαγές για πιθανή μελλοντική αξιοποίηση. Τέλος, η χρήση
συγκεκριμένων, αλλά περιορισμένων (κυρίως μόνο για τους ομιλητές) μεταδεδομένων επιτρέπει την πολύπλοκη
αναζήτηση και παρατήρηση στα διαλεκτικά δεδομένα του σώματος που καλύπτει όλο το διαλεκτικό εύρος της Μεγάλης
Βρετανίας με βάση την πρόταση του Trudgill (1999).
Το project Syntactic Atlas of the Dutch Dialects12 (SAND) είναι μια τεράστια προσπάθεια (μορφο-)συντακτικής
αναπαράστασης των ολλανδικών διαλέκτων (Barbiers, Cornips, & Kunst, 2007) που ομιλούνται στην Ολλανδία, αλλά
και σε γειτονικές περιοχές στο Βέλγιο και τη Γαλλία. Οι ηχογραφήσεις είναι τηλεφωνικές κατευθυνόμενες συνεντεύξεις
και αναπαραγωγή συγκεκριμένων προτάσεων στη διάλεκτο του ομιλητή από το σύνολο των 257 διαλέκτων/ιδιωμάτων
της Ολλανδικής. Τα ψηφιοποιημένα δεδομένα διαθέτουν μεταγραφή και εκτενή συντακτική επισημείωση, καθώς και
κάποιων γραμματικών φαινομένων. Η μεταγραφή έγινε με το Praat13 για πολυεπίπεδη επισημείωση, ενώ η
ετικετοποίηση των μερών του λόγου (POS tagger) πραγματοποιήθηκε από έναν αυτόματο μνημονικό ετικετοποιητή
(Daelemans, Zavrel, van den Bosch, & van der Sloot, 2002), εκπαιδευμένο σε σώμα κειμένων της Ολλανδικής έχοντας
αρκετές μικροτροποποιήσεις και χειρωνακτικές διορθώσεις από τους ερευνητές. Εντυπωσιακό τμήμα του SAND
αποτελεί η διασύνδεση όλων των επισημειώσεων με ένα ηλεκτρονικό διαδραστικό άτλαντα που αναπαριστά καθολικά
τα (μορφο-) συντακτικά φαινόμενα και παρουσιάζει δείγματα προτάσεων ανά περιοχή σε σχέση με το εκάστοτε
φαινόμενο. Οι δυνατότητες του άτλαντα παρέχουν πληθώρες ρυθμίσεις που ενισχύουν την εμπειρική βάση της
διαλεκτικής τυπολογικής και τυπικής γλωσσολογικής έρευνας (Barbiers, Cornips, & Kunst, 2007).
Τo project ICE-Ireland14 είχε ως στόχο να αποτυπώσει τους συγκεκριμένους ιστορικούς και πολιτικούς
παράγοντες που συντέλεσαν δραστικά στη διαμόρφωση του ιρλανδικού κοινωνιογλωσσικού και διαλεκτικού χάρτη
(Kallen & Kirk, 2007). Ενώ τα πρωταρχικά κείμενα του συγκεκριμένου σώματος κειμένων είναι η αποτύπωση της
κυρίαρχης αγγλικής γλώσσας15 στην Ιρλανδία, δεν αποκλείστηκαν τελικά και κείμενα με διαλεκτικές ή
κοινωνιογλωσσικές ποικιλίες. Για τα ζητήματα επιλογής των ομιλητών και τον συνολικό προβληματισμό (Kallen &
Kirk, 2007, pp. 123-126), αξιοποιήθηκαν εκτενή μεταδεδομένα λαμβάνοντας υπόψη κοινωνική κατάσταση, εσωτερική/
εξωτερική μετανάστευση, επίπεδο εκπαίδευσης, περιοχή καταγωγής μεταξύ άλλων. Αν και οι ηχογραφήσεις έγιναν σε
δύο φάσεις με απόκλιση μιας δεκαετίας, έγινε προσεκτική εφαρμογή των προαναφερθέντων κριτηρίων. Συνολικά το

10
http://www.dsl.ac.uk/
11
https://fred.ub.uni-freiburg.de/
12
http://www.meertens.knaw.nl/sand/zoeken/
13
http://www.fon.hum.uva.nl/praat/
14
http://www.qub.ac.uk/sites/ICE-Ireland/
15
Ουσιαστικά αποτελεί ένα υποσώμα κειμένων ενός ευρύτερου ερευνητικού προγράμματος για την καταγραφή της Αγγλικής στο International
Corpus of English (ICE, http://www.ucl.ac.uk/english-usage/projects/ice.htm).

[7]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

σώμα κειμένων αποτελείται από ένα μεγάλος εύρος προφορικού υλικού (~620.000 λέξεις) από ποικίλες περιστάσεις και
κειμένων (~1.050.000 λέξεις) από αντιπροσωπευτικά δείγματα γραπτού λόγου. Μαζί με τα μεταδεδομένα, τα κείμενα
προφορικού λόγου συνοδεύονται και από κάποια τυπική επισημείωση. Σημαντικός αρωγός στην επισημείωση
διαλεκτικών λέξεων είναι η ψηφιακή σύμπραξη διαφόρων καθιερωμένων διαλεκτικών λεξικών της Ιρλανδίας που
συνδέουν άμεσα λήμματά τους με τις επισημειώσεις που εκτείνονται σε φωνολογικό, μορφοσυντατικό και
σημασιολογικό επίπεδο. Παρόμοιο project για τη (διαλεκτική) ιστορία της Αγγλικής στην Ιρλανδία είναι το Corpus of
Irish English (Hickey, 2007) που ακολουθεί τις ίδιες αρχές ψηφιοποίησης και επισημείωσης των κειμένων από την
μεσαιωνική εποχή (1169 μ.Χ.) με πρόσβαση σε μεγάλο εύρος κειμένων στο οποίο μπορούν να τεθούν ποικίλα γλωσσικά
ερωτήματα λόγω της ύπαρξης επισημείωσης.
Το project Origins of New Zealand English16 (ΟΝΖΕ) εντοπίζει και καταγράφει τα χαρακτηριστικά και τις αλλαγές
στην Αγγλική (και των ποικιλιών) της Νέας Ζηλανδίας εφαρμόζοντας τα ευρήματα στις γλωσσικές θεωρίες, την
ιστορική γλωσσολογία και τη διαλεκτολογία (Gordon, Maclagan, & Hay, 2007). Με έντονη έμφαση στην ακουστική
ανάλυση, την κοινωνιογλωσσική ποικιλομορφία και την αντίληψη της ομιλίας, το συγκεκριμένο έργο συνεχίζει να
συμβάλλει σημαντικά και συστηματικά στη γλωσσική κοινότητα, καθώς και να τεκμηριώνει μια σημαντική πτυχή της
κοινωνίας και της ταυτότητας της Νέας Ζηλανδίας αποτελούμενο από τρία υποσώματα κειμένων. Στόχος του ONZE
είναι όχι μόνο να τεκμηριώνει τα χαρακτηριστικά, τα πρότυπα και τις αλλαγές στο NZE, αλλά να χρησιμοποιεί αυτές
τις πληροφορίες για να κάνει ευρύτερες θεωρητικές δηλώσεις σχετικά με τη γλώσσα γενικά. Στόχος είναι να
συνδυάσουν την τεκμηρίωση των κοινωνικών προτύπων της Αγγλικής στη Νέα Ζηλανδία με επισημειωμένη ακουστική
ανάλυση. Θεωρούν πως τα αποτελέσματα υπό το φως των θεωρητικών μοντέλων, συντελούν στην καλύτερη
κατανόηση του τρόπου με τον οποίο λειτουργεί και η παραγωγή και η αντίληψη της γλώσσας χρησιμοποιώντας τις
τελευταίες τεχνολογίες και στατιστικά λογισμικά που σχετίζονται με τη γλώσσα. Ξεπερνώντας τον σκόπελο των
πνευματικών δικαιωμάτων και της παλαιότητας των ηχογραφήσεων του αρχικού σώματος (The Intermediate Archive,
1890-1930), η ψηφιοποίηση του υλικού περιγράφεται μέσα από εκτενή μεταδεδομένα, ενώ η επισημείωση καλύπτει
εκτός της φωνολογίας, τη μορφολογία, τη σύνταξη και τη σημασιολογία. Δημιούργησαν την πλατφόρμα LaBB-CAT17
(πρώην ONZE Miner, (Fromort & Hay, 2009) που συνδέει τα υπάρχοντα εργαλεία Praat18, Transcriber19 και ELAN20
προσφέροντας πολυεπίπεδη και ιεραρχημένη επισημείωση με δυνατότητα δια-εργαλειακής ανάλυσης. Η παραπάνω
πλατφόρμα αποτελεί πρωτοποριακή σύμπραξη διαφορετικών εργαλείων επισημείωσης επιτρέποντας στους
γλωσσολόγους να έχουν σημαντικά δεδομένα για την ανάλυση διαφόρων γλωσσικών φαινομένων.
Το project The Newcastle Electronic Corpus of Tyneside English (DECTE)21 είναι μια προσεγμένη γλωσσολογική
«χρονική κάψουλα» (Allen, Beal, Corrigan, Maguire, & Moisl, 2007). Το DECTE είναι μια συγχώνευση του υφιστάμενου
Newcastle Electronic Corpus της Tyneside English (NECTE)22 που δημιουργήθηκε μεταξύ του 2001 και του 2005 με
ψηφιοποιημένο υλικό από παλαιότερων δεκαετιών και του NECTE2, μιας συνεχιζόμενης συλλογής συνεντεύξεων που
πραγματοποιήθηκαν στο Βορειοανατολικό της Αγγλίας από το 2007. Αποτελεί ένα σπάνιο παράδειγμα ενός πλήρους
διαθέσιμου ηλεκτρονικού σώματος που παρουσιάζει διαλεκτικό υλικό πέντε δεκαετιών (1960s-2000s). Για τις 72
ηχογραφημένες ώρες υπάρχουν αρκετά μεταδεδομένα, ενώ η επισημείωση είναι κυρίως φωνητική/ φωνολογική με
κάποιες αυτόματες διαδικασίες υπολογιστικής ανάλυσης (POS tagging, parsing). Αξίζει να σημειωθεί ότι η φωνητική
επισημείωση των δεδομένων είχε να αντιμετωπίσει και αποκωδικοποίηση συμβόλων επισημείωσης φωνητικών
φαινομένων και πραγματώσεων (Allen, Beal, Corrigan, Maguire, & Moisl, 2007, σ. 28).

16
http://www.canterbury.ac.nz/nzilbb/research/onze/
17
http://onzeminer.sourceforge.net/
18
http://www.fon.hum.uva.nl/praat/
19
http://trans.sourceforge.net/en/presentation.php
20
https://tla.mpi.nl/tools/tla-tools/elan/
21
http://www.helsinki.fi/varieng/CoRD/corpora/DECTE/
22
http://research.ncl.ac.uk/necte

[8]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

Κοινός άξονας και πολλών άλλων διαλεκτικών προγραμμάτων, όπως είναι The Manuscript-Based Diachronic
Corpus of Scottish Correspondence23 (Meurman-Solin, 2007), Nederlandse Dialectenbank24 (van Oostendorp, 2014),
Database of Dutch Dialect Idioms (DaDDI)25 (Corver, et al., 2014), το λεξικογραφικό Database of Southern Dutch Dialects
(DSDD)26 (Kruijsen & van Keymeulen, 1997), Wordbase of Dutch Dialects, (van Keymeulen & de Tier, 2013), The World
Atlas of Language Structures (WALS) 27 (Dryer & Haspelmath, 2013), Algonquian Linguistic Atlas28 (Cenerini, Junker, &
Rosen, 2017), μεταξύ άλλων, είναι ότι η ψηφιοποίηση δεν παρέμεινε στον πρωταρχικό στάδιο. Περιέχουν επαρκή
μεταδεδομένα, τα κείμενα είναι επισημειώμενα και μηχανικώς αναγνώσιμα, ενώ σχεδόν σε όλες τις περιπτώσεις
διατίθενται άμεσα διαδικτυακά. Οι διαδραστικοί διαλεκτικοί άτλαντες απεικονίζουν σε πραγματικό χρόνο τα
αποτελέσματα γλωσσολογικών ερευνητικών ερωτημάτων σχετικά με διαλεκτικά φαινόμενα. Επιπροσθέτως, τα
ψηφιακά διαλεκτικά λεξικά είναι συνήθως συνδεμένα με διαλεκτικές βάσεις δεδομένων, συνήθως είναι XML
κωδικοποιημένα ακολουθώντας καθιερωμένα πρότυπα μεταγραφής και μεταδεδομένων και προσφέρουν πλήρη και
πολύπλοκη αναζήτηση σε όλα τα πεδία των λημματολογίων τους.

4. Ψηφιακές υλοποιήσεις στην Ελληνική Διαλεκτολογία


4.1. Εισαγωγή

Η Ελληνική Διαλεκτολογία αποτελούσε και αποτελεί μια από τις κορωνίδες γλωσσολογικής έρευνας στην
Ελλάδα και όχι μόνο. Το ενδιαφέρον για τις Νεοελληνικές διαλέκτους, τα ιδιώματα και τις ποικιλίες ξεκίνησε στις αρχές
του 20ου αιώνα με τη σημαντική συμβολή του Γεωργίου Χατζηδάκη και την πρώτη συστηματική προσπάθεια
καταγραφής με τη δημιουργία του έργου «Ιστορικόν Λεξικόν της Ελληνικής Γλώσσης». Αν και μόλις σαράντα χρόνια
μετά την ογκωδέστατη έρευνα του Wenker που συνέλεξε διαλεκτικά γερμανικά δεδομένα μέσω ερωτηματολόγιων
(Chambers & Trudgill, Dialectology, 1980), η δεκαετής απαιτητική και δύσκολη επεξεργασία των δεδομένων φαντάζει
σαφώς πιο εύκολη από τον όγκο επεξεργασίας ενός τέτοιου όγκου διαλεκτικών δεδομένων. Επομένως η ανάγκη για τη
συνδρομή της τεχνολογίας και των υπολογιστικών εργαλείων ούσα αδήριτος και αναγκαία οδήγησε τη διαλεκτική
έρευνα σε διαφορετικές προσεγγίσεις και τακτικές στον ψηφιακό χάρτη. Όπως αναφέρθηκε παραπάνω στην ενότητα 3,
τα ψηφιακά διαλεκτικά προγράμματα προσφέρουν πολύτιμες υπηρεσίες στους γλωσσολόγους και όχι μόνο, ενώ
παράλληλα χαρακτηρίζονται και βασικοί πυλώνες της προσπάθειας διαφύλαξης της πολιτισμικής κληρονομίας. Κατά
πόδας και η ελληνική Διαλεκτολογία παρουσιάζει αρκετές ερευνητικές προτάσεις για τη συλλογή, ψηφιοποίηση,
οργάνωση και ψηφιακή επεξεργασία διαλεκτικού υλικού.

4.2. Πολυμεσικές διαλεκτικές βάσεις

Ακολουθώντας τα πρότυπα των βάσεων δεδομένων, οι αντίστοιχες πολυμεσικές βάσεις συνδυάζουν συχνά την
εικόνα ψηφιοποιημένων αρχείων, τα ηχητικά δεδομένα ηχογραφήσεων και συνοδεύονται από τα αντίστοιχα
μεταδεδομένα και τις απαραίτητες επισημειώσεις ανάλογα με τις ερευνητικές ανάγκες. Οι τρεις άξονες δόμησης των
συγκεκριμένων βάσεων είναι πρωτίστως τα δεδομένα (οιασδήποτε μορφής και φύσεως), τα μεταδεδομένα περιγραφής
και τέλος τα τεχνολογικά εργαλεία ανάλυσης και επεξεργασίας. Μια πολυμεσική βάση είναι απαραίτητο να διαθέτει
όλους τους άξονες, αν και καταχρηστικά εντάσσονται σε αυτήν την κατηγορία διαλεκτικές βάσεις που πληρούν μόνο
δύο από τα τρία κριτήρια.
Πιο συγκεκριμένα, τα δεδομένα διαχωρίζονται στα πρωτογενή και τα δευτερογενή ή επεξεργασμένα. Τα
πρωτογενή δεδομένα είναι οποιασδήποτε ψηφιακής μορφής ηχητικό αρχείο ή βίντεο ή εικόνα χειρογράφου/ κειμένου/

23
http://www.helsinki.fi/varieng/CoRD/corpora/CSC/background.html
24
http://www.meertens.knaw.nl/ndb/
25
http://languagelink.let.uu.nl/idioms/index-en.php
26
http://www.ghentcdh.ugent.be/projects/database-southern-dutch-dialects-dsdd
27
http://wals.info/
28
https://www.atlas-ling.ca/

[9]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

εγγράφου. Αντίστοιχα τα δευτερογενή/επεξεργασμένα δεδομένα διαχωρίζονται (α.) σε αρχεία μεταγραφής, δηλαδή το


κείμενο καταγραφής του πρωτογενούς υλικού και (β.) σε αρχεία επισημείωσης, τα οποία συμπεριλαμβάνουν
περιορισμένη ή εκτενή απεικόνιση φωνητικής, φωνολογικής, μορφολογικής, συντακτικής ή/και σημασιολογικής
πληροφορίας. Παράλληλα, τα δεδομένα συνοδεύονται από τα αντίστοιχα μεταδεδομένα, τα οποία διαφοροποιούνται
μερικώς αναλόγως από την αρχική πηγή ή από την ψηφιακή μορφή της. Εντούτοις οι βασικές πληροφορίες των
μεταδεδομένων περιγράφουν σημαντικές πληροφορίες για τη διάλεκτο, τους ομιλητές (αν είναι οπτικό/ακουστικό
αρχείο), την περιοχή και την κοινωνική της δομή. Τέλος, για την διασύνδεση και ανάλυση των πρωτογενών και
επεξεργασμένων δεδομένων με τα μεταδεδομένα, κυρίαρχο ρόλο διαδραματίζουν τα εργαλεία ανάλυσης και
επεξεργασίας. Τα εργαλεία αυτά μπορεί να είναι στοχευμένα για συγκεκριμένη γλωσσολογική επισημείωση, όπως είναι
το Praat, το ELAN ή κάποιος μορφοσυντακτικός αναλυτής ή ετικετοποιητής ή για τη συνολική διαχείριση του σώματος
κειμένων. Αναλυτικότερα για τους τρεις πυλώνες των πολυμεσικών ελληνικών διαλεκτικών βάσεων, βλέπε
Παπαζαχαρίου (2015).

4.2.1. Διαλεκτική Βάση Δεδομένων GreeD

Η διαλεκτική βάση GreeD (Greek Dialects) είναι η πρώτη συστηματική προσπάθεια συλλογής, ψηφιοποίησης,
καταλογογράφησης και κωδικοποίησης διαλεκτικών προφορικών δεδομένων από το Εργαστήριο Νεοελληνικών
Διαλέκτων του Πανεπιστημίου Πατρών (Παπαζαχαρίου, 2015) (Ράλλη, Παπαζαχαρίου, & Καρασίμος, Proceedings of
MGDLT4, 2010). Αποτελεί μια ενεργή προσπάθεια δεκαετίας συλλογής προφορικού υλικού από διαλέκτους και ιδιώματα
της Ελληνικής τόσο του Ελλαδικού χώρου όσο και εκτός (Ιταλία, Τουρκία, Κύπρο). Η συλλογή υλικού έγινε πρωτίστως
στο πλαίσιο ερευνητικών προγραμμάτων (για περισσότερες πληροφορίες στο (Ράλλη, Παπαζαχαρίου, & Καρασίμος,
Proceedings of MGDLT4, 2010), όπου οι ηχογραφήσεις υπερβαίνουν τις 400 ώρες προφορικού διαλεκτικού υλικού, ένας
εντυπωσιακός όγκος συγκριτικά και με αντίστοιχα ευρωπαϊκά projects.
Σχεδόν τα περισσότερα πρωτογενή υλικά έχουν συλλεχθεί με ψηφιακά μέσα (ψηφιακά κασετόφωνα ή
minidiscs), γεγονός που καθιστά την ποιότητά τους όσο το δυνατόν την καλύτερη δυνατή. Επιπροσθέτως, η μεταγραφή
των συνομιλιών είναι πρωτίστως ορθογραφική με ελάχιστες περιπτώσεις σε φωνητική, καθώς και τις συνεισφορές των
συμμετεχόντων με βάση τις επιτονικές φράσεις χρησιμοποιώντας το PRAAT. Ταυτόχρονα, κάθε ηχητικό αρχείο και
μεταγραφή συνδέονται με εκτενή μεταδεδομένα. Τα μεταδεδομένα GreeD περιέχουν επτά βασικές κατηγορίες, όπως για
(α.) τη διάλεκτο, (β.) το ερευνητικό πρόγραμμα, (γ.) τις γλωσσολογικές αναλύσεις, (δ.) την επικοινωνιακή περίσταση,
(ε.) τους πληροφορητές, (στ.) τα τεχνικά χαρακτηριστικά και (ζ.) το περιεχόμενο της συζήτησης (Παπαζαχαρίου, 2015,
σ. 291). Η κωδικοποίηση των μεταδεδομένων περιλαμβάνει παραπάνω από πενήντα πεδία καταχωρώντας τις
πληροφορίες σε μια βάση MySQL. Τέλος, η βάση GreeD αξιοποιεί υπάρχοντα εργαλεία ανάλυσης, όπως είναι το PRAAT
και το ELAN, ενώ η αναζήτηση των μεταδεδομένων γίνεται με ερωτήματα στη βάση MySQL.
Το μέγεθος προφορικού υλικού της συγκεκριμένης διαλεκτικής βάσης είναι πάρα πολύ μεγάλο και μάλιστα από
τα μεγαλύτερα σε διαλεκτικά projects, γεγονός που καθιστά την διαχείριση και τη μεταγραφή/ επισημείωση μια σκληρή
και απαιτητική δουλειά. Η πολυσυλλεκτικότητα και δειγματοληψία από διαλέκτους και ιδιώματα της Eλληνικής
καθιστά τη βάση γενικής κατηγορίας και με τις απαραίτητες συνοδευτικές πληροφορίες, κωδικοποιήσεις και
μεταδεδομένα μπορεί να προσφέρει εξαιρετικά σημαντικά εργαλεία και δεδομένα στους ερευνητές. Εντούτοις
απαιτούνται κάποιες αποφάσεις για την επέκτασή της που αρκετές είναι και κοστοβόρες και χρονοβόρες. Αν και είναι
καταχωρημένη στο Μητρώο Συλλογών, συνιστάται τα μεταδεδομένα να ακολουθούν κάποιο διεθνές πρότυπο
μεταδεδομένων (αναλυτικότερα στην υποενότητα 5.2), ενώ η διαδικτυακή διαβαθμισμένη πρόσβαση στη βάση θα
επιτρέψει την μερική ή ολική πρόσβαση στα πρωτογενή ή/και επεξεργασμένα δεδομένα. Ιδανική προσθήκη στη
συγκεκριμένη βάση είναι η εκτενής επισημείωση (έστω και με τη χρήση κάποιων αυτόματων υπολογιστικών
εργαλείων), η επέκτασή της και η πιθανή διασύνδεση με κάποια διαλεκτικά λεξικά, λεξιλόγια ή γλωσσάρια.

4.2.2. Στοχευμένες διαλεκτικές βάσεις δεδομένων

[10]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

Οι στοχευμένες πολυτροπικές διαλεκτικές βάσεις δεδομένων είναι σαφώς πιο περιορισμένες όσον αφορά τον
όγκο του προφορικού υλικού και κυρίως ως προς τη διάλεκτο/ποικιλία ή τις διαλέκτους/ποικιλίες για τις οποίες έχουν
συλλεχθεί δεδομένα ή σε ένα συγκεκριμένο επίπεδο γλωσσολογικής ανάλυσης. Οι δύο μεγαλύτερες στοχευμένες
διαλεκτικές βάσεις είναι αυτές του ΔΙΑΦΩΝΗΕΝ και του AMiGre.
Η βάση δεδομένων ΔΙΑΦΩΝΗΕΝ29 αποτελεί προϊόν του ερευνητικού προγράμματος για τα φωνήεντα των
Ελληνικών διαλέκτων: Φωνολογική και φωνητική ανάλυση, κατάρτιση διαλεκτικού ευρετηρίου και κοινωνική
ευαισθητοποίηση για την ανάδειξη του γλωσσικού πλούτου (Ματθαιουδάκη, 2015). Στόχος του Διαφωνήεν είναι η
καταγραφή και γλωσσολογική ανάλυση του φωνηεντικού συστήματος διαφόρων ελληνικών διαλεκτικών περιοχών.
Εκτός από τη θεωρητική φωνολογική ανάλυση, αναπτύχθηκε μία διαλεκτική βάση δεδομένων με στόχο την οργάνωση
και παρουσίαση των θεωρητικών αποτελεσμάτων για μελλοντική επέκταση της βάσης σε επίπεδο ανάλυσης (π.χ.
συντακτικής, μορφολογικής, κ.λπ.) και τη δυνατότητα διαρκούς εμπλουτισμού της βάσης με υλικό από μελλοντικές
μελέτες. Η βάση συνοδεύεται από γλωσσογεωγραφικό ευρετήριο που αποτυπώνει τη γεωγραφική κατανοµή των
φωνηεντικών φαινομένων και επιτρέπει την σύγκριση μεταξύ διαλέκτων. Το Διαφωνήεν περιέχει ορθογραφική
μεταγραφή των ηχητικών αρχείων, ενώ συνοδεύεται και από εκτενή φωνολογική επισημείωση περιλαμβάνοντας
φωνητική επισημείωση λέξεων, φωνηέντων και του συμφωνικού περιβάλλοντος αυτών, φωνολογικά φαινόμενα και
σχόλια. Τα διασυνδεμένα μεταδεδομένα, δοσμένα σε μια βάση MySQL, είναι αρκετά περιορισμένα περιγράφοντας την
κατηγορία της διαλέκτου και τους πληροφορητές. Διατίθεται με περιορισμένη πρόσβαση μέσω διαδικτύου. Εντούτοις
είναι απαραίτητη η ενσωμάτωση περισσότερων πεδίων μεταδεδομένων ακολουθώντας βασικό διεθνές πρότυπο με
παράλληλη διασύνδεση με τις επισημειώσεις/ μεταγραφές όχι μόνο στην αναζήτηση, αλλά και την απεικόνιση για
αρτιότερη συνδρομή στη γλωσσική ανάλυση.
Η έτερη μεγάλη στοχευμένη διαλεκτική βάση, είναι η AMiGre30 που αποτελεί προϊόν ερευνητικού προγράμματος
για την διεπαφή των Ποντιακών, Καππαδοκικών και Αϊβαλιώτικων στα χνάρια της Μικρασιατικής Ελληνικής γλώσσας
(Karasimos, et al., 2016; Karanikolas, Galiotou, & Ralli, 2014; Galiotou, et al., 2014). Στόχος του συγκεκριμένου
προγράμματος είναι να γίνει συστηματική κωδικοποίηση γραπτού και προφορικού υλικού από τις προαναφερθείσες
διαλέκτους/ποικιλίες για τη δημιουργία της πολυμεσικής βάσης δεδομένων AMiGre, καθώς και του πρώτου ψηφιακού
τριδιαλεκτικού λεξικού. (Παπαζαχαρίου, 2015, σ. 295). Η βάση διαχειρίζεται διαφορετικά τις γραπτές από τις προφορικές
πηγές. Η βάση των ψηφιακών γραπτών τεκμηρίων περιλαμβάνει την απεικόνιση των
εγγράφων/κειμένων/χειρογράφων, την ψηφιακή μεταγραφή τους, περιορισμένα μεταδεδομένα και μορφολογική
επισημείωση διαφόρων διαλεκτικών λέξεων ανάλογα με τη διαδικασία σχηματισμού λέξεων. Παράλληλα η AMiGre
περιλαμβάνει και ηχητικά αρχεία από αυθόρμητο λόγο ή ελεγχόμενη συζήτηση, τα οποία είναι ψηφιοποιημένα,
ορθογραφικώς μεταγραμμένα, μεταδεδομένα (σε μια συνοπτικότερη εκδοχή των μεταδεδομένων GreeD) και
πολυεπίπεδη φωνολογική και μορφολογική επισημείωση. Αντίστοιχα και με την πρώτη στοχευμένη βάση δεδομένων,
συνιστάται η πλήρης διαδικτυακή πρόσβαση στη βάση δεδομένων όχι μόνο στο επίπεδο των μεταδεδομένων ή των
γενικών πληροφοριών, αλλά και στα πρωτογενή και επεξεργασμένα αρχεία. Είναι σημαντική η συνδρομή των
καθιερωμένων εργαλείων στην επισημείωση, μιας και επιτρέπει την εξαγωγή τους.
Τέλος υπάρχουν μερικές σαφώς μικρότερες στοχευμένες διαλεκτικές βάσεις δεδομένων που ανήκουν στο
Εργαστήριο Νεοελληνικών Διαλέκτων. Αυτές οι βάσεις είναι από μικρότερης έκτασης προγράμματα, χαρακτηρίζονται
ως στοχευμένες και περιέχουν πρωτογενή και δευτερογενή δεδομένα συνοδευόμενα από μεταδεδομένα. Πιο
συγκεκριμένα οι βάσεις ΚαΔιΣ (Καθημερινές Διαλεκτικές Συνομιλίες), ΝέΔια (Νεοελληνικές Διάλεκτοι), ΠάΔια
(Πατρινή Διάλεκτος), ΠοιΚΝΕ (Ποικιλίες της Κοινής Νέας Ελληνικής) συμπεριλαμβάνουν διαλεκτικά δεδομένα από
διάφορες γλωσσικές ποικιλίες και επικοινωνιακές περιστάσεις. Λόγω του μικρού όγκου προφορικών δεδομένων η
μεταγραφή και επισημείωση βρίσκεται σε εξαιρετικά υψηλό ποσοστό ολοκλήρωσης ακολουθώντας το εκτενές πρότυπο
μεταδεδομένων της GreeD. Αν και οι συγκεκριμένες βάσεις είναι καταχωρημένες στο Εθνικό Μητρώο Συλλογών 31,

29
http://www.vocalect.eu/
30
http://amigre.upatras.gr/index.php/el/
31
Διασυνδεδεμένες στην καρτέλα του Εργαστηρίου Νεοελληνικών Διαλέκτων με αναλυτικότερες πληροφορίες για την κάθε μία. Για περισσότερα,
βλ. http://registries.dyas-net.gr/gr/organization/2310

[11]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

δυστυχώς παραμένουν προσβάσιμες μόνο τοπικά, με χειρωνακτική αντιστοίχιση των δεδομένων με τα αποτελέσματα
αναζήτησης μεταδεδομένων, τα οποία δεν ακολουθούν κάποιο κυρίαρχο διεθνές πρότυπο.

4.3. Ιστορικόν Λεξικόν της Νέας Ελληνικής Γλώσσης της τε Κοινώς Ομιλουμένης και των Ιδιωμάτων: η ψηφιακή απεικόνιση

Το αρχαιότερο και βαρύνουσας σημασίας έργο της Ακαδημίας Αθηνών είναι αναμφίβολα το Ιστορικόν Λεξικόν της
Νέας Ελληνικής Γλώσσης της τε Κοινώς Ομιλουμένης και των Ιδιωμάτων (ΙΛΝΕ)32 (Manolessou & Bassea-Bezantakou, 2017),
ένα ερμηνευτικό ιστορικό λεξικό, περιγραφικό και όχι ρυθμιστικό, της προφορικής Νέας Ελληνικής γλώσσας καθώς
και όλων των διαλέκτων και ιδιωμάτων της. Αν και η χρονική κάλυψη λημμάτων και τύπων έχει ως απαρχή τον 19ο
αιώνα, χαρακτηρίζεται ως ιστορικό, διότι επιδιώκεται συστηματικά η διασύνδεση γλωσσικών τύπων και σημασιών με
τη διαχρονική εξέλιξη της ελληνικής γλώσσας. Στο ψηφιακό αποθετήριο της Ακαδημίας η ηλεκτρονική εκδοχή του
ΙΛΝΕ περιλαμβάνει τους τυπωμένους πέντε τόμους (1933-1989), καθώς και τον προσφάτως εκδοθέντα έκτο τόμο (2017)
καλύπτοντας έως και τη λέξη διάλεκτος (Μανωλέσσου, Ο νέος τόμος του Ιστορικού λεξικού της νέας ελληνικής της
Ακαδημίας Αθηνών: διαχρονικές προοπτικές, 2016).
H σύνταξη του ΙΛΝΕ βασίζεται σε αποδελτιωμένες πηγές γλωσσικού υλικού της Κοινής Νέας Ελληνικής, τύπων
προηγούμενων ιστορικών γλωσσικών περιόδων και κυρίως των νεοελληνικών διαλεκτικών ποικιλιών. Το υλικό αυτό
προέρχεται από τις χειρόγραφες καταγραφές προφορικού υλικού από τα μέσα του 19ου αιώνα έως σήμερα, από συλλογή
τεκμηρίων σε γραπτές πηγές, όπως λεξικά, γλωσσάρια, περιγραφές φαινομένων ή διαλεκτικών ποικιλιών μεταξύ
άλλων, από μελέτες λαογραφικού περιεχομένου ή άλλων επιστημών που παρέχουν διαλεκτικό ή ονοματολογικό υλικό,
από λογοτεχνικά ή μη κείμενα γραμμένα στην Κοινή ΝΕ ή σε ιδίωμα και από ηλεκτρονικά σώματα κειμένων της Κοινής
ΝΕ. Στην ψηφιακή απεικόνιση των παραπάνω γλωσσικών τύπων έχουν δημιουργηθεί ξεχωριστά ψηφιακά τεκμήρια
για κάθε λήμμα δίνοντας πρόσβαση στην αντίστοιχη ψηφιοποιημένη σελίδα, ενώ όλες οι βασικές πληροφορίες του
λήμματος (λέξη, παραγωγικό πρόθημα ή επίθημα, βλ. εικόνα 5), όπως είναι το λήμμα, το μέρος του λόγου, γένος, καθώς
και οι ενότητες της τυπολογίας, ετυμολογίας και σημασιολογίας.

Εικόνα 5: Ψηφιακή απεικόνιση ενός τεκμηρίου από το ΙΛΝΕ

32
http://repository.academyofathens.gr/kendi/index.php/gr

[12]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

To Διαλεκτικό υλικό των εκδιδομένων τόμων του Ιστορικού Λεξικού προσφέρει επικουρικές υπηρεσίες στο
ψηφιακό αποθετήριο. Δίνεται η επιλογή για σχετικά σύνθετη αναζήτηση των τεκμηρίων, για θεματική πλοήγηση στο
περιεχόμενο, για προβολή στον χάρτη και στη χρονογραμμή, τα τοπωνυμία και οι ημερομηνίες που εμφανίζονται στα
λήμματα, καθώς και για πρόσωπα-συγγραφείς, των οποίων γίνεται χρήση παραθεμάτων στα λήμματα. Τέλος
συνοδεύεται από έναν οδηγό για τις βραχυγραφίες/συντομογραφίες, απαραίτητες για την αποκωδικοποίηση πεδίων
των λημμάτων.
Όσο σημαντική είναι η συνεισφορά της έντυπης μορφής του ΙΛΝΕ, αντίστοιχης και μεγαλύτερης επίδρασης
αποτελεί η προσπάθεια για πλήρη ψηφιακή μορφή του, γιατί η δυσκολία του είναι μεγάλη λόγω της πολυπλοκότητας
απόδοσης φωνητικών συμβόλων (Μανωλέσσου, Μπέης, & Μπασέα-Μπεζαντάκου, 2012), το πολυτονικό σύστημα, την
απόκλιση δεκαετιών κατά τη συγγραφή και των πολλών πεδίων πληροφορίας για κάθε λήμμα. Εάν αναπτυχθεί πλήρως
θα αποτελέσει αναπόσπαστο κομμάτι ερμηνείας σε οποιαδήποτε διαλεκτική βάση δεδομένων και θα συγκαταλέγεται
στα κορυφαία ψηφιακά ερευνητικά προγράμματα στη διεθνή ηλεκτρονική λεξικογραφία και διαλεκτολογία. Εντούτοις
πρέπει να σημειωθεί ότι η υπάρχουσα XML κωδικοποίηση είναι αρκετά περιορισμένη και δεν επιτρέπει να γίνονται
πραγματικά σύνθετες αναζητήσεις, όπως και οι στοχευμένες αναζητήσεις σε συγκεκριμένα πεδία πληροφορίας. Επίσης
κρίνεται απαραίτητη η μεταφορά των ψηφιακών τεκμηρίων και σε αυτόνομη πλατφόρμα ανεξάρτητη από την οπτική
εικόνα των σελίδων των λεξικών για ταχύτερη πλοήγηση, καλύτερη αναζήτηση και αναδόμηση σύμφωνα με διεθνή
πρότυπα ηλεκτρονικής λεξικογραφία, όπως π.χ. το σχήμα Text Encoding Initiative (TEI)33. Πλήρης XML αποτύπωση των
λημμάτων με διεθνή πρότυπα θα επιτρέπει την καλύτερη επισημείωση όρων εντός λημμάτων, καθώς και των
απαραίτητων μεταδεδομένων για τα παραθέματα, τα πρόσωπα, τα τοπωνύμια και τις διαλέκτους που εμφανίζονται στα
αντίστοιχα πεδία, μιας και ενσωματώνονται τόσα πολλά, ετερόκλητα και σημαντικά στοιχεία στα τεκμήρια.

4.4. Ψηφιοποιημένα διαλεκτικά λεξικά, λεξιλόγια και γλωσσάρια

Μη συστηματική προσπάθεια έχει γίνει για την ψηφιοποίηση διαλεκτικών λεξικών, λεξιλογίων και
γλωσσαρίων. Αυτές οι ψηφιοποιήσεις παραμένουν στο πρωταρχικό στάδιο σχεδιασμού ενός ψηφιακού project με την
σάρωση των γραπτών τεκμηρίων με σχεδόν μηδενική περαιτέρω επεξεργασία. Η Ανέμη 34 (Ψηφιακή Βιβλιοθήκη
Νεοελληνικών Σπουδών) περιλαμβάνει πλήθος από σαρωμένα γλωσσάρια, λεξικά, λεξιλόγια και διαλεκτικά βιβλία, τα
οποία απλώς περιγράφονται από μεταδεδομένα MARC21, πρότυπο βιβλιοθηκονομίας, και χωρίς καμία δυνατότητα
πραγματικής αξιοποίησης των πρωτογενών αρχείων. Από την άλλη το Κέντρο Ελληνικής Γλώσσας διαθέτει δύο
διαλεκτικά λεξικά ηλεκτρονικά35 (από τα λεξικά του Σακελαρίου για Κυπριακά και Κρητικά), τα οποία εκτός από τα
ψηφιακά τεκμήρια των δύο τόμων προσφέρει όλα τα λήμματα με παραπομπή στην αντίστοιχη σελίδα των ψηφιακών
τεκμηρίων. Σαφώς μια καλύτερη προσέγγιση στα λεξικά από την αντίστοιχη της «Ανέμης», εντούτοις επί της ουσίας
δεν προσφέρει τίποτα περισσότερο από την τυπική αναζήτηση ενός λημματολογίου. Γενικότερα, η ψηφιοποίηση
(δηλαδή σάρωση κειμένων) για διαλεκτικές πηγές και λεξικά αποτελεί αποκλειστική και κυρίαρχη τάση στον
συγκεκριμένο τομέα, αλλά αυτή η προσπάθεια απέχει πολύ από τις βασικές αρχές και προϋποθέσεις των ηλεκτρονικών
λεξικών.
Το τριαδιαλεκτικό ΛΕΠΟΚΑΜ36, το πολυμεσικό λεξικό των διαλέκτων του Πόντου, της Καππαδοκίας και του
Αϊβαλιού (Ξυδόπουλος, Δημελά, Μελισσαροπούλου, Παπαναγιώτου, & Ράλλη, 2015; Karanikolas, και συν., 2013),
αποτελεί προϊόν του ερευνητικού προγράμματος AMiGre. Το τριδιαλεκτικό πολυμεσικό ηλεκτρονικό λεξικό
περιλαμβάνει περίπου 7.500 διασυνδεδεμένα λήμματα για τις μικρασιατικές διαλέκτους: τα Ποντιακά, τα Καππαδοκικά
και τα Αϊβαλιώτικα. Η μακροδομή επιτρέπει στους χρήστες να εφαρμόζουν πολλαπλά κριτήρια αναζήτησης, ενώ στη
μικροδομή, διατίθεται ποικιλία λεξικογραφικών πληροφοριών που μπορεί να συμπληρώνονται και από γραπτά ή
ακουστικά, ή οπτικά τεκμήρια που έχουν κατάλληλα ψηφιοποιηθεί. Σύμφωνα με τους Ξυδόπουλος, και συν. (2015, σ.

33
http://www.tei-c.org/index.xml
34
http://anemi.lib.uoc.gr
35
http://www.greek-language.gr/greekLang/modern_greek/tools/dialects/index.html
36
http://lepokam.philology.upatras.gr/

[13]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

100), το συγκεκριμένο λεξικό δεν έχει συγχρονικό χαρακτήρα, «αλλά συνδυάζει τη συγχρονία με τη διαχρονία, όπως
συνήθως συμβαίνει με τα λεξικά αυτού του τύπου που καλούνται να «διασώσουν» το διαλεκτικό λεξιλόγιο που υπήρξε
ενεργό σε διαφορετικές χρονικές περιόδους». Τα λήμματα του λεξικού προήλθαν από την επισημείωση στη διαλεκτική
βάση δεδομένων AMiGre, αλλά δεν γίνεται διασύνδεση μεταξύ τους.

Εικόνα 6: Τα πεδία Φωνητικός Τύπος-Φωνητική Ορθογραφία-Μικροδιαλεκτική Περιοχή για τη λέξη-κεφαλή


ΟΜΜΑΤΟΤΖΑΤΖΙ ‘βλεφαρίδα’ (Ξυδόπουλος, Δημελά, Μελισσαροπούλου, Παπαναγιώτου, & Ράλλη, 2015, σ. 106)

Όντας ένα λεξικό που δημιουργήθηκε εξαρχής σε ψηφιακή μορφή, απέχει αρκετά από τα τυπικά έντυπα λεξικά.
Στα περισσότερα λήμματα παρέχει τους φωνητικούς τύπους και την αντίστοιχη ορθογραφία ανάλογα με την περιοχή
προέλευσης τύπου. Παράλληλα συνοδεύονται από πληθώρα μορφολογικά σχόλια ανάλογα με τη διαδικασία
σχηματισμού των λέξεων ενσωματώνοντας και πληροφορίες για την ίδια τη διαδικασία (παραγωγή και σύνθεση).
Τέλος, στο σημασιολογικό πεδίο γίνεται συστηματικός διαχωρισμός για τις πιθανές διαφορετικές ερμηνείες ανάμεσα
στις διαλέκτους, ενώ η ύπαρξη εικόνων για τη διασαφήνιση ιδιαίτερων εννοιών ή μη-κοινών αντικειμένων προσφέρει
σημαντική αρωγή στην κατανόηση του ερμηνεύματος. Πληρώντας βασικές αρχές ηλεκτρονικής λεξικογραφίας,
αποτελεί πρωτοπόρο οδηγό για αντίστοιχες προσπάθειες στην ελληνική διαλεκτολογία και λεξικογραφία. Αν και έχει
δημιουργηθεί λεξικογραφική πλατφόρμα για το συγκεκριμένο λεξικό, δεν ακολουθείται κωδικοποίηση σύμφωνα με
κάποιο διεθνές πρότυπο ή δυνατότητα εξαγωγής σε συγκεκριμένο μορφότυπο άλλων αντίστοιχων προγραμμάτων.
Επιπροσθέτως, δεν γίνεται διασύνδεση με την υπάρχουσα διαλεκτική βάση AMiGre, ενώ η απουσία μεταδεδομένων δεν
επιτρέπει την πλήρη αξιοποίηση των επιμέρους στοιχείων που ενσωματώνονται στα λήμματα.

4.5. Ψηφιακός διαλεκτικός άτλαντας της Λέσβου

O ηλεκτρονικός γλωσσικός άτλαντας του νησιού της Λέσβου37 (Ράλλη, 2018) αποτελεί τον πρώτο και μοναδικό
ηλεκτρονικό διαδραστικό γλωσσικό άτλαντα στην Ελλάδα. Ο συγκεκριμένος άτλας ασχολείται με τη χαρτογράφηση της
διαλεκτικής ποικιλίας της Λέσβου, ενός νησιού με μεγάλο εύρος γλωσσικών φαινομένων που δεν αποκλίνουν μόνο
από την Κοινή Νέα Ελληνική, αλλά ποικίλλουν από χωριό σε χωριό. Έτσι, συμβάλλει στη διατήρηση μιας πλούσιας
γλωσσικής και πολιτισμικής κληρονομιάς που απειλείται με εξαφάνιση. Η διαλεκτική ψηφιακή χαρτογράφηση
περιλαμβάνει 51 χάρτες που αντιστοιχούν σε 51 γλωσσικά φαινόμενα και διαλεκτικές λέξεις, οι οποίες χωρίζονται σε
τέσσερα επίπεδα γλωσσικής ανάλυσης, φωνολογίας, μορφολογίας, μορφοσύνταξης και σημασιολογίας. Αποτυπώνονται
τύποι από 68 χωριά και απεικονίζονται στους χάρτες με ειδικά συμβατικά σύμβολα διαφορετικών χρωμάτων, ανάλογα
με τη συχνότητα εμφάνισης (αναλυτικότερα βλ. (Ράλλη, 2018). Για τη σύσταση του άτλαντα αξιοποιήθηκε διαλεκτικό

37
http://lesvos.lmgd.philology.upatras.gr/

[14]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

υλικό γραπτών πηγών και προφορικών μαρτυριών. Δοκιμάστηκε με τοπικούς πληροφοριοδότες με τη μορφή
ερωτηματολογίων που δημιουργήθηκαν για τους συγκεκριμένους ερευνητικούς σκοπούς.

Εικόνα 7: Ποσοστιαία εμφάνιση της κατάληξης του παρατατικού -ουμ ανά περιοχή (Ράλλη, 2018, p. 15)

Ο ψηφιακός άτλαντας της Λέσβου είναι διαδραστικός σε σχέση με τα επισημειωμένα φαινόμενα και τους
διαλεκτικούς τύπους, ώστε να υπάρχει άμεση πρόσβαση στο πρωτογενές υλικό, όποτε αυτό ζητείται από τον χρήστη.
Κατασκευασμένο σε Drupal 7, αξιοποιεί πλήρως τις δυνατότητες του εργαλείου Google Maps για τη χαρτογράφηση.
Επιπλέον, στους ερευνητές προσφέρονται επιπλέον υπηρεσίες ανάλυσης. Αποτελώντας τον πρώτο ψηφιακό διαλεκτικό
άτλαντα έχει όλα τα εχέγγυα για να καθιερώσει κάποιες αρχές στην ελληνική ψηφιακή γεωγλωσσική απεικόνιση.
Χαρακτηρίζεται ως πρωτοποριακό έργο για τα ερευνητικά διαλεκτικά δεδομένα της Ελληνικής, ωστόσο υπάρχουν
δυνατότητες για βελτίωση και επέκταση. Η χρήση εξειδικεύμενου εργαλείου χαρτογράφησης, όπως είναι το ArcGIS,
Caliper, Leica Geosystems ή άλλα προγράμματα γεωθεσίας και γεωπληροφορίας, θα επιτρέψει την αρτιότερη
αξιοποίηση των δεδομένων, διαχείριση της απεικόνισης και των χαρτών, πολύπλοκες αναζητήσεις και διασυνδέσεις
ανάμεσα σε φαινόμενα, διαλεκτικούς τύπους και διασυνδεδεμένα μεταδεδομένα για τις πηγές ή τους πληροφοριοδότες.
Έτσι θα δοθεί η δυνατότητα για σύνδεση με οποιαδήποτε συμβατή διαλεκτική βάση δεδομένων με αυτόματη
τροφοδότηση τεκμηρίων, μεγαλύτερο εύρος φαινομένων και τύπων και πλήρη απεικόνιση ή ηχητική αναπαραγωγή
των παραθεμάτων από τις πηγές.

5. Ψηφιακές προκλήσεις και προτάσεις για τη μελέτη των Νεοελληνικών Διαλέκτων

Η εποχή της τεχνολογικής κυριαρχίας προσφέρει μοναδικές δυνατότητες στη διαλεκτολογία σε συνδυασμό με
τα εργαλεία και τις υποδομές της υπολογιστικής γλωσσολογίας και των Digital Humanities. Τα διαλεκτικά projects για
τις Νεοελληνικές διαλέκτους και ποικιλίες τοποθετούν δυναμικά την Ελληνική γλώσσα και τις διαλέκτους στον
παγκόσμιο ψηφιακό ερευνητικό χάρτη. Περιέχουν σημαντικά και ενδιαφέροντα στοιχεία και πληρούν σε σημαντικό
βαθμό τις βασικές προδιαγραφές ή προϋποθέσεις των ψηφιακών προγραμμάτων με βάση συγκεκριμένα πρότυπα
κωδικοποίησης, αρχές καλής πρακτικής και επισημειωμένα δεδομένα. Όπως αναφέρει ο Παπαζαχαρίου (2015) τα
ελληνικά διαλεκτικά projects έχουν να διαχειριστούν μεγάλο όγκο δεδομένων και πολλαπλών μεταδεδομένων, ενώ
σπάνια δημιουργούνται εξ αρχής εργαλεία στο πλαίσιο αυτών των προγραμμάτων.

[15]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

Ο διαμοιρασμός των ψηφιακών αρχείων και των συνοδευόμενων εργαλείων αποτελεί θετική εξέλιξη στις
ερευνητικές υποδομές, όμως η δυνατότητα για βελτίωση, εξέλιξη και επέκταση είναι απαραίτητη και αναγκαία. Στο
ευρωπαϊκό πρόγραμμα TalkBank38 (MacWhinney, 2007) τονίζονται οι βασικές αδυναμίες στα σύγχρονα ψηφιακά
διαλεκτικά projects και ποιες στρατηγικές πρέπει να ακολουθηθούν για να αντιμετωπιστούν ή να υπερκεραστούν. Τα
σημαντικότερα προβλήματα είναι η έλλειψη κωδικοποίησης της πληροφορίας σύμφωνα με διεθνή καθιερωμένα
πρότυπα είτε όσον αφορά τα επεξεργασμένα δεδομένα είτε τα μεταδεδομένα, καθώς και απουσία αλληλεπίδρασης με
συναφή εργαλεία και συμβατά εξαγόμενα. Παράλληλα, συχνό είναι το φαινόμενο της εξαιρετικά περιορισμένης
πρόσβασης στο περιεχόμενο ή σε μορφή περιεχομένου που εμποδίζει οποιαδήποτε αξιοποίηση, ενώ συνήθως δεν
υπάρχει κανένα πλάνο και σχέδιο εναλλακτικής διάσωσης του έργου για την περίοδο μετά το πέρας της
χρηματοδότησης και έτσι πολύ γρήγορα projects εξαφανίζονται και χάνονται για πάντα από τον ψηφιακό χάρτη.

5.1. Προκλήσεις και προτάσεις στη μεταγραφή και επισημείωση διαλεκτικού υλικού

Εντούτοις υφίστανται αρκετά ζητήματα τεχνικής φύσης, στρατηγικής προσέγγισης, αλλά και επιστημονικής
ανάλυσης και νοοτροπίας που εμποδίζουν σημαντικά στην ανάδειξη των ερευνητικών προϊόντων, των ψηφιακών
τεκμηρίων και γενικότερα της επιστημονικής συμβολής.
Η ελάχιστη παρουσία επισημειωμένου διαλεκτικού λόγου αποτελεί τροχοπέδη για μια ταχύτερη, αρτιότερη και
σε μεγαλύτερο εύρος περιγραφή και ανάλυση των φαινομένων που εντοπίζονται σε δείγματα πηγών από
διαλέκτους/ποικιλίες. Τα λιγοστά σώματα κειμένων διαλεκτικού λόγου μπορούν ξεκάθαρα να αποτελέσουν απαρχή
για μια συστηματικότερη και πιο διαβαθισμένη ψηφιοποίηση λόγου κατά τη δημιουργία επισημειωμένων σωμάτων
κειμένων. Καθώς η ύπαρξη σωμάτων κειμένων χωρίς επισημείωση και μεταδεδομένα δεν πρόκειται να προσφέρει
σημαντικά οφέλη στη διαλεκτολογία, κρίνεται εξαιρετικά αναγκαία η δημιουργία ενός σχήματος πολυεπίπεδης
επισημείωσης που να μεταγράφει όλα τα απαραίτητα επίπεδα ανάλυσης διαλεκτικού λόγου, αλλά και να προσφέρει
ταυτόχρονα ευελιξία για υιοθέτηση, τροποποίηση και επέκταση από σώματα κειμένων οποιουδήποτε είδους λόγου,
όπως ισχύει για το πρότυπο επισημείωσης αφασικού λόγου για ELAN (Μαρκόπουλος & Καρασίμος, 2017). Τα υπάρχοντα
διεθνή πρότυπα επισημείωσης (Ide & Suderman, 2007; Ide & Suderman, 2014; Romary & Ide, 2004; van Gompel, 2012;
2014) που είναι διαθέσιμα, προσφέρουν περιορισμένη δυνατότητα προσαρμογής.
Για τις ανάγκες της διαλεκτικής έρευνας συνιστάται να σχεδιαστεί ένα δομημένο, πολυεπίπεδο σχήμα
επισημείωσης, το οποίο περιλαμβάνει όλες τις υπό μελέτη παραμέτρους γλωσσολογικής ανάλυσης (φωνητική,
φωνολογία, μορφολογία, σύνταξη, σημασιολογία, ανάλυση λόγου) του διαλεκτικού λόγου, ενώ παράλληλα προσφέρει
δυνατότητες εμπλουτισμού και ελεύθερης επέκτασης. Ένα τέτοιο πρότυπο επισημείωσης μπορεί να δημιουργηθεί στο
ELAN και να εφαρμοστεί χωρίς καμία εξαίρεση σε όλες τις πολυμεσικές διαλεκτικές βάσεις δεδομένων. Ένα τέτοιο
πρότυπο με ελεγχόμενα λεξιλόγια, λιγοστά πεδία πληκτρολόγησης, με πλήρη υποστήριξη Unicode χαρακτήρων, μπορεί
να εισαχθεί σε πάμπολλα εργαλεία ανάλυσης, είναι πλήρως επεκτάσιμο και τροποποιήσιμο σε περίπτωση περισσότερων
γραμμών επισημείωσης. Τέλος, κωδικοποιημένο σε XML καθίσταται μηχανικώς αναγνώσιμο, εύκολα μετατρέψιμο σε
διαφορετικό μορφότυπο αρχείου και καθιερώνεται ως πρότυπο επισημείωσης διαλεκτικών βάσεων σε άλλες γλώσσες.

5.2. Από την ψηφιοποίηση στην ψηφιακότητα: μεταδεδομένα και μηχανικώς αναγνώσιμα δεδομένα

Δεν υπάρχει μεγαλύτερο σώμα κειμένων από αυτό του διαδικτύου, του οποίου ο όγκος και η διαχείριση είναι
τρομακτικός και ταυτόχρονα εξαιρετικά δύσκολος. Η βασική «πληγή» και αδυναμία για οποιαδήποτε κειμενική
ανάλυση και επεξεργασία είναι η απουσία μεταδεδομένων και στην προκειμένη περίπτωση τo 80% των πληροφοριών
είναι αδόμητο και χωρίς πληροφορίες περιγραφής. Αντίστοιχα και στα διαλεκτικά προγράμματα της Νέας Ελληνικής η
απουσία ή μερική χρήση μεταδεδομένων αποτελεί σημαντική τροχοπέδη για πραγματική αξιοποίηση της τεχνολογίας
και των ψηφιακών τεκμηρίων. Αν και κάποια projects συμπεριλαμβάνουν εκτενή και κάποιες φορές πολύπλοκα

38
https://talkbank.org/

[16]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

μεταδεδομένα (βλ. βάση GreeD), δεν ακολουθείται κάποιο διεθνές πρότυπο μεταδεδομένων, ώστε να είναι εφικτή η
μετάπτωση των δεδομένων σε μεγαλύτερα αποθετήρια, μητρώα, βάσεις συλλογής, κ.λπ.. Ανάλογα με τις ανάγκες του
εκάστοτε διαλεκτικού προγράμματος μπορεί να αξιοποιήσει ή συνδυάσει περισσότερα κάποιο πρότυπο όπως είναι τα
CIDOC Conceptual Reference Model (CRM) 39, Dublin Core Metadata Initiative (DCMI)40, Friend of a Friend (FOAF)41, TEI
Encoding, VRA Core42 μεταξύ άλλων. Πλέον τα μεγάλα ευρωπαϊκά προγράμματα στα DH λειτουργούν με συσσωρευτές
μεταδεδομένων, όπου βάσεις δεδομένων και ψηφιακά projects, μεταπίπτουν τα δικά τους δεδομένα σε μεγαλύτερες
βάσεις ασφαλείας. Για παράδειγμα, το μεγαλύτερο πρόγραμμα PARTHENOS-EU project43 προσπαθεί να ολοκληρώσει
ένα μητρώο καταχώρησης όλων εργαλείων, υπηρεσιών, συλλογών, βάσεων δεδομένων και ψηφιακών προγραμμάτων
σε μια τροποποιημένη εκδοχή του CIDOC-CRM (Bruseker, Doerr, & Theodoridou, 2017) με μόνες προϋποθέσεις την
ψηφιακή μορφή και τα πρότυπα μεταδεδομένα.
Τεχνικές Υπολογιστικής Γλωσσολογίας στη Διαλεκτομετρία (Nerbonne & Kretzschmar, 2003) επιτρέπουν την
μέτρηση των διαλεκτικών διαφοροποιήσεων και χαρακτηριστικών κατηγοριοποιώντας είτε γεωγραφικά είτε χρονικά
είτε σε διαφορετικά γλωσσικά επίπεδα ανάλυσης. Έχοντας ως δεδομένο από την πολυετή διαλεκτολογική έρευνα πως
η γλωσσική ποικιλία είναι περίπλοκη τόσο γεωγραφικά όσο και γλωσσολογικά, δεν μπορεί να υπάρξει μείωση σε απλή
κατηγοριοποίηση των στοιχείων. Εντούτοις οι ψηφιακές τεχνικές διαλεκτομετρίας διευκολύνουν, επιταχύνουν και
ενισχύουν δραματικά την ανάλυση των γλωσσικών δεδομένων. Απαραίτητη προϋπόθεση είναι η ψηφιοποίηση των
τεκμηρίων να μην σταματήσει στο πρώτο στάδιο, αυτό του σκαναρίσματος ή μετατροπής σε ψηφιακό αρχείο, αλλά σε
πληροφορία πλήρως αναγνώσιμη τόσο από τον άνθρωπο όσο και τα υπολογιστικά συστήματα. Για αυτό κρίνεται
απαραίτητη πάντα η χρήση καθιερωμένων προτύπων, όπως XML, σε συνδυασμό με εργαλεία επεξεργασίας και
ανάλυσης που χρησιμοποιούνται ευρέως από την κοινότητα και υποστηρίζονται τεχνικά συνεχώς.

5.3. Ανοιχτά δεδομένα, ανοιχτή πρόσβαση

Οι αρχές καλής πρακτικής σε οποιοδήποτε πρόγραμμα των DH υποδεικνύουν ότι τα δεδομένα πρέπει να
ακολουθούν την πολιτική για ανοιχτά δεδομένα και ανοιχτή πρόσβαση (Carrara, Enzerink, Oudkerk, Radu, & van
Steenbergen, 2018). Με την απαρχή του Ελεύθερου Λογισμικού ή Λογισμικού Ανοικτού Κώδικα, δηλαδή το λογισμικό
που ο καθένας μπορεί ελεύθερα να χρησιμοποιεί, να αντιγράφει, να διανέμει και να τροποποιεί ανάλογα με τις ανάγκες
του, επικράτησε και η αντίστοιχη πρακτική στα δεδομένα. Τα Ανοιχτά δεδομένα είναι αυτά που συλλέχθηκαν σύμφωνα
με κάποιες βασικές αρχές και ευρωπαϊκή ή κρατική επιχορήγηση και διατίθενται δωρεάν για οποιαδήποτε χρήση πλην
της εμπορίας από τους χρήστες και τους ερευνητές. Τα ανοιχτά δεδομένα υπόκεινται σε τρεις πυλώνες, (α) τη
διαθεσιμότητα και προσβασιμότητα 44, (β) τη επαναχρησιμοποίηση και αναδιανομή45, και (γ) τη καθολική συμμετοχή.46
Η στρατηγική πίσω από τα ανοιχτά δεδομένα βρίσκεται στον πυρήνα της «κοινής ωφέλειας» που έγκειται στο
γεγονός ότι ένα απόσπασμα ανοικτού υλικού που διατίθεται από κάποιο project, μπορεί να αναμειχθεί με άλλο ανοικτό
υλικό προσφέροντας περισσότερες πληροφορίες, μια διαφορετική προσέγγιση και μια εναλλακτική ανάλυση. Για
παράδειγμα, η διασύνδεση τμήματος μιας διαλεκτικής βάσης γραπτών πηγών με λήμματα ηλεκτρονικού διαλεκτικού
λεξικού και τους διαδραστικούς χάρτες ενός διαλεκτικού άτλαντα. Απαραίτητη, όμως, προϋπόθεση είναι και η ανοιχτή

39
http://www.cidoc-crm.org/
40
http://dublincore.org/
41
http://www.foaf-project.org/
42
https://www.loc.gov/standards/vracore/schemas.html
43
http://www.parthenos-project.eu/
44
Τα δεδομένα πρέπει να είναι διαθέσιμα αυτούσια, να έχουν ένα λογικό κόστος αναπαραγωγής, και κατά προτίμηση να είναι διαθέσιμα για λήψη
από το Διαδίκτυο. Επίσης, πρέπει να είναι διαθέσιμα σε κάποια μορφή πρακτικά αναγνώσιμη.
45
Τα δεδομένα θα πρέπει να είναι διαθέσιμα υπό όρους που επιτρέπουν την επαναχρησιμοποίηση και την αναδιανομή τους, συμπεριλαμβανομένης
και της ανάμειξης με άλλα σύνολα δεδομένων.
46
Καθένας πρέπει να μπορεί να χρησιμοποιήσει, να επαναχρησιμοποιήσει και να αναδιανείμει τα δεδομένα. Δεν πρέπει αυτά να υπόκεινται σε
διακρίσεις με βάση τον τομέα δραστηριότητας ή τα πρόσωπα και τις ομάδες. Για παράδειγμα, περιορισμοί για «μη-εμπορική χρήση» ή περιορισμοί
για χρήση μόνο για συγκεκριμένους σκοπούς (π.χ. μόνο στην εκπαίδευση) δεν είναι επιτρεπτοί.

[17]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

(διαδικτυακή) πρόσβαση σε όλους. Δυστυχώς σχεδόν σε όλα τα ερευνητικά ψηφιακά προγράμματα δεν διατίθενται
πραγματικά τα δεδομένα στην κοινότητα, παραμένουν προσβάσιμα σε τοπικά μηχανήματα και σύντομα παραμένουν
αναξιοποίητα. Σύντομα ο ψηφιακός τους θάνατος θα οδηγήσει στην πλήρη απώλεια των δεδομένων, καθότι σχεδόν
ποτέ τα μη-ανοιχτά διαλεκτικά δεδομένα χωρίς ανοικτή πρόσβαση στερούνται πλάνου διαχείρισης, συντήρησης και
διάσωσης μετά την ολοκλήρωση του έργου και της χρηματοδότησης (Καρασίμος, και συν., 2018).

5.4. Η προσέγγιση του πληθοπορισμού

Μια ασυνήθιστη και εξαιρετικά ανοίκεια για τα ελληνικά ερευνητικά δεδομένα είναι ο πληθοπορισμός 47 στα
ερευνητικά προγράμματα. H έλλειψη συνεχούς χρηματοδότησης ή περιορισμένη διάθεση προσωπικού μπορεί να βρει
λύση σε διαφορετικές τακτικές και στρατηγικές που ειδικά στη διαλεκτική έρευνα θα μπορούσε να είναι βαρύνουσας
σημασίας και καίριας βοήθειας. Ο πληθοπορισμός επιταχύνει τη δημιουργία περιεχομένου. Αυτό είναι εφικτό δίνοντας
τη δυνατότητα σε φυσικούς ομιλητές ή διαθέσιμους ερευνητές να συλλέξουν υλικό και να το μεταφορτώσουν σε μια
πλατφόρμα ή να επισημείωσουν/μεταγράψουν ψηφιακά τεκμήρια με βάση την προσωπική τους γνώση. Παράλληλα
επιτρέπει ανθρώπους που γνωρίζουν κάποια διάλεκτο/ ποικιλία να εμπλακούν ενεργά στην έρευνα. Ο πληθοπορισμός
συμβάλλει στη δημιουργία μιας κοινότητας που εμπλέκει τους πραγματικούς ανθρώπους. Οι διαλεκτόφωνοι αγαπούν
να μοιράζονται τη γνώση τους, τη ντοπολαλιάς του και παλέψουν για τη διάδοση και διάσωση. Έτσι μέσω αυτής της
δράσης μπορούν να αποτελέσουν τους πιο αποτελεσματικούς επισημειωτές ή αποδελτιωτές τεκμηρίων από απλούς
ερευνητές. Τέλος προσφέρει μια ερευνητική επανάσταση στον τεχνολογικό κόσμο. Επαναφέρει και διαμοιράζει τη
διαδικασία επεξεργασίας δεδομένων ανάμεσα σε εκατοντάδες ανθρώπους. Με αυτόν τον τρόπο, η διάχυση της
πληροφορίας μεγαλώνει, ενώ εμπλέκονται περισσότεροι άνθρωποι ανάλογα με τα προσόντα και τα ενδιαφέροντά τους.
Το Bentham Project48 αποτελεί ένα εξαιρετικό ερευνητικό δείγμα με εφαρμογή πληθοπορισμού, όπου εγγεγραμμένοι
χρήστες μετέγραψαν όλες τις επιστολές, ενώ υπήρχε ομάδα για τον ποιοτικό έλεγχο της επισημείωσης στην οποία θα
μπορούσε να συμμετέχει και έμπειρος πληθοποριστής. Δεν αποτελεί πανάκεια ο πληθοπορισμός στα διαλεκτικά
ερευνητικά έργα, αλλά αναμφίβολα η πραγματική ενεργοποίηση των διαλεκτικών ομάδων σε ένα ερευνητικό project
μπορεί να απογειώσει τη δυναμική του.

6. Συμπεράσματα

Ο ψηφιακός χάρτης των διαλέκτων και ποικιλιών της Νεοελληνικής γλώσσας προσφέρει μια ξεκάθαρη εικόνα
για την Υπολογιστική Διαλεκτολογία και αποτελεί ελπιδοφόρο μήνυμα για τα μελλοντικά ερευνητικά προγράμματα.
Οι πολυτροπικές διαλεκτικές βάσεις δεδομένων (γενικές και στοχευμένες), όπως είναι η GreeD, το Διαφωνήεν και η
AMiGre, η ψηφιακή εκδοχή του ΙΛΝΕ, τα ψηφιοποιημένα και ηλεκτρονικά λεξικά, αλλά και ο διαλεκτικός άτλαντας
της Λέσβου περιέχουν όλες τις βασικές προϋποθέσεις για να αναδειχθούν σε εξαιρετικά ψηφιακά projects. Λαμβάνοντας
υπόψη τη συνολική κατάσταση των προγραμμάτων και την έλλειψη στρατηγικής από την κεντρική διαχείριση,
προτείνουμε κάποιες λύσεις και ιδέες, ώστε να αναδειχθούν περισσότερο τα συγκεκριμένα, αλλά και μελλοντικά
διαλεκτικά ερευνητικά προγράμματα. Η χρήση προτύπου ιεραρχημένης και δομημένης μεταγραφής και επισημείωσης
σε συνδυασμό με μεταδεδόμενα διεθνών προτύπων θα επιτύχουν σύνθετες και πολύπλοκες αναζητήσεις και
περισσότερες δυνατότητες ανάλυσης και επεξεργασίας, ενώ οι αρχές καλής πρακτικής με τη χρήση ανοιχτών
δεδομένων/ ανοιχτής πρόσβασης με τη πιθανή συνδρομή του πληθοπορισμού είναι δυνατόν να ενισχύσουν την

47
Ο πληθοπορισμός είναι μία μορφή συλλογικής διαδικτυακής δραστηριότητας στην οποία ένα άτομο, ένα ίδρυμα, ένας μη κερδοσκοπικός οργανισμός
ή μία εταιρεία προτείνει σε μία ομάδα ατόμων με ποίκιλες γνώσεις, ετερογένεια και αριθμό, μέσω μίας ανοιχτής πρόσκλησης, να αναλάβουν
εθελοντικά μια εργασία. Η ανάληψη της εργασίας, η οποία ποικίλλει σε πολυπλοκότητα και στο βαθμό στον οποίο είναι χωρισμένη και στην οποία
το πλήθος πρέπει να συμμετάσχει με προσωπική εργασία, χρήματα, γνώση, εμπειρία, περιλαμβάνει πάντοτε αμοιβαίο όφελος και για τις δύο πλευρές
(Estellés-Arolas & González Ladrón-de-Guevara, 2012).
48
http://www.ucl.ac.uk/bentham-project

[18]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

προσπάθεια για αρτιότερη ολοκλήρωση ψηφιακών διαλεκτικών προγραμμάτων και στην ευρύτερη διάχυση της γνώσης
στην κοινότητα.

Βιβλιογραφία
Allen, W., Beal, J., Corrigan, K., Maguire, W., & Moisl, H. (2007). A Linguistic ‘Time Capsule’: The Newcastle Electronic
Corpus of Tyneside English. Στο J. Beal, K. Corrigan , & H. Moisl, Creating and Digitizing Language Corpora (Τόμ.
Volume 2: Diachronic Databases, σσ. 16-48). New York: Palgrave MacMillan.
Anderson, J., Beavan, D., & Kay, C. (2007). SCOTS: Scottish Corpus of Texts. Στο J. Beal, K. Corrigan, & H. Moisl, Creating
and Digitizing Language Corpora (σσ. 17-34). New York: Palcrave MacMillan.
Anderwald, L., & Wagner, S. (2007). FRED – The Freiburg English Dialect Corpus: Applying Corpus-Linguistic Research
Tools to the Analysis of Dialect Data. Στο J. Beal, K. Corrigan, & H. Moisl, Creating and Digitizing Language Corpora
(σσ. 35-53). New York: Palgrave MacMillan.
Barbiers, S., Cornips, L., & Kunst, P. (2007). The Syntactic Atlas of the Dutch Dialects (SAND): A Corpus of Elicited Speech
and Text as an Online Dynamic Atlas. Στο J. Beal, K. Corrigan, & H. Moisl, Creating and Digitizing Language Corpora
(σσ. 54-90).
Benardou, A., Champion, E., Dallas, C., & Hughes, L. (Επιμ.). (2018). Cultural Heritage Infrastructures in Digital Humanities.
Routledge.
Berry, D. (Επιμ.). (2012). Understanding Digital Humanities. London: Palgrave Macmillan.
Berry, D., & Fagerjord, A. (2017). Digital Humanities: Knowledge and Critique in a Digital Age. Cambridge: Polity Press.
Bruseker, G., Doerr, M., & Theodoridou, M. (2017). Report on the Common Semantic. Rome: PARTHENOS-EU Project.
Ανάκτηση από http://www.parthenos-
project.eu/Download/Deliverables/D5.1_Common_Semantic_Framework_Appendices.pdf
Carrara, W., Enzerink, S., Oudkerk, F., Radu, C., & van Steenbergen, E. (2018). Open Data Goldbook for Data Managers and
Data Holders. EU: Europeana Data Portal.
Cenerini, C., Junker, M.-O., & Rosen, N. (2017). Mapping Dialectal Variation Using the Algonquian Linguistic Atlas.
Language Documentation & Conservation, 11, σσ. 305-324. doi:http://hdl.handle.net/10125/24738
Chambers, J., & Trudgill, P. (1980). Dialectology. Cambridge: Cambridge University Press.
Chambers, J., & Trudgill, P. (1998). Dialectology (2nd Edition εκδ.). Cambridge: Cambridge University Press.
Corver, N., van Craenenbroeck, J., Boef, E., Dimitriadis, A., Doreleijers, K., Harwood, W., . . . Temmerman, T. (2014).
Database of Dutch Dialect Idioms (DaDDI) Online database, . Ανάκτηση από LanguageLink:
http://languagelink.let.uu.nl/idioms/
Daelemans, W., Zavrel, J., van den Bosch, A., & van der Sloot, K. (2002). MBT: Memory-Based Tagger. Tilburg: CLiPS -
Computational Linguistics Group, University of Antwerp/ Tilburg University.
Dryer, M., & Haspelmath, M. (Επιμ.). (2013). The World Atlas of Language Structures Online. . Leipzig: Max Planck Institute
for Evolutionary Anthropology. Ανάκτηση από http://wals.info
Estellés-Arolas, E., & González Ladrón-de-Guevara, F. (2012). Towards an integrated crowdsourcing definition. Journal
of Information Science, σσ. 1-41.
Fromort, R., & Hay, J. (2009). ONZE Miner: the development of a browser-based research tool. Corpora,, Volume 3(Issue
2), σσ. 173-193.
Galiotou, E., Karanikolas, N., Manolessou, I., Pantelidis, N., Papazachariou, D., Ralli, A., & Xydopoulos, G. (2014). Asia
Minor Greek: Towards a computational processing. Procedia – Social and Behavioral Sciences, vol. 147 (σσ. 458-466).
Elsevier.
Gordon, E., Maclagan, M., & Hay, J. (2007). The ONZE Corpus. Στο J. Beal, K. Corrigan, & H. Moisl, Creating and Digitizing
Language Corpora (Τόμ. Volume 2: Diachronic Databases, σσ. 82-104). New York: Palgrave MacMillan.
Heeringa, W., & Prokić, J. (2007). Computational Dialectology. Στο C. Boberg, J. Nerbonne, & D. Watt (Επιμ.), The
Handbook of Dialectology (σσ. 330-347). John Wiley & Sons, Inc.

[19]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

Hickey, R. (2007). Tracking Dialect History: A Corpus of Irish English. Στο J. Biel, K. Corrigan, & H. Moisl, Creating and
Digitizing Language Corpora (Τόμ. Volume 2 Diachronic Databases, σσ. 105-126). New York: Palgrave MacMillan.
Ide, N., & Suderman, K. (2007). GrAF: A Graph-based Format for Linguistic. Proceedings of the Linguistic Annotation (σσ. 1–
8). Stroudsburg, PA: Association for Computational.
Ide, N., & Suderman, K. (2014). The linguistic annotation framework: A standard for annotation interchange and
merging. Language Resources and Evaluation, 48, σσ. 395–418.
Kallen, J., & Kirk, J. (2007). ICE-Ireland: Local Variations on Global Standards. Στο J. Beal, K. Corrigan, & H. Moisl, Creating
and Digitizing Language Corpora (Τόμ. Volume 1: Synchronic Databases, σσ. 121-162). New York: Palgrave
MacMillan.
Karanikolas, N., Galiotou, E., & Ralli, A. (2014). Towards a unified exploitation of electronic dialectal corpora: Problems
and perspectives. Στο P. Sojka, A. Horák, I. Kopeček, & K. Pala (Επιμ.), Text, Speech and Dialogue (σσ. 257-266).
Brno: Springer.
Karanikolas, N., Galiotou, E., Xydopoulos, G., Ralli, A., Athanasakos, K., & Koronakis, G. (2013). Structuring a Multimedia
tri-dialectal dictionary. Text, Speech and Dialogue. Proceedings of the 16th TSD (σσ. 509-518). Springer.
Karasimos, A., Galiotou, E., Karanikolas, N., Koronakis, G., Athanasakos, K., Papazachariou, D., & Ralli , A. (2016).
Challenges of Annotating a Multi-Dialect, Multi-Level Corpus of Spoken and Written Modern Greek Dialects.
Στο M. Janse, B. Joseph, & A. Ralli (Επιμ.), Proceedings of the 6th International Conference on Modern Greek Dialects
and Linguistic Theory (σσ. 71-78). Patra: University of Patras.
Kruijsen, J., & van Keymeulen, J. (1997). The Southern Dutch Dialect Dictionaries. Lexikos, 7, σσ. 207-228.
MacWhinney, B. (2007). The TalkBank Project. Στο J. Beal, K. Corrigan, & H. Moisl, Creating and Digitizing Language Corpora
(Τόμ. Volume 1: Synchronic Databases, σσ. 163-180). New York: Palgrave MacMillan.
MacWhinney, B. (2007). The TalkBank Project. Στο J. Biel, K. Corrigan, & H. Moisl (Επιμ.), Creating and Digitizing Language
Corpora (Τόμ. Volume 1: Synchronic Databases, σσ. 163-180). New York: Palgrave MacMillan.
Manni, F. (2017). Linguistic Probes into Human History. Groningen: University of Groningen.
Manolessou, I., & Bassea-Bezantakou, C. (2017). The Historical Dictionary of Modern Greek. Στο E. Wandl-Vogt, & A.
Dorn (Επιμ.), Kongress der Internationalen Gesellschaft für Dialektologie und Geolinguistik (SIGD) (σσ. 13-37). Wien:
Praesens Verlag.
Meurman-Solin, A. (2007). The Manuscript-Based Diachronic Corpus of Scottish Correspondence. Στο J. Biel, K.
Corrigan, & H. Moisl, Creating and Digitizing Language Corpora (Τόμ. Volume 2 Diachronic Databases, σσ. 127-
147). New York: Plagrave MacMillan.
Nerbonne, J., & Kretzschmar, W. (2003). Introducing Computational Techniques in Dialectometry. Computers and the
Humanities Vol. 37, No. 3, Computational Methods in Dialectometry, 37(3), σσ. 245-255.
Rabanus, S. (2017). Dialectal Maps. Στο C. Boberg, J. Nerbonne, & D. Watt (Επιμ.), The Handbook of Dialectology (σσ. 348-
367). John Wiley & Sons, Inc.
Romary, L., & Ide, N. (2004). International Standard for a Linguistic Annotation Framework. Natural Language
Engineering(10), σσ. 211–225.
Schreibman, S., Siemens, R., & Unsworth, J. (2016). A New Companion to Digital Humanities (2nd edition εκδ.). Wiley-
Blackwell.
Standen, N., & Jones, F. (2007). Revealing Alternatives: Online Comparative Translations of Interlinked Chinese
Historical Texts. Στο J. Beal, K. Corrigan, & H. Moisl , Creating and Digitizing Language Corpora (Τόμ. Volume 2:
Diachronic Databases, σσ. 172-195). New York: Palgrave MacMillan.
Szmrecsanyi, B., & Anderwald, L. (2017). Corpus‐Based Approaches to Dialect Study. Στο C. Boberg, J. Nerbonne, & D.
Watt (Επιμ.), The Handbook of Dialectology (σσ. 300-313). John Wiley & Sons, Inc.
Trudgill, P. (1999). The Dialects of England (2nd Edition εκδ.). Oxford: Blackwell.
van Gompel, M. (2012). FoLiA: Format for Linguistic Annotation. Documentation. Tilburg: Tilburg University.
van Gompel, M. (2014). FoLiA: “Format for Linguistic Annotation. Documentation. Nijmegen: Radboud University Nijmegen.

[20]
Α. ΚΑΡΑΣΙΜΟΣ | Οι νεοελληνικές διάλεκτοι στον ψηφιακό χάρτη: ανασκόπηση και προτάσεις | ΔΙΑΛΕΚΤΟΛΟΓΙΑ

van Keymeulen, J., & de Tier, V. (2013). The Woordenbank van de Nederlandse Dialecten (Wordbase of Dutch Dialects).
Στο I. Kosem, J. Kallas, P. Gantar, S. Krek, M. Langements, & M. Tuulik (Επιμ.), Electronic lexicography in the 21st
century: thinking outside the paper (σσ. 261-279). Tallinn: rojina, Institute for Applied Slovene Studies/Eesti Keele
Instituut.
van Oostendorp, M. (2014). Phonological and phonetic databases at the Meertens Institute. Στο J. Durand, & G.
Kristoffersen, The Oxford Handbook of Corpus Phonology (σσ. 546-551). Oxford: Oxford University Press.
Καρασίμος, Α., Γουλή, Ε., Καλαφατά, Π., Λίτκε, Α., Παπαδάκης, Ν., Τζεδόπουλος, Γ., . . . Μελγούρπη-Σαβαΐδου, Ε. (2018).
Από το DARIAH-GR/ΔΥΑΣ στο PARTHENOS-EU: οι ψηφιακές υποδομές, τα μητρώα συλλογών και οι θησαυροί
στις Aνθρωπιστικές Eπιστήμες. Ψηφιακές Ανθρωπιστικές επιστήμες στην Ελλάδα: προβληματισμοί και προκλήσεις.
Αθήνα: Research Center for Humanities.
Κοντοσόπουλος, Ν. (2006). Διάλεκτοι και ιδιώματα της Νέας Ελληνικής (4η εκδ.). Αθήνα: εκδόσεις Γρηγόρη.
Μανωλέσσου, Ι. (2016). Ο νέος τόμος του Ιστορικού λεξικού της νέας ελληνικής της Ακαδημίας Αθηνών: διαχρονικές
προοπτικές. Μελέτες για την Ελληνική Γλώσσα 35, (σσ. 239-249). Θεσσαλονίκη.
Μανωλέσσου, Ι., Μπέης, Σ., & Μπασέα-Μπεζαντάκου, Χ. (2012). Η φωνητική απόδοση των νεοελληνικών διαλέκτων.
Λεξικογραφικόν Δελτίον, 26, σσ. 161-222.
Μαρκόπουλος, Γ., & Καρασίμος, Α. (2017). Πολυεπίπεδη επισημείωση του Ελληνικού Σώματος Κειμένων Αφασικού
Λόγου. Proceedings of 12th International Conference of Greek Linguistics (ICGL12 (σσ. 725-740). Berlin: Edition
Romiosini/CeMoG, Freie Universität Berlin.
Ματθαιουδάκη, Μ. (2015). Πρόγραμμα ΔΙΑΦΩΝΗΕΝ: η ανάδειξη των ελληνικών διαλέκτων και η ευαισθητοποίηση της
εκπαιδευτικής κοινότητας. Στο Μ. Τζακώστα (Επιμ.), Η Διδασκαλία των Νεοελληνικών Διαλέκτων στην
Πρωτοβάθμια και Δευτεροβάθμια Εκπαίδευση: Θεωρητικές Προσεγγίσεις και Διδακτικές Εφαρμογές. (σσ. 117-140).
Αθήνα: Gutenberg.
Ξυδόπουλος, Γ., Δημελά, Ε., Μελισσαροπούλου, Δ., Παπαναγιώτου, Χ., & Ράλλη, Α. (2015). ΛΕΠΟΚΑΜ, ένα πολυμεσικό
λεξικό των διαλέκτων του Πόντου, της Καππαδοκίας και του Αϊβαλιού: θεωρητική προσέγγιση και υλοποίηση.
Στο Α. Ράλλη (Επιμ.), Πρόγραμμα ΘΑΛΗΣ: «Πόντος, Καππαδοκία, Αϊβαλί: στα χνάρια της Μικρασιατικής Ελληνικής»
(σσ. 99-114). Πάτρα: Εργαστήριο Νεοελληνικών Διαλέκτων, Πανεπιστήμιο Πατρών.
Παπαζαχαρίου, Δ. (2015). Ελληνικές Διαλεκτικές Πολυτροπικές Βάσεις Δεδομένων. Στο Μ. Τζακώστα (Επιμ.), Η
Διδασκαλία των Νεοελληνικών Γλωσσικών Ποικιλιών και Διαλέκτων στην Πρωτοβάθμια και Δευτεροβάθμια
Εκπαίδευση (σσ. 281-299). Αθήνα: Gutenberg.
Ράλλη, Α. (2018). Γλωσσική χαρτογράφηση: ο ηλεκτρονικός διαλεκτικός άτλαντας της Λέσβου. Στο Ι. Μανωλέσσου
(Επιμ.), Διαλεκτολογία. Αφιέρωμα στη Χριστίνα Μπασέα_Μπεζαντάκου. Αθήνα: Ακαδημία Αθηνών.
Ράλλη, Α., Παπαζαχαρίου, Δ., & Καρασίμος, Α. (2010). Εργαστήριο Νεοελληνικών Διαλέκτων και η βάση δεδομένων
GREED. Στο A. Ralli, B. Joseph, M. Janse, & A. Karasimos (Επιμ.), On‐line Proceedings of the Forth International
Conference of Modern Greek Dialects and Linguistic Theory (σσ. 7-15). Patra: University of Patras.

[21]

You might also like