Η Τιτίκα Δημητρούλια, Καθηγήτρια του Τομέα Μετάφρασης του Τμήματος Γαλλικής Γλώσσας και Φιλολογίας του ΑΠΘ και Επιστημονική Υπεύθυνη του Αποθετηρίου του ΑΠΘ στην Ερευνητική Υποδομή Γλωσσικών Πόρων και Τεχνολογιών CLARIN:EL, σε άρθρο της στην ενότητα ACADEMIA του Οικονομικού Ταχυδρόμου μιλάει για τα κειμενικά δεδομένα, την ηλεκτρονική ανάλυσή τους και τη συμμετοχή του Αιστοτελείου Πανεπιστημίου Θεσσαλονίκης στο δίκτυο CLARIN:EL, την Εθνική Υποδομή Γλωσσικών Πόρων και Τεχνολογιών στην Ελλάδα.

Η ηλεκτρονική ανάλυση κειμένου, για την οποία γίνεται πολύς λόγος σήμερα  σε πολλούς και διαφορετικούς τομείς, επιστημονικούς και μη, βρίσκεται στις απαρχές των τεχνολογικών εφαρμογών  των Ψηφιακών Ανθρωπιστικών Σπουδών (Digital  Humanities) -του διεπιστημονικού δηλαδή πεδίου που χρησιμοποιεί ηλεκτρονικά εργαλεία στην πραγμάτευση ερευνητικών ερωτημάτων στις κοινωνικές και ανθρωπιστικές, επιστήμες και τις τέχνες.

O  πρώτος συμφραστικός πίνακας στην ιστορία δημιουργήθηκε στα μέσα του 13ου  αιώνα. Πεντακόσιοι δομινικανοί μοναχοί, υπό την εποπτεία ενός εμπνευσμένου καρδιναλίου, του Υγκντε Σαιν-Σεφ, κατέγραψαν, δουλεύοντας για περισσότερα από δέκα χρόνια, όλες τις λέξεις της Βίβλου, παραπέμποντας στα σημεία εμφάνισής τους μέσα στο βιβλικό κείμενο. Χρειάστηκε να περάσουν οκτακόσια χρόνια, έως ότου ένας άλλος ιερωμένος, ο πατήρ Ρομπέρτο Μπούζα, να κάνει την ίδια επεξεργασία στο έργο του Θωμά του Ακινάτη, αλλά αυτή τη φορά ηλεκτρονικά, σε συνεργασία με την  IBM. Η απόσταση ανάμεσα στα δύο εγχειρήματα καταδεικνύει την πρωταρχικότητα της «τεχνολογίας» του ανθρώπινου νου σε σύγκριση με κάθε τεχνολογικό εργαλείο και την πολυπλοκότητα της τεχνολογικής εξέλιξης, δίνοντάς μας πιθανά μια εικόνα του μέλλοντός μας.

Τα κειμενικά δεδομένα είναι το πλέον πρόσφορο πεδίο, μετά τα αριθμητικά δεδομένα, για ανάλυση με τη βοήθεια του υπολογιστή. Ο πολλαπλασιασμός τους στην σημερινή ψηφιακή συνθήκη αναδεικνύει, σε πολλές περιπτώσεις, ως αναπόδραστη την ηλεκτρονική ανάλυσή τους, με ποικίλες μεθοδολογικές προσεγγίσεις, που συχνά διαφέρουν πολύ μεταξύ τους. Όλες, όμως, έχουν στον πυρήνα τους το ψηφιακό κείμενο και τα ψηφιακά εργαλεία. Οι ανάγκες για εύχρηστα εργαλεία, που δεν θα απαιτούν από τον χρήστη γνώσεις προγραμματισμού, αυξάνονται διαρκώς, και η αναγκαιότητα διάδοσης των μεθοδολογιών της χρήσης τους στην έρευνα εντείνεται. Παράλληλα, η όλο και μεγαλύτερη ενσωμάτωση της τεχνητής νοημοσύνης στα εργαλεία αυτά αναδιατάσσει διαρκώς το τοπίο.  Όμως, τόσο τα κείμενα όσο και τα εργαλεία δημιουργούνται προφανώς μέσα στο πλαίσιο του συσχετισμού δυνάμεων των γλωσσών,  κάτι που εξηγεί και τη   σχετική   καθυστέρηση   της ανάπτυξής τους στον ελληνικό χώρο.

Ωστόσο, καθώς οι τεχνικοί περιορισμοί υποχωρούν και οι δράσεις στον ελληνόφωνο χώρο συντονίζονται, έχουμε στη διάθεσή μας όλο και περισσότερα εργαλεία επεξεργασίας της ελληνικής γλώσσας και των ψηφιακών και ψηφιοποιημένων κειμένων. Στη μεγάλη αυτή πρόκληση της διάδοσης των εργαλείων και των μεθοδολογιών χρήσης τους επιδιώκει να ανταποκριθεί η Εθνική Υποδομή Απολλωνίς, η οποία δημιουργήθηκε από τη σύμπραξη του Εθνικού Δικτύου Γλωσσικών Πόρων και Τεχνολογιών CLARIN:EL και του Εθνικού Δικτύου Ψηφιακών Υποδομών για τις   Ανθρωπιστικές   Επιστήμες     DARIAH-GR/ΔΥΑΣ.

Το CLARIN:EL είναι η Εθνική Ερευνητική Υποδομή Γλωσσικών Πόρων και Τεχνολογιών στην Ελλάδα. Η Υποδομή CLARIN:EL συμμετέχει στον Εθνικό Οδικό Χάρτη Ερευνητικών Υποδομών και αποτελεί, από τον Φεβρουάριο του 2015, το ελληνικό σκέλος της Ευρωπαϊκής Υποδομής CLARIN ERIC. Η Υποδομή CLARIN:EL φιλοξενεί συνολικά 631 πόρους σε ένα συστηματικά οργανωμένο δίκτυο αποθετηρίων, στο οποίο συμμετέχουν μέχρι σήμερα 12 Ερευνητικοί Οργανισμοί και Πανεπιστημιακά Ιδρύματα από όλη την Ελλάδα, ανάμεσά τους και το Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, το οποίο εστιάζει στην ηλεκτρονική   ανάλυση   κειμένου   με   τη   δημιουργία   και   ανάρτηση   ψηφιακών   σωμάτων κειμένων   ελεύθερης   πρόσβασης και   με   τη συστηματική   εκπαίδευση   διαφορετικών   ομάδων   χρηστών   σε   ποικίλα   εργαλεία   και μεθοδολογίες ανάλυσης.

Οι γλωσσικοί πόροι που δημιουργούνται από τους φορείς-μέλη του δικτύου CLARIN:EL είναι ενδεικτικοί και στόχο έχουν να αναδείξουν αφενός τις μεθόδους συγκρότησής τους και αφετέρου την αξία και τα οφέλη του ελεύθερου διαμοιρασμού τους για την ερευνητική, εκπαιδευτική κοινότητα και την κοινωνία. Παράλληλα με τους πόρους, προσφέρονται επίσης ανοιχτά εργαλεία επεξεργασίας της γλώσσας από τους φορείς δημιουργίας τους, υπό τον συντονισμό   του  Ερευνητικού Κέντρου Αθηνά.

Τα  πεδία  εφαρμογής  είναι  ενδεικτικά  η   φιλολογία,  η γλωσσολογία,   η  γλωσσική   τεχνολογία,  η   ιστορία,   η  νομική,  η   οικονομική   και   η   πολιτική επιστήμη, η μετάφραση, η  φιλοσοφία, η δημοσιογραφία και η επικοινωνία, οι πολιτισμικές σπουδές. Απώτερος στόχος των δράσεων του ΑΠΘ στο πλαίσιο της υποδομής CLARIN:EL - Απολλωνίς είναι η δημιουργία   μιας  ανοιχτής,  καινοτόμας   κοινότητας   πρακτικής,   η   οποία   θα   προαγάγει   την ποιοτική, ερμηνευτική ηλεκτρονική ανάλυση κειμένου. Επιδιώκει να ανοίξει δρόμους για την ενσωμάτωσή   της   στην   ακαδημαϊκή   κοινότητα   και   την   πρακτική   εφαρμογή   της   για   την κάλυψη των νέων αναγκών που διαμορφώνει η ψηφιακότητα στην κοινωνία μας.

Μπορείτε να βρείτε και να διαβάσετε το συνολικό άρθρο της Τιτίκας Δημητρούλια που δημοσιεύθηκε τον Απρίλιο του 2021 στην ενότητα ACADEMIA του Οικονομικού Ταχυδρόμου εδώ.