ELRC White Paper 2022: AI for a multilingual Europe – Why Language Data Matters

Ο Ευρωπαϊκός Συντονισμός Γλωσσικών Πόρων (European Language Resource Coordination – ELRC) συστάθηκε το 2015 με αποστολή τη συλλογή γλωσσικών πόρων σε όλες τις επίσημες ευρωπαϊκές γλώσσες, καθώς και στη νορβηγική και την ισλανδική γλώσσα, με ιδιαίτερη έμφαση στα δίγλωσσα και πολύγλωσσα γλωσσικά δεδομένα από διάφορους τομείς. Στόχος ήταν αρχικά η συλλογή δεδομένων για την εκπαίδευση της υπηρεσίας μηχανικής μετάφρασης της Ευρωπαϊκής Επιτροπής CEF eTranslation, η οποία παρέχεται δωρεάν σε όλες τις δημόσιες διοικήσεις και υπηρεσίες των κρατών μελών της ΕΕ, τη Νορβηγία και την Ισλανδία, τον ακαδημαϊκό χώρο, τις ΜΚΟ καθώς και τις ΜμΕ.

Προκειμένου να στηρίξει περαιτέρω τον διαμοιρασμό γλωσσικών δεδομένων στην Ευρώπη, το ELRC διεξήγαγε το 2019 μια πρώτη έρευνα μεταξύ των δημόσιων υπηρεσιών με στόχο να εντοπίσει τους βασικούς εμπλεκόμενους φορείς αλλά και τους μηχανισμούς για τον αποτελεσματικό διαμοιρασμό γλωσσικών δεδομένων στα κράτη μέλη της ΕΕ, τη Νορβηγία και την Ισλανδία. Η έρευνα αυτή οδήγησε στη δημοσίευση της πρώτης έκδοσης της Λευκής Βίβλου του ELRC που δημοσιεύθηκε τον Δεκέμβριο του 2019 με τίτλο Sustainable Language Data Sharing to Support Language Equality in Multilingual Europe – Why language data matters. Σε μία κοινή προσπάθεια των Εθνικών Σημείων Συντονισμού του ELRC από όλα τα κράτη μέλη της ΕΕ, την Ισλανδία και τη Νορβηγία, διερευνήθηκαν οι ευρωπαϊκές πρακτικές για το διαμοιρασμό γλωσσικών δεδομένων, καθώς και οι σχετικές προκλήσεις, ενώ παράλληλα συντάχθηκαν και διατυπώθηκαν συστάσεις για την αντιμετώπιση αυτών των προκλήσεων στο μέλλον. Η Λευκή Βίβλος παρείχε, επιπλέον, για κάθε μία από τις χώρες που συμμετέχουν στη Διευκόλυνση «Συνδέοντας την Ευρώπη» (Connecting Europe Facility – CEF) πληροφορίες σχετικά με τα ακόλουθα θέματα:

Εθνικές μεταφραστικές πρακτικές και ανταλλαγή πληροφοριών στα υπουργεία και τις δημόσιες διοικήσεις
Μεταφραστικές ανάγκες της χώρας
Υποδομές για τη δημιουργία και τον διαμοιρασμό γλωσσικών δεδομένων
Εθνικές πολιτικές για τα ανοικτά δεδομένα
Βασικοί εμπλεκόμενοι φορείς
Κύριες προκλήσεις για τον βιώσιμο διαμοιρασμό δεδομένων
Απαιτούμενες δράσεις για την αντιμετώπιση των προκλήσεων που έχουν εντοπιστεί

Περίπου τρία χρόνια μετά, το ELRC δημοσιεύει τον Νοέμβριο του 2022 την δεύτερη έκδοση της Λευκής Βίβλου με στόχο τη σύγκριση των αποτελεσμάτων της ανάλυσης του 2019 με την κατάσταση που επικρατεί σήμερα, απεικονίζοντας τις τελευταίες εξελίξεις, τις πιο πρόσφατες αλλαγές και τα επιτεύγματα. Η νέα αυτή έκδοση, δεδομένης της αυξανόμενης σημασίας της Τεχνητής Νοημοσύνης (TN) και της Γλωσσικής Τεχνολογίας (ΓΤ) σε όλες τις ευρωπαϊκές χώρες και τους τομείς, εστιάζει στο ρόλο της ΓΤ και των γλωσσικών δεδομένων σε όλα τα κράτη μέλη της ΕΕ, την Ισλανδία και τη Νορβηγία, εξετάζει εάν η αξία της ΓΤ και των γλωσσικών δεδομένων έχει αναγνωριστεί ή εάν απαιτούνται περαιτέρω δράσεις ευαισθητοποίησης, λαμβάνοντας παράλληλα υπόψη τις πρόσφατες εξελίξεις στο πεδίο αυτό, καθώς και τους εθνικούς κανονισμούς που σχετίζονται με την ΤΝ. Έτσι, στη νέα επικαιροποιημένη έκδοση της Λευκής Βίβλου του ELRC, τα προφίλ των χωρών – πέρα από το αρχικό τους περιεχόμενο – περιλαμβάνουν πληροφορίες πάνω στα εξής:

Ο ρόλος της ΓΤ και των γλωσσικών δεδομένων στις πολιτικές ΤΝ κάθε χώρας
Σημαντικά δίκτυα, έργα και φορείς ΤΝ της κάθε χώρας
Προσπάθειες συλλογής δεδομένων και αποθετήρια δεδομένων στην κάθε χώρα

Η Ελλάδα συμμετέχει στην Κοινοπραξία του Έργου ELRC από το 2015 με Επιστημονικό Υπεύθυνο τον Στέλιο Πιπερίδη, Υπεύθυνο του Τμήματος Επεξεργασίας Φυσικής Γλώσσας και Γλωσσικών Υποδομών του ΙΕΛ/ΕΚ Αθηνά. Στη συγγραφή του ELRC White Paper συμμετείχαν οι Μαρία Γαβριηλίδου, Ερευνήτρια στο ΙΕΛ/ΕΚ ΑΘΗΝΑ και Αναπληρώτρια Συντονίστρια της Ερευνητικής Υποδομής Γλωσσικών Πόρων και Γλωσσικής Τεχνολογίας CLARIN:EL, και Μαρία Γιάγκου, Συνεργαζόμενη Ερευνήτρια στο ΙΕΛ/ΕΚ ΑΘΗΝΑ, μέλος του ELRC Consortium και Υπεύθυνη διαχείρισης του έργου παροχής υπηρεσιών προς την Ευρωπαϊκή Επιτροπή Action on CEF Automated Translation Core Service Platform (ELRC3).

Μπορείτε να βρείτε και να διαβάσετε τη Νέα Έκδοση της Λευκής Βίβλου του ELRC με τίτλο AI for Multilingual Europe – Why Language Data Matters εδώ.