Τα δεδομένα του δημόσιου τομέα ως γλωσσικοί πόροι

Σύμφωνα με την έκθεση E-Government Survey 2016 report, που δημοσιεύθηκε από το Τμήμα Οικονομικών και Κοινωνικών Υποθέσεων (DESA) του ΟΗΕ, Division for Public Administration and Development Management (DPADM), τα ανοιχτά δεδομένα βελτιώνουν την λογοδοσία και την διαφάνεια. Πέρα όμως από τη βελτίωση των διαδικασιών ελέγχου της δημόσιας διοίκησης, σημαντικό συμπέρασμα της έκθεσης αυτής είναι και το εξής:

Η δημόσια διάθεση των δεδομένων στο διαδίκτυο επιτρέπει στο κοινό την επαναχρησιμοποίηση των ελεύθερων διαθέσιμων στοιχείων για οποιονδήποτε σκοπό, οδηγώντας σε νέες υπηρεσίες, την καινοτομία και την ενίσχυση των οικονομικών ευκαιριών.

Η επαναχρησιμοποίηση των ελεύθερων δεδομένων του δημόσιου τομέα συνήθως εστιάζει στο περιεχόμενο, στην περίπτωση όμως της Γλωσσικής Τεχνολογίας η επαναχρησιμοποίηση αφορά το ίδιο το γλωσσικό υλικό, αντιμετωπίζοντας τα δεδομένα ως Γλωσσικούς Πόρους.

Οι Γλωσσικοί Πόροι χρησιμοποιούνται για να εκπαιδεύσουν και να βελτιώσουν συστήματα γλωσσικής επεξεργασίας, δηλ. ως δεδομένα εκπαίδευσης (training data) ή δεδομένα ελέγχου/αξιολόγησης (testing/evaluation data), να δημιουργήσουν ορολογικά λεξικά ή να εμπλουτίσουν λεξικά γενικής γλώσσας με νέες λέξεις ή και με παραδείγματα χρήσης, κ.ά. Ειδικά οι δίγλωσσοι πόροι είναι πολύτιμοι για την εκπαίδευση συστημάτων Αυτόματης Μετάφρασης, τη βελτίωση της ποιότητάς τους και την προσαρμογή τους σε καινούργιους θεματικούς τομείς και διαφορετικά επίπεδα λόγου.

Με το σκεπτικό αυτό, η ΕΕ αποφάσισε να αξιοποιήσει τους μεγάλους όγκους γλωσσικών δεδομένων που παράγονται καθημερινά από όλα τα Κράτη Μέλη για την εκπαίδευση της πλατφόρμας Αυτόματης Μετάφρασης που χρησιμοποιεί για μετάφραση από και προς όλες τις γλώσσες της ΕΕ. Πρόκειται για μία πλατφόρμα αυτόματης μετάφρασης που βασίζεται στην υπηρεσία Μηχανικής Μετάφρασης της Ευρωπαϊκής Επιτροπής, MT@EC, που είναι σε λειτουργία από το 2013 και η οποία είναι διαθέσιμη στα θεσμικά όργανα της ΕΕ και τις δημόσιες υπηρεσίες των Κρατών-Μελών. Η πλατφόρμα στηρίζεται στην τεχνολογία της στατιστικής μηχανικής μετάφρασης (ΜΜ), η οποία μαθαίνει πώς να μεταφράζει από υπάρχουσες ανθρώπινες μεταφράσεις. Με λίγα λόγια, για να εκπαιδευτεί το σύστημα, απαιτούνται οι κατάλληλοι γλωσσικοί πόροι.

Έτσι, τον Απρίλιο του 2015 η Ευρωπαϊκή Επιτροπή ξεκίνησε μία προσπάθεια Ευρωπαϊκού Συντονισμού Γλωσσικών Πόρων, με σκοπό να εντοπιστούν και να συγκεντρωθούν γλωσσικά δεδομένα που παράγονται από τις εθνικές δημόσιες υπηρεσίες και τους κυβερνητικούς φορείς σε 30 Ευρωπαϊκές χώρες. Όλα τα δεδομένα που θα συγκεντρωθούν στο πλαίσιο της πρωτοβουλίας αυτής θα παρέχονται στην Ευρωπαϊκή Επιτροπή για χρήση στην Πλατφόρμα Αυτόματης Μετάφρασης.

Για την αποθήκευση, τεκμηρίωση και αναζήτηση των πόρων που συγκεντρώνονται υλοποιήθηκε από το ΕΚ "Αθηνά" το αποθετήριο ELRC-SHARE, που αποτελεί μια "απλοποιημένη εκδοχή" της δομής αποθετηρίων του CLARIN:EL.

Περισσότερες πληροφορίες για τον Ευρωπαϊκό Συντονισμό Γλωσσικών Πόρων μπορείτε να βρείτε εδώ.