Από το GDPR στο CLARIN:EL
Με αφορμή την Ευρωπαϊκή Ημέρα Προστασίας Προσωπικών Δεδομένων (28 Ιανουαρίου), ο μήνας αυτός αφιερώνεται στους πόρους που φιλοξενούνται στην Υποδομή CLARIN:EL και συγκροτούν την Οικογένεια Εργαλεία Αναγνώρισης Ονοματικών Οντοτήτων.
Στο Ευρωπαϊκό Κοινοβούλιο ψηφίστηκε το 2016 ένα σύνολο διατάξεων για την προστασία των προσωπικών δεδομένων (General Data Protection Regulation/GDPR). Τέτοια δεδομένα είναι το όνομα και το επώνυμο ενός ατόμου, η διεύθυνση κατοικίας του και η ηλεκτρονική του διεύθυνση, μέσω των οποίων επιτυγχάνεται η ταυτοποίηση του. Ένας τρόπος διασφάλισης της προστασίας των προσωπικών δεδομένων είναι η ανωνυμοποίηση και η ψευδο-ανωνυμοποίηση, δηλαδή η απόκρυψη ή η τροποποίηση των τιμών των δεδομένων αυτών. Το πρώτο βήμα προς αυτήν την κατεύθυνση είναι ο εντοπισμός τους. Η διαδικασία αυτή μπορεί να επιτευχθεί με ταχύτητα και ακρίβεια με την χρήση εργαλείων επεξεργασίας φυσικής γλώσσας (ΕΦΓ) που μεταξύ άλλων αναγνωρίζουν ονοματικές οντότητες, ονόματα δηλαδή ατόμων αλλά και άλλων οντοτήτων όπως τοποθεσιών, οργανισμών, γεωπολιτικών οργανισμών ακόμη και τίτλων έργων τέχνης.
Ο Προκόπης Προκοπίδης αναφέρεται σε τεχνολογίες που αναπτύσσονται στο Ινστιτούτο Επεξεργασίας του Λόγου και σχετίζονται με διαδικασίες ανωνυμοποίησης:
Τα τελευταία χρόνια απαιτείται όλο και συχνότερα η προσβασιμότητα σε κείμενα διαφόρων ειδών αλλά, ταυτόχρονα, και η προστασία των προσωπικών δεδομένων που περιέχουν τα κείμενα αυτά. Π.χ. η ανωνυμοποίηση δικαστικών αποφάσεων μπορεί να βοηθήσει ώστε οι αποφάσεις αυτές να είναι αφενός συμβατές με τους όρους του GDPR και των εθνικών νομοθεσιών και αφετέρου να είναι προσβάσιμες στον κάθε ενδιαφερόμενο πολίτη.
Στο ΙΕΛ/ΕΚ Αθηνά αναπτύσσονται λύσεις αυτόματης, κατά το δυνατόν, ανωνυμοποίησης που ενσωματώνουν εργαλεία ΕΦΓ του Ινστιτούτου. Ένα σύνολο τέτοιων εργαλείων ΕΦΓ, που στηρίζεται σε τεχνολογίες αιχμής όπως η βαθεία μάθηση, είναι το ILSP Neural NLP Toolkit1.Το toolkit ενσωματώνει αρθρώματα για την κατάτμηση κειμένου (segmentation), την επισημείωση μερών του λόγου (POS tagging), τη λημματοποίηση (lemmatization), τη συντακτική ανάλυση (dependency parsing), την ταξινόμηση κειμένου (text classification) και την αναγνώριση ονοματικών οντοτήτων.
Στο πλαίσιο της αναγνώρισης Ονοματικών Οντοτήτων (ΟΟ), χρησιμοποιούνται δύο συμπληρωματικές προσεγγίσεις. Η πρώτη προσέγγιση βασίζεται σε ένα μοντέλο αναγνώρισης OO εκπαιδευμένο με τεχνικές βαθείας μάθησης σε χειρωνακτικά επισημειωμένα δεδομένα2 , σύμφωνα με ένα σχήμα επισημείωσης που περιλαμβάνει 18 κατηγορίες ΟΟ όπως: PERSON (ονοματεπώνυμα φυσικών προσώπων), ORG (οργανισμοί και εταιρείες), GPE/LOC/FAC (πόλεις, χώρες, τοποθεσίες, επώνυμα κτήρια) κ.α. Ενδεικτικά, η ακρίβεια αναγνώρισης ΟΟ της κατηγορίας PERSON πλησιάζει το 95%. Η δεύτερη προσέγγιση στηρίζεται σε κανόνες κανονικών εκφράσεων (regular expressions) για την αναγνώριση συγκεκριμένων φράσεων που αφορούν διευθύνσεις οδών, τηλεφωνικούς αριθμούς, αριθμούς IBAN, ΑΜΚΑ, ΑΦΜ, αποφάσεις δικαστηρίων, νόμους, λογαριασμούς e-mail, URLs κ.α.
Οι λύσεις ανωνυμοποίησης που υλοποιούνται στο ΙΕΛ χρησιμοποιούν τις αυτόματες επισημειώσεις από το toolkit και άλλα εργαλεία ΕΦΓ. Ειδικότερα, λαμβάνονται υπόψη οι αυτόματες επισημειώσεις από τα στάδια λημματοποίησης και αναγνώρισης ονοματικών οντοτήτων. Έτσι, σε κείμενα δικαστικών αποφάσεων, ονοματεπώνυμα, προηγούμενες αποφάσεις και διευθύνσεις επισημειώνονται ως υποψήφιες φράσεις για αντικατάσταση με συντομευμένες μορφές τους και/ή αποσιωπητικά. Επίσης, σε συγκεκριμένα περικείμενα, δεν επισημειώνονται τα ονοματεπώνυμα που αντιστοιχούν σε συγκεκριμένες κατηγορίες παραγόντων μιας δίκης. Αυτό συμβαίνει όταν εμφανίζονται σε κατάλληλα συμφραζόμενα, δηλαδή, π.χ., μετά από λέξεις, όπως δικηγόρο και Παρέδρου, οι οποίες έχουν αυτόματα λημματοποιηθεί με τα αντίστοιχα λήμματα δικηγόρος και πάρεδρος.
Η πρόσβαση στο ILSP Neural NLP Toolkit γίνεται ελεύθερα μέσω του CLARIN:EL για ερευνητικούς σκοπούς σύμφωνα με τους όρους χρήσης CLARIN:EL, ενώ η υπηρεσία είναι διαθέσιμη για τους εγγεγραμμένους στην υποδομή χρήστες μέσω του μητρώου ροών εργασίας (workflow registry).
1 P. Prokopidis and S. Piperidis. 2020. A Neural NLP toolkit for Greek. In Proceedings of 11th Hellenic Conference on Artificial Intelligence.
2 Bartziokas, Mavropoulos, and Kotropoulos. 2020. Datasets and Performance Metrics for Greek Named Entity Recognition. In Proceedings of the 11th Hellenic Conference on Artificial Intelligence.

Προκόπης Προκοπίδης
Επιστημονικός συνεργάτης
Τμήμα Επεξεργασίας Φυσικής Γλώσσας και Γλωσσικών Υποδομών, Ινστιτούτο Επεξεργασίας του Λόγου/Ε.Κ. Αθηνά
Πληροφορίες για τον πόρο
Ελληνικά
Προεπισκόπηση του πόρου
