Επισημείωση

Η επισημείωση (annotation) αποτελεί μια διαδικασία επεξεργασίας κειμένων, κατά την οποία προσαρτώνται ετικέτες (tags) σε λέξεις ή/και σύνολα λέξεων ενός κειμένου ή ενός σώματος κειμένων. Η επισημείωση μπορεί να γίνει τόσο σε πρωτογενή δεδομένα (raw data) όσο και σε κείμενο που έχει ήδη υποστεί κάποια επεξεργασία (όπως μία πρώτη επισημείωση).

Οι ετικέτες με τις οποίες περιγράφονται οι λέξεις/σύνολα λέξεων κατά τη διαδικασία της επισημείωσης δίνουν πληροφορία για το μέρος του λόγου στον οποίο ανήκουν (Part Of Speech Tagging), το λήμμα στο οποίο ανάγονται (Lemmatization), τα μορφοσυντακτικά χαρακτηριστικά (MorphoSyntactic Tagging), τη συντακτική δομή (Syntactic Parsing), ενώ μπορούν να αποδίδουν και τα σημασιολογικά χαρακτηριστικά (Semantic Annotation) ορίζοντας τμήματα κειμένου ως Ονοματικές Οντότητες (Ονόματα Φυσικών και Νομικών Προσώπων, Ονόματα Οργανισμών, Γεωγραφικές περιοχές, κτλ.), ως γεγονότα (events) ή ακόμη και συσχετίζοντάς τα σε επίπεδο συναναφοράς (Co-reference). Άλλα είδη επισημείωσης μπορεί να περιλαμβάνουν την κειμενική επισημείωση (Discourse Annotation) με τον χαρακτηρισμό τμημάτων του κειμένου σε διαπροτασιακό επίπεδο, την επισημείωση για υφολογικά ή πραγματολογικά χαρακτηριστικά του κειμένου, αλλά και την επισημείωση για συγκεκριμένα ad hoc ερευνητικά ερωτήματα.

Η επισημείωση σωμάτων κειμένων αποτελεί χρήσιμο εργαλείο τόσο για την ανάκληση και αναζήτηση πληροφορίας από μεγάλους όγκους δεδομένων όσο και για την εκπαίδευση νέων εργαλείων, την προσαρμογή ήδη υπαρχόντων εργαλείων σε νέες θεματικές περιοχές και τον έλεγχο της ακρίβειας της απόδοσής τους.

Υπηρεσίες επισημείωσης CLARIN:EL: