Η Ερευνητική Υποδομή CLARIN:EL υλοποιεί, παρέχει, συντηρεί και υποστηρίζει εργαλεία και διαδικτυακές υπηρεσίες γλωσσικής επεξεργασίας. Στον Κεντρικό Κατάλογο CLARIN:EL ο χρήστης έχει τη δυνατότητα να ανακαλύψει και να χρησιμοποιήσει τις υπηρεσίες γλωσσικής επεξεργασίας, οι οποίες περιλαμβάνουν μεταξύ άλλων υπηρεσίες λεκτικής ανάλυσης, υπηρεσίες αναγνώρισης λέξεωνμερών του λόγου και ορίων προτάσεων, υπηρεσίες μορφολογικής και συντακτικής ανάλυσης, υπηρεσίες αναγνώρισης ονοματικών οντοτήτων (κυρίων ονομάτων)άποψης και συναισθήματος καθώς και πολλές ακόμα υπηρεσίες αναλυτικής κειμένου.

Οι υπηρεσίες και τα εργαλεία γλωσσικής επεξεργασίας λειτουργούν με τον εξής τρόπο: δέχονται ως είσοδο ένα κείμενο (συμβατό με προδιαγραφές που περιγράφονται αναλυτικά), το επεξεργάζονται (ανάλογα με την αρμοδιότητά του το καθένα) και στην έξοδο βγάζουν το επεξεργασμένο αποτέλεσμα (επισημειωμένο κείμενο). 

Η πρόσβαση στις διαδικτυακές υπηρεσίες γλωσσικής επεξεργασίας CLARIN:EL είναι ελεύθερη για όλη την ακαδημαϊκή και ερευνητική κοινότητα, τη βιομηχανία, αλλά και το ευρύ κοινό εφόσον ο χρήστης έχει προηγουμένως εγγραφεί στην Υποδομή CLARIN:EL. Περισσότερες πληροφορίες σχετικά με τη διαδικασία εγγραφής στην Υποδομή CLARIN:EL μπορείτε να βρείτε εδώ.

 

Υπηρεσίες & εργαλεία Γλωσσικής Επεξεργασίας CLARIN:EL

swatchbook

Τμηματοποίηση κειμένου

Πρόκειται για τη διαδικασία κατάτμησης ενός κειμένου σε λέξεις και φράσεις. Η τμηματοποίηση είναι, κατά μία έννοια, ένα είδος προ-επεξεργασίας που έχει ως στόχο την αναγνώριση βασικών στοιχείων ενός κειμένου, όπως προτάσεις, λέξεις, σημεία στίξης, αριθμοί, σύμβολα. Ορισμένα εργαλεία, ταυτόχρονα με τις λέξεις και τις φράσεις αναγνωρίζουν και τα όρια των προτάσεων ενός κειμένου, ενώ σε άλλες περιπτώσεις, διαφορετικά εργαλεία αναλαμβάνουν το έργο της αναγνώρισης προτάσεων (βλ. Διαχωρισμός προτάσεων).

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Sentence splitter and Tokenizer for Greek

HTokenizer

OpenNLP Tokenizer (English)

OpenNLP Tokenizer (German)

OpenNLP Tokenizer (Portuguese)

boxes

Λημματοποίηση

Πρόκειται για τη σύνδεση κάθε επιμέρους γλωσσικού τύπου μίας λέξης με τη βασική της μορφή, δηλαδή με το λήμμα στο οποίο ανήκει. Για παράδειγμα, οι γλωσσικοί τύποι φεύγειέφυγαν και φύγει συνδέονται αυτόματα με το λήμμα φεύγω.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Lemmatizer

laptop

Επισημείωση Μερών του Λόγου

Πρόκειται για τον χαρακτηρισμό κάθε γλωσσικού τύπου μίας πρότασης με βάση το μέρος του λόγου στο οποίο ανήκει (π.χ. ουσιαστικό, ρήμα, επίθετο, κλπ.), σύμφωνα με το συγκείμενο στο οποίο εντοπίζεται. Το αποτέλεσμα είναι μία ετικέτα (tag) με το μέρος του λόγου για κάθε γλωσσικό τύπο.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Feature-based multi-tiered POS Tagger

OpenNLP Part-of-Speech Tagger (English)

OpenNLP Part-of-Speech Tagger (German)

OpenNLP Part-of-Speech Tagger (Portuguese)

tag

Επισημείωση Ονοματικών Οντοτήτων

Χρησιμοποιείται σε διάφορες εφαρμογές εξαγωγής πληροφορίας από κείμενα, με στόχο την αυτόματη αναγνώριση και ταξινόμηση ονοματικών οντοτήτων (δηλ. κυρίων ονομάτων) σε κατηγορίες όπως Άτομο (π.χ. Κώστας, Παπαδοπούλου), Τοποθεσία (Πίνδος, Λονδίνο), Οργανισμός (Ο.Η.Ε.), Γεωπολιτική Οντότητα (Βρυξέλλες, με τη σημασία «έδρα της ΕΕ»), κλπ. Το αποτέλεσμα είναι μία ετικέτα (tag) με την αντίστοιχη κατηγορία για κάθε κύριο όνομα.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

GrNE-Tagger (Greek)

OpenNLP Name Finder (English)

magic

Διαχωρισμός προτάσεων

Πρόκειται για τη διαδικασία τμηματοποίησης ενός κειμένου σε προτάσεις. Συγκεκριμένα, τα εργαλεία αυτά εντοπίζουν τα όρια μίας πρότασης κάνοντας χρήση των σημείων στίξης και ανιχνεύοντας περαιτέρω το εάν αυτά συμβολίζουν το τέλος μίας πρότασης ή όχι.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Sentence splitter and Tokenizer for Greek

OpenNLP Sentence Detector (English)

OpenNLP Sentence Detector (German)

OpenNLP Sentence Detector (Portuguese)

list

Συντακτική ανάλυση

Πρόκειται για τον χαρακτηρισμό της συντακτικής δομής ενός κειμένου σε επίπεδο πρότασης. Αυτό επιτυγχάνεται μέσω της παραγωγής δενδρικών αναπαραστάσεων για κάθε πρόταση, στις οποίες κάθε λέξη εμφανίζεται ως εξαρτώμενη από μια λέξη-κεφαλή και επισημειώνεται με μια ετικέτα δηλωτική της σχέσης της προς την κεφαλή (π.χ. υποκείμενο, αντικείμενο, κτλ.). Έτσι, στην πρόταση Οι αστρονόμοι ανακάλυψαν ένα νέο φεγγάρι αναγνωρίζεται, μεταξύ άλλων, ότι οι λέξεις αστρονόμοι και φεγγάρι αποτελούν το υποκείμενο και το αντικείμενο της λέξης ανακάλυψαν.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Dependency parser

robot

Αναγνώριση φραστικών συστατικών

Πρόκειται για τον εντοπισμό και την κατάτμηση ενός κειμένου σε ομάδες λέξεων, οι οποίες συνδέονται μεταξύ τους σε επίπεδο σύνταξης, όπως ονοματικές ομάδες ή ρηματικές ομάδες, χωρίς ωστόσο να προσδιορίζεται περαιτέρω η εσωτερική τους δομή ή ο συντακτικός ρόλος τους στην πρόταση.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

HNPChunker (Greek)

OpenNLP Chunker (English)

edit

Χειρωνακτική επισημείωση κειμένων

Η επισημείωση αποτελεί μια διαδικασία επεξεργασίας κειμένων, κατά την οποία προσαρτώνται ετικέτες (tags) σε λέξεις ή/και σύνολα λέξεων ενός κειμένου ή ενός σώματος κειμένων και η οποία μπορεί να γίνει τόσο σε πρωτογενή δεδομένα (raw data) όσο και σε κείμενο που έχει ήδη υποστεί κάποια επεξεργασία (όπως μία πρώτη επισημείωση). Η επισημείωση μπορεί να γίνει αυτόματα (βλ. όλα τα προηγούμενα εργαλεία και υπηρεσίες) αλλά και με το χέρι, από ανθρώπους επισημειωτές.

Διαθέσιμες πλατφόρμες συνεργατικής επισημείωσης

Hypothesis

WebAnno

Inception