Η Ερευνητική Υποδομή CLARIN:EL παρέχει εργαλεία και διαδικτυακές υπηρεσίες γλωσσικής επεξεργασίας. Στον Κεντρικό Κατάλογο CLARIN:EL ο χρήστης έχει τη δυνατότητα να ανακαλύψει και να χρησιμοποιήσει τις υπηρεσίες γλωσσικής επεξεργασίας, οι οποίες περιλαμβάνουν μεταξύ άλλων υπηρεσίες λεκτικής ανάλυσης, υπηρεσίες αναγνώρισης λέξεων, μερών του λόγου και ορίων προτάσεων, υπηρεσίες μορφολογικής και συντακτικής ανάλυσης, υπηρεσίες αναγνώρισης ονοματικών οντοτήτων (κυρίων ονομάτων), καθώς και πολλές ακόμα υπηρεσίες αναλυτικής κειμένου.
Οι υπηρεσίες και τα εργαλεία γλωσσικής επεξεργασίας λειτουργούν με τον εξής τρόπο: δέχονται ως είσοδο κείμενο (συμβατό με προδιαγραφές που περιγράφονται αναλυτικά), το επεξεργάζονται (ανάλογα με την αρμοδιότητά του το καθένα) και στην έξοδο βγάζουν το επεξεργασμένο αποτέλεσμα (επισημειωμένο κείμενο).
Η πρόσβαση στις διαδικτυακές υπηρεσίες γλωσσικής επεξεργασίας CLARIN:EL είναι ελεύθερη για όλη την ακαδημαϊκή και ερευνητική κοινότητα, τη βιομηχανία, αλλά και το ευρύ κοινό εφόσον ο χρήστης έχει προηγουμένως εγγραφεί στην Υποδομή CLARIN:EL. Περισσότερες πληροφορίες σχετικά με τη διαδικασία εγγραφής στην Υποδομή CLARIN:EL μπορείτε να βρείτε εδώ.
Υπηρεσίες & εργαλεία Γλωσσικής Επεξεργασίας CLARIN:EL
Τμηματοποίηση κειμένου
Πρόκειται για τη διαδικασία κατάτμησης ενός κειμένου σε λέξεις και φράσεις. Η τμηματοποίηση είναι, κατά μία έννοια, ένα είδος προ-επεξεργασίας που έχει ως στόχο την αναγνώριση βασικών στοιχείων ενός κειμένου, όπως προτάσεις, λέξεις, σημεία στίξης, αριθμοί, σύμβολα. Ορισμένα εργαλεία, ταυτόχρονα με τις λέξεις και τις φράσεις αναγνωρίζουν και τα όρια των προτάσεων ενός κειμένου, ενώ σε άλλες περιπτώσεις, διαφορετικά εργαλεία αναλαμβάνουν το έργο της αναγνώρισης προτάσεων (βλ. Διαχωρισμός προτάσεων).
Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες
Λημματοποίηση
Πρόκειται για τη σύνδεση κάθε επιμέρους γλωσσικού τύπου μίας λέξης με τη βασική της μορφή, δηλαδή με το λήμμα στο οποίο ανήκει. Για παράδειγμα, οι γλωσσικοί τύποι φεύγει, έφυγαν και φύγει συνδέονται αυτόματα με το λήμμα φεύγω.
Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες
Επισημείωση Μερών του Λόγου
Πρόκειται για τον χαρακτηρισμό κάθε γλωσσικού τύπου μίας πρότασης με βάση το μέρος του λόγου στο οποίο ανήκει (π.χ. ουσιαστικό, ρήμα, επίθετο, κλπ.), σύμφωνα με το συγκείμενο στο οποίο εντοπίζεται. Το αποτέλεσμα είναι η προσθήκη μίας ετικέτας (tag) με το μέρος του λόγου για κάθε γλωσσικό τύπο.
Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες
ILSP Feature-based multi-tiered PoS Tagger
OpenNLP Part-of-Speech Tagger (English)
Επισημείωση Ονοματικών Οντοτήτων
Χρησιμοποιείται σε διάφορες εφαρμογές εξαγωγής πληροφορίας από κείμενα, με στόχο την αυτόματη αναγνώριση και ταξινόμηση ονοματικών οντοτήτων (δηλ. κυρίων ονομάτων) σε κατηγορίες όπως Άτομο (π.χ. Κώστας, Παπαδοπούλου), Τοποθεσία (Πίνδος, Λονδίνο), Οργανισμός (Ο.Η.Ε.), Γεωπολιτική Οντότητα (Βρυξέλλες, με τη σημασία «έδρα της ΕΕ»), κλπ. Το αποτέλεσμα είναι η προσθήκη μίας ετικέτας (tag) με την αντίστοιχη κατηγορία για κάθε κύριο όνομα.
Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες
Διαχωρισμός προτάσεων
Πρόκειται για τη διαδικασία τμηματοποίησης ενός κειμένου σε προτάσεις. Συγκεκριμένα, τα εργαλεία αυτά εντοπίζουν τα όρια μίας πρότασης κάνοντας χρήση των σημείων στίξης και ανιχνεύοντας περαιτέρω το εάν αυτά συμβολίζουν το τέλος μίας πρότασης ή όχι.
Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες
ILSP Sentence splitter and Tokenizer for Greek
OpenNLP Sentence Detector (English)
Συντακτική ανάλυση
Πρόκειται για τον χαρακτηρισμό της συντακτικής δομής ενός κειμένου σε επίπεδο πρότασης. Αυτό επιτυγχάνεται μέσω της παραγωγής δενδρικών αναπαραστάσεων για κάθε πρόταση, στις οποίες κάθε λέξη εμφανίζεται ως εξαρτώμενη από μια λέξη-κεφαλή και επισημειώνεται με μια ετικέτα δηλωτική της σχέσης της προς την κεφαλή (π.χ. ρήμα - υποκείμενο, αντικείμενο, κτλ.). Έτσι, στην πρόταση Οι αστρονόμοι ανακάλυψαν ένα νέο φεγγάρι αναγνωρίζεται, μεταξύ άλλων, ότι οι λέξεις αστρονόμοι και φεγγάρι αποτελούν το υποκείμενο και το αντικείμενο της λέξης ανακάλυψαν.
Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες
Αναγνώριση φραστικών συστατικών
Πρόκειται για τον εντοπισμό και την κατάτμηση ενός κειμένου σε ομάδες λέξεων, οι οποίες συνδέονται μεταξύ τους σε επίπεδο σύνταξης, όπως ονοματικές ομάδες ή ρηματικές ομάδες, χωρίς ωστόσο να προσδιορίζεται περαιτέρω η εσωτερική τους δομή ή ο συντακτικός ρόλος τους στην πρόταση.
Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες
Χειρωνακτική & ημι-αυτόματη επισημείωση κειμένων
Η επισημείωση αποτελεί μια διαδικασία επεξεργασίας κειμένων, κατά την οποία προσαρτώνται ετικέτες (tags) σε λέξεις ή/και σύνολα λέξεων ενός κειμένου ή ενός σώματος κειμένων και η οποία μπορεί να γίνει τόσο σε πρωτογενή δεδομένα (raw data) όσο και σε κείμενο που έχει ήδη υποστεί κάποια επεξεργασία (όπως μία πρώτη επισημείωση). Η επισημείωση μπορεί να γίνει αυτόματα (βλ. όλα τα προηγούμενα εργαλεία και υπηρεσίες), με το χέρι, από ανθρώπους επισημειωτές (βλ. Hypothesis, WebAnno & Inception), αλλά και με υποβοήθηση από ημι-αυτόματες διαδικασίες που περιλαμβάνει το εργαλείο (βλ. WebAnno & Inception).
Διαθέσιμες πλατφόρμες συνεργατικής επισημείωσης
Ταξινόμηση κειμένου
Πρόκειται για τη διαδικασία ταξινόμησης κειμένων βάσει προκαθορισμένων κατηγοριών (π.χ. ετικετών/labels). Οι ταξινομητές κειμένου μπορούν να χρησιμοποιηθούν για την οργάνωση, τη διάρθρωση και την κατηγοριοποίηση σχεδόν κάθε είδους κειμένου - από έγγραφα, ειδησεογραφικά άρθρα, ιατρικές μελέτες και αρχεία. Για παράδειγμα, τα ειδησεογραφικά άρθρα μπορούν να οργανωθούν με βάση την θεματική τους κατηγορία (π.χ. οικονομία, κοινωνία, αθλητισμός, πολιτική κ.λπ.). Η ταξινόμηση κειμένου είναι μια από τις θεμελιώδεις εργασίες της ΕΦΓ, η οποία βασίζεται είτε σε τεχνικές μηχανικής μάθησης είτε/και σε τεχνικές βασισμένες σε κανόνες (rule-based) και χρησιμοποιείται σε ένα ευρύ φάσμα εφαρμογών, όπως η διάκριση θεματικών ενοτήτων, η ανάλυση συναισθήματος, η ανίχνευση ανεπιθύμητων μηνυμάτων και η ανίχνευση πρόθεσης.
Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες
Ανάλυση λεκτικής επιθετικότητας
Οι αναλυτές λεκτικής επιθετικότητας είναι εργαλεία γλωσσικής τεχνολογίας που πραγματοποιούν αυτόματο εντοπισμό και ταξινόμηση συγκεκριμένων τύπων λεκτικής επιθετικότητας (π.χ. κριτική, βρισιές, ειρωνεία, εκδίωξη, σωματική κακοποίηση κ.λπ.) που εκφράζονται εναντίον συγκεκριμένων στόχων.
Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες