Η Ερευνητική Υποδομή CLARIN:EL παρέχει εργαλεία και διαδικτυακές υπηρεσίες γλωσσικής επεξεργασίας. Στον Κεντρικό Κατάλογο CLARIN:EL ο χρήστης έχει τη δυνατότητα να ανακαλύψει και να χρησιμοποιήσει τις υπηρεσίες γλωσσικής επεξεργασίας, οι οποίες περιλαμβάνουν μεταξύ άλλων υπηρεσίες λεκτικής ανάλυσης, υπηρεσίες αναγνώρισης λέξεωνμερών του λόγου και ορίων προτάσεων, υπηρεσίες μορφολογικής και συντακτικής ανάλυσης, υπηρεσίες αναγνώρισης ονοματικών οντοτήτων (κυρίων ονομάτων), καθώς και πολλές ακόμα υπηρεσίες αναλυτικής κειμένου.

Οι υπηρεσίες και τα εργαλεία γλωσσικής επεξεργασίας λειτουργούν με τον εξής τρόπο: δέχονται ως είσοδο κείμενο (συμβατό με προδιαγραφές που περιγράφονται αναλυτικά), το επεξεργάζονται (ανάλογα με την αρμοδιότητά του το καθένα) και στην έξοδο βγάζουν το επεξεργασμένο αποτέλεσμα (επισημειωμένο κείμενο). 

Η πρόσβαση στις διαδικτυακές υπηρεσίες γλωσσικής επεξεργασίας CLARIN:EL είναι ελεύθερη για όλη την ακαδημαϊκή και ερευνητική κοινότητα, τη βιομηχανία, αλλά και το ευρύ κοινό εφόσον ο χρήστης έχει προηγουμένως εγγραφεί στην Υποδομή CLARIN:EL. Περισσότερες πληροφορίες σχετικά με τη διαδικασία εγγραφής στην Υποδομή CLARIN:EL μπορείτε να βρείτε εδώ.

 

Υπηρεσίες & εργαλεία Γλωσσικής Επεξεργασίας CLARIN:EL

swatchbook

Τμηματοποίηση κειμένου

Πρόκειται για τη διαδικασία κατάτμησης ενός κειμένου σε λέξεις και φράσεις. Η τμηματοποίηση είναι, κατά μία έννοια, ένα είδος προ-επεξεργασίας που έχει ως στόχο την αναγνώριση βασικών στοιχείων ενός κειμένου, όπως προτάσεις, λέξεις, σημεία στίξης, αριθμοί, σύμβολα. Ορισμένα εργαλεία, ταυτόχρονα με τις λέξεις και τις φράσεις αναγνωρίζουν και τα όρια των προτάσεων ενός κειμένου, ενώ σε άλλες περιπτώσεις, διαφορετικά εργαλεία αναλαμβάνουν το έργο της αναγνώρισης προτάσεων (βλ. Διαχωρισμός προτάσεων).

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Sentence splitter and Tokenizer for Greek

ILSP Neural NLP Toolkit

HTokenizer

OpenNLP Tokenizer (English)

OpenNLP Tokenizer (German)

OpenNLP Tokenizer (Portuguese)

boxes

Λημματοποίηση

Πρόκειται για τη σύνδεση κάθε επιμέρους γλωσσικού τύπου μίας λέξης με τη βασική της μορφή, δηλαδή με το λήμμα στο οποίο ανήκει. Για παράδειγμα, οι γλωσσικοί τύποι φεύγειέφυγαν και φύγει συνδέονται αυτόματα με το λήμμα φεύγω.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Lemmatizer

ILSP Neural NLP Toolkit

laptop

Επισημείωση Μερών του Λόγου

Πρόκειται για τον χαρακτηρισμό κάθε γλωσσικού τύπου μίας πρότασης με βάση το μέρος του λόγου στο οποίο ανήκει (π.χ. ουσιαστικό, ρήμα, επίθετο, κλπ.), σύμφωνα με το συγκείμενο στο οποίο εντοπίζεται. Το αποτέλεσμα είναι η προσθήκη μίας ετικέτας (tag) με το μέρος του λόγου για κάθε γλωσσικό τύπο.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Feature-based multi-tiered PoS Tagger

ILSP Neural NLP Toolkit

OpenNLP Part-of-Speech Tagger (English)

OpenNLP Part-of-Speech Tagger (German)

OpenNLP Part-of-Speech Tagger (Portuguese)

tag

Επισημείωση Ονοματικών Οντοτήτων

Χρησιμοποιείται σε διάφορες εφαρμογές εξαγωγής πληροφορίας από κείμενα, με στόχο την αυτόματη αναγνώριση και ταξινόμηση ονοματικών οντοτήτων (δηλ. κυρίων ονομάτων) σε κατηγορίες όπως Άτομο (π.χ. Κώστας, Παπαδοπούλου), Τοποθεσία (Πίνδος, Λονδίνο), Οργανισμός (Ο.Η.Ε.), Γεωπολιτική Οντότητα (Βρυξέλλες, με τη σημασία «έδρα της ΕΕ»), κλπ. Το αποτέλεσμα είναι η προσθήκη μίας ετικέτας (tag) με την αντίστοιχη κατηγορία για κάθε κύριο όνομα.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

GrNE-Tagger (Greek)

ILSP Neural NLP Toolkit

OpenNLP Name Finder (English)

magic

Διαχωρισμός προτάσεων

Πρόκειται για τη διαδικασία τμηματοποίησης ενός κειμένου σε προτάσεις. Συγκεκριμένα, τα εργαλεία αυτά εντοπίζουν τα όρια μίας πρότασης κάνοντας χρήση των σημείων στίξης και ανιχνεύοντας περαιτέρω το εάν αυτά συμβολίζουν το τέλος μίας πρότασης ή όχι.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Sentence splitter and Tokenizer for Greek

ILSP Neural NLP Toolkit

OpenNLP Sentence Detector (English)

OpenNLP Sentence Detector (German)

OpenNLP Sentence Detector (Portuguese)

list

Συντακτική ανάλυση

Πρόκειται για τον χαρακτηρισμό της συντακτικής δομής ενός κειμένου σε επίπεδο πρότασης. Αυτό επιτυγχάνεται μέσω της παραγωγής δενδρικών αναπαραστάσεων για κάθε πρόταση, στις οποίες κάθε λέξη εμφανίζεται ως εξαρτώμενη από μια λέξη-κεφαλή και επισημειώνεται με μια ετικέτα δηλωτική της σχέσης της προς την κεφαλή (π.χ. ρήμα - υποκείμενο, αντικείμενο, κτλ.). Έτσι, στην πρόταση Οι αστρονόμοι ανακάλυψαν ένα νέο φεγγάρι αναγνωρίζεται, μεταξύ άλλων, ότι οι λέξεις αστρονόμοι και φεγγάρι αποτελούν το υποκείμενο και το αντικείμενο της λέξης ανακάλυψαν.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Dependency parser

ILSP Neural NLP Toolkit

robot

Αναγνώριση φραστικών συστατικών

Πρόκειται για τον εντοπισμό και την κατάτμηση ενός κειμένου σε ομάδες λέξεων, οι οποίες συνδέονται μεταξύ τους σε επίπεδο σύνταξης, όπως ονοματικές ομάδες ή ρηματικές ομάδες, χωρίς ωστόσο να προσδιορίζεται περαιτέρω η εσωτερική τους δομή ή ο συντακτικός ρόλος τους στην πρόταση.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Neural NLP Toolkit

HNPChunker (Greek)

OpenNLP Chunker (English)

edit

Χειρωνακτική & ημι-αυτόματη επισημείωση κειμένων

Η επισημείωση αποτελεί μια διαδικασία επεξεργασίας κειμένων, κατά την οποία προσαρτώνται ετικέτες (tags) σε λέξεις ή/και σύνολα λέξεων ενός κειμένου ή ενός σώματος κειμένων και η οποία μπορεί να γίνει τόσο σε πρωτογενή δεδομένα (raw data) όσο και σε κείμενο που έχει ήδη υποστεί κάποια επεξεργασία (όπως μία πρώτη επισημείωση). Η επισημείωση μπορεί να γίνει αυτόματα (βλ. όλα τα προηγούμενα εργαλεία και υπηρεσίες), με το χέρι, από ανθρώπους επισημειωτές (βλ. Hypothesis, WebAnno & Inception), αλλά και με υποβοήθηση από ημι-αυτόματες διαδικασίες που περιλαμβάνει το εργαλείο (βλ. WebAnno & Inception).

Διαθέσιμες πλατφόρμες συνεργατικής επισημείωσης

Hypothesis

WebAnno

Inception

bars

Ταξινόμηση κειμένου

Πρόκειται για τη διαδικασία ταξινόμησης κειμένων βάσει προκαθορισμένων κατηγοριών (π.χ. ετικετών/labels). Οι ταξινομητές κειμένου μπορούν να χρησιμοποιηθούν για την οργάνωση, τη διάρθρωση και την κατηγοριοποίηση σχεδόν κάθε είδους κειμένου - από έγγραφα, ειδησεογραφικά άρθρα, ιατρικές μελέτες και αρχεία. Για παράδειγμα, τα ειδησεογραφικά άρθρα μπορούν να οργανωθούν με βάση την θεματική τους κατηγορία (π.χ. οικονομία, κοινωνία, αθλητισμός, πολιτική κ.λπ.). Η ταξινόμηση κειμένου είναι μια από τις θεμελιώδεις εργασίες της ΕΦΓ, η οποία βασίζεται είτε σε τεχνικές μηχανικής μάθησης είτε/και σε τεχνικές βασισμένες σε κανόνες (rule-based) και χρησιμοποιείται σε ένα ευρύ φάσμα εφαρμογών, όπως  η διάκριση θεματικών ενοτήτων, η ανάλυση συναισθήματος, η ανίχνευση ανεπιθύμητων μηνυμάτων και η ανίχνευση πρόθεσης.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

ILSP Neural NLP Toolkit

person-harassing

Ανάλυση λεκτικής επιθετικότητας

Οι αναλυτές λεκτικής επιθετικότητας είναι εργαλεία γλωσσικής τεχνολογίας που πραγματοποιούν αυτόματο εντοπισμό και ταξινόμηση συγκεκριμένων τύπων λεκτικής επιθετικότητας (π.χ. κριτική, βρισιές, ειρωνεία, εκδίωξη, σωματική κακοποίηση κ.λπ.) που εκφράζονται εναντίον συγκεκριμένων στόχων.

Διαθέσιμα εργαλεία & διαδικτυακές υπηρεσίες

Verbal Aggression Analysis on Greek Twitter

Twitter Verbal Aggression Analysis (English)

 

Μπορείτε να βρείτε πληροφορίες και αναλυτικές οδηγίες σχετικά με την επεξεργασία πόρων στην Υποδομή CLARIN:EL και στο ηλεκτρονικό εγχειρίδιο χρήσης του CLARIN:EL εδώ.

Δείτε επίσης: