αρχεία συνεδριάσεων της Βουλής, λεξικά και γλωσσάρια, μαθητικά τεστ, διδακτικά και επιστημονικά κείμενα στα αποθετήρια του clarin:el

Ένας πολύτιμος θησαυρός γλωσσικών δεδομένων (κείμενα, λεξικά και γλωσσικά εργαλεία) είναι διαθέσιμος σήμερα μέσα από τα 6 αποθετήρια του δικτύου clarin:el. Ένα πολύγλωσσο γλωσσάριο για την ελληνική κρίση, εκπαιδευτικά κείμενα, οι συνεδριάσεις του Ελληνικού Κοινοβουλίου (2011-2015), το Ελληνικό Σώμα Κειμένων Μαθητών και το Αρχείο Μπαμπινιώτη είναι μόνο μερικοί από τους 400 και πλέον γλωσσικούς πόρους που έχουν κατατεθεί στα αποθετήρια του clarin:el και είναι διαθέσιμοι για κατέβασμα και επεξεργασία από επιστήμονες, μελετητές, δημιουργούς ψηφιακών εφαρμογών και κάθε άλλον ενδιαφερόμενο. 

Τα μέλη του clarin:el (πρόκειται για το ελληνικό σκέλος της πανευρωπαϊκής ερευνητικής υποδομής CLARIN που αριθμεί περισσότερα από 130 μέλη από 18 χώρες) διατηρούν ξεχωριστά αλλά διασυνδεδεμένα αποθετήρια και καλούν τους ερευνητές τους να διαμοιραστούν τους γλωσσικούς πόρους που διαθέτουν. Η άμεση ανταπόκριση της ερευνητικής κοινότητας σήμερα αποτελεί ένδειξη της δυναμικής του δικτύου, το οποίο εμπλουτίζεται σε διαρκή βάση. 

Το Εθνικό Καποδιστριακό Πανεπιστήμιο Αθηνών, το Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, το Πανεπιστήμιο Αιγαίου, το Ιόνιο Πανεπιστήμιο και το Κέντρο Ελληνικής Γλώσσας είναι  οι φορείς που συμμετέχουν σήμερα στο δίκτυο και διατηρούν ιδρυματικά αποθετήρια τα οποία εμπλουτίζουν με γλωσσικούς πόρους και δεδομένα. 

Τι μπορεί να βρει όμως ο ερευνητής στο clarin:el;

Περισσότεροι από 436 γλωσσικοί πόροι και 35 γλωσσικά εργαλεία φιλοξενούνται σήμερα στο clarin:el και καλύπτουν ένα εύρος επιστημονικών πεδίων και αντικειμένων. 

Το "Αρχείο Μπαμπινιώτη” που περιλαμβάνει τις γραπτές μεταγραφές αυθεντικών καθημερινών συνομιλιών μεταξύ φοιτητών του Τομέα Γλωσσολογίας που πραγματοποιήθηκαν μεταξύ 2001 και 2006, ξεχωρίζει στο αποθετήριο του ΕΚΠΑ.

Στο αποθετήριο του Ιονίου Πανεπιστημίου, ο χρήστης θα βρει μεταξύ άλλων ένα πολύγλωσσο γλωσσάριο με θέμα την ελληνική κρίση. Το γλωσσάρι που περιλαμβάνει 820 λήμματα σε διάφορες γλώσσες, επικαιροποιείται συστηματικά και αποτελεί ένα πολύτιμο εργαλείο για τους ερευνητές του αντικειμένου.

Ιδιαίτερα σημαντικό είναι και το Σώμα κειμένων των διδακτικών βιβλίων του Παιδαγωγικού Ινστιτούτου που έχει προσθέσει το Κέντρο Ελληνικής Γλώσσας. Το σώμα κειμένων περιλαμβάνει  2 εκατομμύρια λεκτικούς τύπους. 

Στο ιδρυματικό αποθετήριο του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, θα βρει κανείς το Ελληνικό Σώμα Κειμένων Μαθητών (ΕΣΚΕΙΜΑΘ), ένα σώμα κειμένων που βασίζεται στις γραπτές παραγωγές κατατακτήριων τεστ.  

Το πλούσιο γλωσσικό υλικό από τις συνεδριάσεις του Ελληνικού Κοινοβουλίου (2011-2015) είναι διαθέσιμο από το ιδρυματικό αποθετήριο του Πανεπιστημίου Αιγαίου. 

Στο Αποθετήριο του ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ βρίσκει κανείς, μεταξύ άλλων, το εργαλείο παραγωγής περίληψης κειμένων, το οποίο συνδυάζει δεδομένα από πολλά κείμενα και βασίζεται σε μεθόδους εξόρυξης πληροφορίας για να παραγάγει την περίληψη ενός κειμένου. 

Τέλος, το Ερευνητικό Κέντρο «Αθηνά» -που είναι και ο φορέας-συντονιστής του δικτύου- διαθέτει ανάμεσα σε άλλα, και το Σώμα Κειμένων «Ορόσημο», σώμα κειμένων ακαδημαϊκού λόγου από 12 διαφορετικούς γνωστικούς τομείς (σε ενιαία μορφή αλλά και ανά γνωστικό τομέα). Άμεσα πρόκειται να  διατεθούν και οι όροι που περιλαμβάνονται στα κείμενα αυτά.  Ως προς τα διαθέσιμες υπηρεσίες γλωσσικής επεξεργασίας, μπορεί κανείς να βρει, για παράδειγμα, τον μετρητή της συχνότητας εμφάνισης λέξεων σε κείμενα ή το εργαλείο εξαγωγής ορολογίας, το οποίο εντοπίζει όρους σε κείμενα και παράγει τον κατάλογο όρων των συγκεκριμένων κειμένων.

Γλωσσικούς πόρους μπορούν να συνεισφέρουν και ιδιώτες, χρησιμοποιώντας το Αποθετήριο Φιλοξενούμενων Πόρων για να καταθέσουν το αρχείο τους. 

Η επέκταση της κοινότητας διαμοιρασμού γλωσσικών πόρων και η διασύνδεση της υποδομής αυτής με άλλες Ευρωπαϊκές ερευνητικές υποδομές, είναι το άμεσο μέλημα του δικτύου clarin:el, που πλέον καλύπτει την έλλειψη ενός κεντρικού σημείου απόθεσης ποιοτικών γλωσσικών πόρων για την ελληνική γλώσσα.