Η δράση Me, my family & other resources της Υποδομής CLARIN:EL έχει ως στόχο την παρουσίαση ενός επιλεγμένου πόρου κάθε μήνα από τον Κεντρικό Κατάλογο CLARIN:EL. Παράλληλα με την παρουσίαση του συγκεκριμένου πόρου προβάλλονται και άλλοι πόροι της Υποδομής, οι οποίοι αποτελούν μακρινούς ή κοντινούς συγγενείς του, μέλη δηλαδή μιας οικογένειας με κοινό όνομα.
Οι οικογένειες αυτές διαμορφώνονται σύμφωνα με συγκεκριμένα κοινά χαρακτηριστικά που διαθέτουν οι πόροι (π.χ. θεματική περιοχή, είδος, μέσον, χρονική περίοδο, κτλ.) και μοιάζουν με τις ανθρώπινες, τα μέλη των οποίων μπορεί να ζουν ανεξάρτητα σε διάφορα σημεία του πλανήτη αλλά συναποτελούν έναν ενιαίο ιστό διατηρώντας το καθένα την αυτονομία του και τα ιδιαίτερα χαρακτηριστικά του.
Πού γεννήθηκαν λοιπόν αυτοί οι πόροι και πώς έφτασαν στο CLARIN:EL; Σε ποια οικογένεια θα μπορούσαν να ενταχθούν; Υπάρχουν άλλα μέλη της ίδιας οικογένειας στην Υποδομή CLARIN:EL και στην Ευρωπαϊκή Υποδομή CLARIN ERIC;
Μείνετε συντονισμένοι και ανακαλύψτε κάθε μήνα έναν διαφορετικό πόρο, την οικογένειά του και τους στενούς, ή ίσως όχι και τόσο, συγγενείς του!
Από τις αρχές του εικοστού αιώνα στο CLARIN:EL
Με αφορμή την Παγκόσμια Ημέρα Ελληνικής Γλώσσας (9 Φεβρουαρίου) ο μήνας αυτός αφιερώνεται στους πόρους που φιλοξενούνται στην Υποδομή CLARIN:EL και συγκροτούν την Οικογένεια Σώματα Κειμένων για την Ελληνική.
Ο Διονύσης Γούτσος, Καθηγητής Κειμενογλωσσολογίας στον Τομέα Γλωσσολογίας του Τμήματος Φιλολογίας του Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών, μιλά για τον πόρο Διαχρονικό σώμα ελληνικών κειμένων του 20ού αιώνα.
"Το Διαχρονικό Σώμα Ελληνικών Κειμένων του 20ού αιώνα περιλαμβάνει γλωσσικά δεδομένα από τις εννέα πρώτες δεκαετίες του εικοστού αιώνα (1900-1989). (Για τις δεκαετίες 1990-2010 διαθέσιμο είναι το Σώμα Ελληνικών Κειμένων). Δημιουργήθηκε στο πλαίσιο προγράμματος, που χρηματοδοτήθηκε από την πράξη ΑΡΙΣΤΕΙΑ (Ευρωπαϊκό Κοινωνικό Ταμείο και Γενική Γραμματεία Έρευνας και Τεχνολογίας).
Το σώμα κειμένων περιλαμβάνει περίπου 3.000 κείμενα, συνολικά 4 εκατομμυρίων λέξεων περίπου, από το σύνολο των εννέα δεκαετιών του 20ού αιώνα και ένα πλήθος κειμενικών ειδών: κινηματογραφικά επίκαιρα, ακαδημαϊκές και κοινοβουλευτικές ομιλίες, διαλόγους κινηματογραφικών ταινιών, λογοτεχνία (μυθιστόρημα, διήγημα, ποίηση, θεατρικά έργα, στίχους τραγουδιών κ.ά.), ακαδημαϊκά κείμενα από διάφορους επιστημονικούς τομείς, κείμενα νομοθεσίας και διοίκησης, ιδιωτικές επιστολές κ.ά. Στην ιστοσελίδα του σώματος κειμένων παρέχεται πρόσβαση σε όσα δεδομένα έχουν υποστεί πλήρη επεξεργασία (κυρίως ακαδημαϊκά κείμενα), ενώ περισσότερα κείμενα προστίθενται συνεχώς.
Η συστηματική μελέτη της γλώσσας στηρίζεται πλέον σε μεγάλες συλλογές γλωσσικού υλικού που να επιτρέπουν στους ερευνητές να εξετάζουν έναν σημαντικό όγκο στοιχείων έτσι ώστε να προκύπτουν με σχετικά ασφαλή τρόπο χρήσιμες γενικεύσεις για τη γλώσσα, αλλά και για άλλα, πολιτισμικά λ.χ. φαινόμενα της εποχής που μελετάται. Τα σώματα κειμένων μάς επιτρέπουν να εξαγάγουμε πληροφορίες για τη γλώσσα από δεδομένα που είναι:
- εμπειρικά: δεν βασίζονται σε εικασίες ή στη γλωσσική διαίσθηση, αλλά στην πραγματικότητα επικοινωνιακών αλληλεπιδράσεων μέσω της γλώσσας
- συστηματικά: έχουν συλλεγεί με βάση συγκεκριμένα κριτήρια και αρχές, και όχι με τυχαίο ή αποσπασματικό τρόπο
- αυθεντικά: δεν προέρχονται από πειραματικές ή άλλες τεχνητές συνθήκες, αλλά από την αυθόρμητη φυσική παραγωγή λόγου των ομιλητών μιας γλώσσας
- κειμενικά: περιλαμβάνουν ολόκληρα κείμενα ή τμήματα κειμένων και δεν περιορίζονται σε μεμονωμένες λέξεις ή προτάσεις
- εκτεταμένα: διαθέτουν μεγάλο όγκο και δεν περιορίζονται σε λίγα παραδείγματα.
Τα σώματα κειμένων χρησιμοποιούνται πλέον σε διάφορες εφαρμογές από τη λεξικογραφία έως τις ψηφιακές ανθρωπιστικές σπουδές, καθώς και στην ανάπτυξη υλικού για τη γλωσσική διδασκαλία, στη μελέτη των μαθητικών γραπτών, στη διδακτική πρακτική κ.ά., αλλά και από απλούς ομιλητές μιας γλώσσας που έχουν την περιέργεια να εξερευνήσουν τη γλώσσα τους. Για παράδειγμα, εκπαιδευτικοί μπορούν να χρησιμοποιήσουν σώματα κειμένων για να αναζητήσουν αυθεντικό υλικό για τη διδασκαλία ενός γλωσσικού στοιχείου ή για να ελέγξουν έτοιμο διδακτικό υλικό.
Ενώ στη δεκαετία του 1990 εμφανίζονται τα πρώτα εξελιγμένα διαχρονικά σώματα κειμένων στα αγγλικά (FLOB και Frown), η δεκαετία αυτή είναι εκείνη στην οποία εμφανίζονται τα δύο μεγάλα συγχρονικά σώματα κειμένων στα ελληνικά, δηλαδή ο Εθνικός Θησαυρός της Ελληνικής Γλώσσας (ΕΘΕΓ) και το Σώμα Ελληνικών Κειμένων (ΣΕΚ). Από τότε έχουν αναπτυχθεί ειδικευμένα σώματα κειμένων όπως της Πύλης για την Ελληνική Γλώσσα ή το Corpus Προφορικού Λόγου του Ινστιτούτου Νεοελληνικών Σπουδών, αλλά και διαχρονικές συλλογές κυρίως λογοτεχνικών κειμένων όπως ο ΠΟΘΕΓ (1774-2000) ή το Σπουδαστήριο Νέου Ελληνισμού κ.ά. Σε αντίθεση, ωστόσο, με άλλες γλώσσες, όπως τα αγγλικά για τα οποία δημιουργήθηκαν τα Corpus of Historical American English (COHA), το LOB και το British National Corpus (BNC), για την ελληνική γλώσσα δεν έχουν αναπτυχθεί μεγάλα διαχρονικά σώματα κειμένων, παρόλο που είναι μια γλώσσα με τόσο μεγάλη γραπτή και προφορική ιστορία.
Οι πρώτες ερευνητικές προσπάθειες στο Διαχρονικό Σώμα ελληνικών κειμένων του 20ού αιώνα προσφέρουν πολύτιμα στοιχεία για μια επισκόπηση της ιστορίας της γλώσσας μας. Για παράδειγμα, δείχνουν ότι η εικόνα που έχουμε για την αντίθεση μεταξύ καθαρεύουσας και δημοτικής είναι αρκετά απλουστευτική και πρέπει να διακρίνουμε ανάμεσα σε συντηρητικά, αφενός και καινοτόμα, αφετέρου κειμενικά είδη (λ.χ. ακαδημαϊκά κείμενα και λογοτεχνία, αντίστοιχα), που τοποθετούνται σε έναν από τους δύο πόλους της κοινωνικής διγλωσσίας, αλλά και κειμενικά είδη που είτε παρουσιάζουν ελάχιστη ποικιλία (διάλογοι κινηματογραφικών ταινιών) από τη μία, είτε εμφανίζουν μεγάλο εύρος ποικιλίας (επιστολές), από την άλλη. Επομένως, δεν μπορούμε να κάνουμε λόγο για ένα απόλυτο δίπολο καθαρεύουσας-δημοτικής στις γλωσσικές πρακτικές των ομιλητών, όπως αυτό που διαπιστώνουμε στις αντιλήψεις τους για τη γλώσσα. Ωστόσο, πολλά μένουν ακόμα να μελετηθούν: η εμφάνιση και επικράτηση νέων λέξεων («στοχεύω» έναντι «σκοπεύω»), ή αντίστροφα η εξαφάνιση παλαιότερων τύπων («διά»), καθώς και ποικίλες μεταβολές στα γλωσσικά μέσα αξιολόγησης, πώς τα «έκτακτα» ή «περίφημα» δίνουν τη θέση τους στα «υπέροχα» και «τέλεια», ή πώς γίνεται το πέρασμα από τον «κλασικό πολιτισμό» στην «κλασική περίπτωση φοβίας».
Τέλος, η εικόνα για τη συναρπαστική ιστορία της γλώσσας μας θα μένει λειψή όσο δεν προχωρούμε ακόμη πιο πίσω λ.χ. στον 19ο και 18ο αιώνα –γιατί όχι και στον 17ο και 16ο αιώνα;– και δεν συνδέουμε τις μεγάλες ιστορικές φάσεις της ελληνικής (αρχαία ελληνικά, μεσαιωνικά ελληνικά, κοινή νεοελληνική) μεταξύ τους με ένα «μεγασώμα» κειμένων που θα διαφωτίζει την μακραίωνη προφορική και γραπτή ιστορία της γλώσσας μας."
Διονύσης Γούτσος
Καθηγητής Κειμενογλωσσολογίας, Τομέας Γλωσσολογίας, Τμήμα Φιλολογίας, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πληροφορίες για τον πόρο
Ελληνικά
Προεπισκόπηση του πόρου
Η δράση Me, my family & other resources στηρίζεται στην ιδέα της πρωτοβουλίας Resource Families της Ευρωπαϊκής Υποδομής CLARIN ERIC, στην οποία συμμετέχει ενεργά η Υποδομή CLARIN:EL έχοντας συνεισφέρει μέχρι σήμερα ένα μεγάλο αριθμό πόρων συνολικά για όλες τις Οικογένειες πόρων του CLARIN ERIC.