Τι προτιμούμε να λέμε στα ελληνικά: αφορά κάτι ή αφορά σε κάτι; Είναι ο ασκός ή οι ασκοί του Αιόλου; Γράφουμε αυγό ή αβγό; Υπάρχουν οι τύποι αρκώ ή αρκούμουν; Είναι θετικό να πεις υπό το μανδύα του; Λέμε θεσμικό πλαίσιο και χωροχρονικά πλαίσια ή το αντίθετο;

Ο Διονύσης Γούτσος, Καθηγητής Κειμενογλωσσολογίας στο Τμήμα Φιλολογίας του Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών και Επιστημονικός Υπεύθυνος του Αποθετηρίου του ΕΚΠΑ στην Ερευνητική Υποδομή Γλωσσικών Πόρων και Τεχνολογιών CLARIN:EL, σε άρθρο του στην Ενότητα DH t(r)ip στο Νήμα μιλάει για τα Σώματα κειμένων και τη χρήση αυτών στις Ψηφιακές Ανθρωπιστικές Επιστήμες. 

Σύμφωνα με τον Καθηγητή, το να προσφύγει κανείς στην αυθεντία λ.χ. ενός λεξικού, μιας γραμματικής ή ενός καθηγητή γλωσσολογίας προκειμένου να απαντήσει στα παραπάνω ερωτήματα, μπορεί να μας δώσει μια απάντηση για το τι «πρέπει» να λέει κανείς, αλλά δεν απαντά στο τι πραγματικά λένε ή γράφουν οι ομιλητές της ελληνικής. Μια συστηματική μέθοδος της γλωσσολογίας, που έχει κυριαρχήσει σε όλα τα πεδία της τα τελευταία χρόνια, είναι η χρήση σωμάτων κειμένων. Τα σώματα κειμένων αποτελούν, πολύ μεγάλες συνήθως, συλλογές γλωσσικού υλικού, αποθηκευμένου σε ηλεκτρονική μορφή και επιλεγμένου με προσεκτικό τρόπο ώστε να προσφέρει χρήσιμα στοιχεία για να απαντηθούν γλωσσολογικά ερωτήματα. Το γλωσσικό υλικό στα σώματα κειμένων προέρχεται από προφορικά και γραπτά κείμενα, από διαφορετικά κειμενικά είδη, και μπορεί να φτάσει σε μέγεθος πολλά εκατομμύρια ή και δισεκατομμύρια λέξεις.

Για τα ελληνικά έχουν αναπτυχθεί διάφορα σώματα κειμένων στα οποία μπορεί να αναζητήσει κανείς την πραγματική χρήση λέξεων και φράσεων με πιο γνωστά τον Εθνικό Θησαυρό Ελληνικής Γλώσσας (ΕΘΕΓ) και το Σώμα Ελληνικών Κειμένων (ΣΕΚ), που διαθέτει ένα πλήθος κειμένων από προφορικά και γραπτά είδη λόγου. Υπάρχουν επίσης εξειδικευμένα σώματα κειμένων όπως το Προφορικό Σώμα Κειμένων του Ινστιτούτου Νεοελληνικών Σπουδών ή το Σώμα Κειμένων Ελληνικού Αφασικού Λόγου, που περιλαμβάνει δεδομένα από αφασικούς ομιλητές. Ιδιαίτερα χρήσιμα για τους μεταφραστές είναι τα παράλληλα σώματα κειμένων· ένα ειδικά σχεδιασμένο παράλληλο σώμα κειμένων με ελληνικά και γαλλικά κείμενα είναι το παράλληλο σώμα λογοτεχνικών κειμένων FREL του ΑΠΘ, που περιλαμβάνει λογοτεχνικά βιβλία στα γαλλικά και τις μεταφράσεις τους στα ελληνικά. Για όσους ενδιαφέρονται να μελετήσουν την ιστορία των λέξεων και των φράσεων σημαντικά είναι τα διαχρονικά σώματα κειμένων, όπως το Διαχρονικό Σώμα Ελληνικών Κειμένων του 20ού αιώνα. Η Εθνική Υποδομή Γλωσσικών Πόρων & Τεχνολογιών CLARIN:EL αποτελεί την καλύτερη αφετηρία για να εξερευνήσει κανείς τα ελληνικά σώματα κειμένων.

Για άλλες γλώσσες υπάρχουν ήδη πολυάριθμα τεράστια σώματα κειμένων με μεγάλη ποικιλία κειμενικών ειδών. Για παράδειγμα, στην ιστοσελίδα του Mark Davies, περιλαμβάνονται, μεταξύ άλλων, εκτός από τα διαχρονικά Corpus of Historical American English (COHA) και TIME Magazine Corpus, το συγχρονικό Corpus of Contemporary American English (COCA) και τα πρόσφατα Global Web-Based English (GloWbE) και Wikipedia Corpus με δεδομένα από τον παγκόσμιο ιστό και μέγεθος δισεκατομμύρια λέξεις το καθένα. Για τα γαλλικά σημαντικό είναι τα σώμα κειμένων Artfl-Frantext, για τα γερμανικά τα Mannheimer Corpora, για τα ιταλικά το Perugia corpus κ.ά.

Τα σώματα κειμένων δεν είναι αρχεία ή βιβλιοθήκες κειμένων, ηλεκτρονικές βάσεις δεδομένων ή απλές συλλογές γλωσσικού υλικού: έχουν δημιουργηθεί σύμφωνα με ρητές γλωσσολογικές αρχές και περιλαμβάνουν επεξεργάσιμα δεδομένα μαζί με τα μεταδεδομένα τους, που είναι χρήσιμα για κάθε είδους γλωσσική έρευνα. Ωστόσο, ο παγκόσμιος ιστός θα μπορούσε να θεωρηθεί ως ένα ιδιότυπο σώμα κειμένων λόγω του τεράστιου μεγέθους του και των έτοιμων μηχανών αναζήτησης, όπως λ.χ. η Google, αρκεί να λαμβάνονται υπόψη οι εγγενείς περιορισμοί του. Ειδικές εφαρμογές έχουν αναπτυχθεί επίσης για τεράστιες συλλογές που είναι διαθέσιμες στο διαδίκτυο όπως ο Ngram Viewer των Google Books, στις οποίες μπορεί κανείς να αναζητήσει τη συχνότητα λέξεων και φράσεων στα αγγλικά, αλλά και στα ελληνικά, σε μια περίοδο από το 1800 έως σήμερα.

Το άρθρο δημοσιεύθηκε στο Νήμα και συγκεκριμένα στην Ενότητα DH t(r)ip, έναν χώρο διαλόγου για τις Ψηφιακές Ανθρωπιστικές Σπουδές στον οποίο συμμετέχουν ερευνητές από όλο το φάσμα των ανθρωπιστικών επιστημών, με κοινό ενδιαφέρον τη συνάντηση της ψηφιακής τεχνολογίας με τις ανθρωπιστικές επιστήμες.