Από την Ιαπωνία στο CLARIN:EL
Οι καλοκαιρινοί μήνες Ιούνιος, Ιούλιος και Αύγουστος είναι αφιερωμένοι στους πόρους που ανήκουν στην οικογένεια Tatoeba.
Η Trang Ho, προγραμματίστρια (front-end developer) και εμπνεύστρια της αρχικής ιδέας, ήθελε να βοηθήσει όσους προσπαθούν να μάθουν μία ξένη γλώσσα. Έφτιαξε, λοιπόν, μία βάση δεδομένων με προτάσεις σε διάφορες γλώσσες και μία μηχανή αναζήτησης. Ο χρήστης ψάχνει λέξεις ή φράσεις και ανακτά προτάσεις με παραδείγματα χρήσης και τις μεταφράσεις τους στις γλώσσες που έχει επιλέξει. Έδωσε στην βάση αυτή το όνομα tatoeba που σημαίνει για παράδειγμα στα ιαπωνικά!
Η ιδέα δεν είναι πρωτότυπη – ανάλογοι οδηγοί κυκλοφορούν εδώ και πολλά χρόνια, αρχικά έντυποι και πιο μετά ψηφιακοί. Η πρωτοτυπία σε αυτή την περίπτωση είναι ο συνεργατικός εμπλουτισμός του οδηγού. Η πρώτη βάση δεδομένων δημιουργήθηκε το 2006 και φιλοξενήθηκε στο SourceForge με την ονομασία "multilangdict". Έκτοτε, εμπλουτίζεται συνεχώς από τις εθελοντικές συνεισφορές χιλιάδων μελών, που προσθέτουν νέο υλικό στις υπάρχουσες γλώσσες, αλλά και μεταφράσεις των λέξεων και των φράσεων σε νέες γλώσσες.
Το σώμα κειμένων που έχει εξαχθεί από την βάση αυτή και φιλοξενείται στην Υποδομή CLARIN:EL είναι η έκδοση του 2015. Περιλαμβάνει 117 γλώσσες, από την αγγλική και την ελληνική μέχρι τη σκωτική γαελική (gaelic), και συνολικά περίπου 13 εκατομμύρια λεκτικές μονάδες. Η Υποδομή CLARIN:EL φιλοξενεί επίσης ανεξάρτητους πόρους που είναι υποσύνολα του σώματος αυτού, σε συνδυασμούς της αγγλικής, γερμανικής και πορτογαλικής με την ελληνική, σε δύο διαφορετικά μορφότυπα (TMX και Moses). Όλοι οι πόροι διατίθενται ελεύθερα μέσω του CLARIN:EL για ερευνητικούς σκοπούς με Άδεια Χρήσης CC-BY-NC-ND (Αναφορά δημιουργού, Μη Εμπορική Χρήση, Όχι Παράγωγα Έργα). Η μορφή αυτή δεν προσφέρεται για ανάγνωση από ανθρώπους-χρήστες – αποτελεί υλικό προς επεξεργασία από εργαλεία επεξεργασίας φυσικής γλώσσας. Όποιος ενδιαφέρεται, ωστόσο, μπορεί να δει το πολύγλωσσο αυτό υλικό μέσω της διαδικτυακής του διεπαφής.
Σήμερα η Tatoeba στην διαδικτυακή της μορφή περιλαμβάνει πάνω από 10 εκατομμύρια προτάσεις σε 417 γλώσσες (ακόμη και στην Klingon, τη γλώσσα του Star Trek!), ενώ καθημερινά προστίθενται νέα παραδείγματα. Από τον Απρίλιο του 2022, προστέθηκε και ηχητικό υλικό: σχεδόν 1 εκατομμύριο προτάσεις σε 38 γλώσσες συνοδεύονται και από ηχητικά αρχεία με ηχογραφήσεις των λέξεων και των φράσεων από φυσικούς ομιλητές, που δίνουν στους χρήστες τη σωστή προφορά.
Εάν επιθυμείτε μπορείτε και εσείς να συνεισφέρετε μεταφράζοντας ή προσθέτοντας νέες λέξεις και φράσεις!
Στην Προεπισκόπηση του πόρου (ακριβώς από κάτω) μπορείτε να δείτε ένα παράδειγμα μιας φράσης σε μορφότυπο XML, όπως διατίθεται για καταφόρτωση μέσω της Υποδομής CLARIN:EL, καθώς και την ίδια φράση όπως αυτή εμφανίζεται στην διαδικτυακή διεπαφή της Tatoeba συνοδευόμενη από τις διαθέσιμες μεταφράσεις της σε διάφορες γλώσσες.
Πληροφορίες για τον πόρο
Πορτογαλικά, Γερμανικά, Αγγλικά, Ελληνικά (+ 113 ακόμα γλώσσες)