προετοιμασία & τεκμηρίωση πόρων

Στην υποδομή clarin:el μπορείτε να καταθέσετε ψηφιακούς Γλωσσικούς Πόρους (ΓΠ) που ενσωματώνουν ή επεξεργάζονται περιεχόμενο σε οποιουδήποτε είδους μέσο (κείμενο, ήχο, βίντεο, εικόνα), όπως κειμενικά και πολυμεσικά σώματα (corpora), υπολογιστικά λεξικά, ορολογικά γλωσσάρια, ψηφιακό περιεχόμενο που μπορεί να αξιοποιηθεί για έρευνα, καθώς και εργαλεία και τεχνολογίες γλωσσικής επεξεργασίας.

Για να διαμοιραστείτε τους ΓΠ μέσω της υποδομής clarin:el, πρέπει να έχετε εγγραφεί ως πάροχος ΓΠ ακολουθώντας την διαδικασία που περιγράφεται εδώ.

Οι ΓΠ που διατίθενται μέσω της υποδομής πρέπει να τηρούν τις ακόλουθες ελάχιστες προδιαγραφές που έχουν στόχο να βελτιώσουν την πρόσβασιμότητά τους:

  • να έχουν τεκμηριωθεί με το μοντέλο τεκμηρίωσης που έχει επιλέξει η υποδομή, δηλαδή το μοντέλο META-SHARE (και συγκεκριμένα την έκδοση 3.0.2)
  • να έχουν περιγραφεί με σαφήνεια οι όροι αδειοδότησης με τους οποίους θα διατίθενται στους χρήστες (περισσότερες πληροφορίες μπορείτε να βρείτε στην ενότητα αδειοδότηση πόρων).

​Επίσης, συνιστάται να ακολουθήσετε τα πρότυπα και τεχνικές συστάσεις που προτείνει το δίκτυο clarin:el για να εξασφαλίσετε τη διαλειτουργικότητα των ΓΠ.

 

 

 

 

 

το μοντέλο τεκμηρίωσης

γενικά

Το μοντέλο τεκμηρίωσης META-SHARE έχει στόχο να περιγράψει Γλωσσικούς Πόρους (ΓΠ), δηλαδή σύνολα δεδομένων (όπως κειμενικά, πολυτροπικά/πολυμεσικά και λεξικά δεδομένα, γραμματικές, γλωσσικά μοντέλα κτλ.) και τα εργαλεία/τεχνολογίες/υπηρεσίες που χρησιμοποιούνται για την επεξεργασία τους. Το META-SHARE σχεδιάστηκε για να καλύψει τις ανάγκες τεκμηρίωσης, εντοπισμού, διαμοιρασμού και ανταλλαγής Γλωσσικών Πόρων και Τεχνολογιών (ΓΠΤ).

 

Example: Identification component

Οι βασικές αρχές του μοντέλου εμπνέονται από το Component MetaData Infrastructure (CMDI), που παρέχει ένα πλαίσιο περιγραφής και επαναχρησιμοποίησης έτοιμων υποσυνόλων μεταδεδομένων. Στοιχεία (γνωστά και ως κατηγορίες δεδομένων, τα οποία κωδικοποιούν ιδιότητες) που είναι σημασιολογικά συναφή ομαδοποιούνται σε συστατικά, τα οποία με τη σειρά τους μπορούν επίσης να ομαδοποιηθούν σε έτοιμα προκατασκευασμένα προφίλ για την περιγραφή/τεκμηρίωση συγκεκριμένης κατηγορίας ΓΠ. Με στόχο την προώθηση της επαναχρησιμοποίησης, το CLARIN συντηρεί το Μητρώο Συστατικών (Component Registry), όπου οι χρήστες μπορούν να αποθηκεύουν και να διαμοιράζονται συστατικά και προφίλ. Επίσης, μπορούν να συνδέουν στοιχεία και συστατικά που είναι σημασιολογικά παρόμοια με άλλα στοιχεία και συστατικά μέσω του ISOcat Data Category Registry (DCR).

 

Η κεντρική οντότητα στην οντολογία META-SHARE είναι ο Γλωσσικός Πόρος, ο οποίος συνδέεται με άλλες περιφερειακές οντότητες μέσω σχέσεων (που κωδικοποιούνται με τη μορφή στοιχείων). Η σύνδεση του ΓΠ με τις περιφερειακές οντότητες επιτρέπει την αναπαράσταση του πλήρους κύκλου ζωής ενός ΓΠ, από τη στιγμή που δημιουργείται μέχρι τη χρήση του. Περιφερειακές οντότητες είναι, ενδεικτικά, τα κείμενα αναφοράς που σχετίζονται με τον ΓΠ (άρθρα, αναφορές, εγχειρίδια χρήσης κτλ.), άτομα και οργανισμοί που συμμετείχαν στη δημιουργία και χρήση των πόρων (δημιουργοί, διαθέτες κτλ.), σχετικά έργα και δραστηριότητες (έργα χρηματοδότησης, δράσεις χρήσης κτλ.), οι άδειες χρήσης κτλ.

 

META-SHARE ontology

Οι ΓΠ ταξινομούνται σε δύο βασικούς άξονες: είδος πόρου και είδος μέσου (δηλαδή με βάση το μέσο στο οποίο έχει υλοποιηθεί ο ΓΠ).

Κάθε ΓΠ ανήκει σε ένα από τα ακόλουθα είδη πόρων:

  • σώμα (corpus - όπως γραπτά και προφορικά σώματα κειμένων, πολυμεσικά και πολυτροπικά σώματα),
  • λεξικός/εννοιολογικός πόρος (lexical/conceptual resource - όπως λεξικά, λίστες λέξεων, σημασιολογικά λεξικά, ορολογικά γλωσσάρια, οντολογίες κτλ.),
  • περιγραφή γλώσσας (language description - όπως γραμματικές, τυπολογικές βάσεις δεδομένων, γλωσσικά μοντέλα κτλ.),
  • εργαλείο/υπηρεσία (tool/service - όπως εργαλεία, εφαρμογές και διαδικτυακές υπηρεσίες επεξεργασίας πόρων δεδομένων).

αλλά μπορεί πάρει περισσότερες από μία τιμές για το είδος μέσου (mediaType), καθώς οι ΓΠ μπορούν να αποτελούνται από συστατικά μέρη τα οποία ανήκουν σε διαφορετικά είδη μέσου: για παράδειγμα, ένα πολυμεσικό σώμα μπορεί να περιλαμβάνει ένα μέρος σε βίντεο, ένα μέρος σε ήχο (τους διαλόγους) και ένα κειμενικό μέρος (τους υπότιτλους ή/και τη μεταγραφή των διαλόγων). Οι τιμές του είδους μέσου (mediaType) είναι: text, audio, video, image, textNumerical και textNgram.

 

Schematic overview of the full META-SHARE model

Το μοντέλο έχει ως πυρήνα το συστατικό resourceInfo, το οποίο περιέχει όλες τις πληροφορίες που απαιτούνται για την περιγραφή ενός πόρου και περικλείει συστατικά που μπορούν να συνδυαστούν μεταξύ τους:

  • διαχειριστικά συστατικά, που είναι κοινά για όλους τους ΓΠ και παρέχουν πληροφορία για τα διάφορα στάδια του κύκλου ζωής του πόρου, όπως για τη δημιουργία, την αξιολόγηση, τη χρήση, τη διάθεση κτλ. Components relevant to text corpora
  • συστατικά που διαφέρουν ανάλογα με τον συνδυασμό του resourceType και του mediaType, όπως είναι οι πληροφορίες εγγραφής για πόρους ήχου, βίντεο και εικόνας, επισημείωσης για σώματα κτλ.

 

 

Για να επιτευχθεί κατά το δυνατόν η απαραίτητη ευελιξία κατά την τεκμηρίωση ενός ΓΠ, το μοντέλο διακρίνει δύο επίπεδα περιγραφής:

  • στο πρώτο επίπεδο εντάσσονται τα στοιχεία που κρίνονται απαραίτητα για την περιγραφή και ταυτοποίηση ενός πόρου (βασικό σχήμα), όπως τα στοιχεία ταυτότητας (όνομα πόρου, σύντομη περιγραφή σε ελεύθερο κείμενο), όροι και προϋποθέσεις αδειοδότησης, στοιχεία επικοινωνίας, μέγεθος και γλώσσα/ες περιεχομένου κτλ. 
  • στο δεύτερο επίπεδο (πλήρες σχήμα) περιλαμβάνονται στοιχεία που επιτρέπουν μια πιο λεπτομερή περιγραφή των ΓΠ σε όλα τα στάδια παραγωγής και χρήσης.

 

υλοποίηση

XML/XSD

Το μοντέλο META-SHARE έχει υλοποιηθεί με τη μορφή σχήματος XML/XSD, το οποίο και χρησιμοποιείται ως βάση για την πλατφόρμα clarin:el (που χρησιμοποιείται για την τεκμηρίωση και αναζήτηση πόρων). Η έκδοση 3.0.2, που χρησιμοποιείται για το clarin:el, είναι διαθέσιμη στο: http://inventory.clarin.gr/META-XMLSchema/v3.0.2/

CMDI

Τα CMDI/META-SHARE προφίλ που είναι συμβατά με την έκδοση 3.0 του META-SHARE βρίσκονται στο Μητρώο Συστατικών του CLARIN (σύντομα θα διατεθούν και για την έκδ. 3.0.2):

Περισσότερες πληροφορίες για τη διαδικασία και τα εργαλεία μετατροπής μεταξύ των εγγραφών μεταδεδομένων META-SHARE XML και των εγγραφών που δημιουργούνται με τα προφίλ CMDI/META-SHARE μπορείτε να βρείτε στον σύνδεσμο: http://www.meta-share.org/portal/forum/question/97/0

RDF/OWL

Το σχήμα META-SHARE έχει μετατραπεί σε RDF/OWL οντολογία στο πλαίσιο μιας πρωτοβουλίας της Ομάδας ld4lt. Η οντολογία MS/OWL ενσωματώνει αντιστοιχίσεις σε διάφορα λεξιλόγια και οντολογίες όπως τα DCAT, FOAF, SWRC και ODRL, φέρνοντας το META-SHARE στον κόσμο των Συνδεδεμένων Μεταδεδομένων (Linked Metadata).

Οδηγίες και εργαλεία για τη μετατροπή θα είναι σύντομα διαθέσιμα.

 

 

 

 

τεκμηρίωση γλωσσικών πόρων

χρήση του εργαλείου τεκμηρίωσης clarin:el

Οι εγγραφές μεταδεδομένων που περιγράφουν τους ΓΠ που διατίθενται μέσω του clarin:πρέπει να αποθηκευθούν στην υποδομή clarin:el, διαδικασία που υποστηρίζεται από το εργαλείο τεκμηρίωσης clarin:el.

Για να έχετε πρόσβαση στο εργαλείο τεκμηρίωσης θα πρέπει να έχετε λογαριασμό χρήστη με δικαιώματα τεκμηριωτή. Περισσότερες πληροφορίες για τη διαδικασία που θα πρέπει να ακολουθήσετε για την απόθεση πόρων θα βρείτε εδώ. Μόλις ενημερωθείτε ότι έχετε την κατάλληλη εξουσιοδότηση, θα μπορείτε να προσθέσετε περιγραφές για τους πόρους σας. Ανάλογα με τον ρόλο χρήστη που θα σας έχει αποδοθεί, ελέγξτε το κατάλληλο εγχειρίδιο χρήστη για περισσότερες πληροφορίες.

 

 

υποδειγματικές εγγραφές μεταδεδομένων

Για τη διευκόλυνση των χρηστών, έχουμε προετοιμάσει και θέσει στη διάθεσή τους ένα σύνολο υποδειγματικών εγγραφών μεταδεδομένων (με τη μορφή XML αρχείων), οι οποίες είναι συμβατές με το βασικό σχήμα META-SHARE. Τις εγγραφές αυτές μπορούν οι χρήστες να τις μεταφορτώσουν στην ΕΥ και να τις χρησιμοποιήσουν ως βάση για να αλλάξουν και να προσθέσουν στοιχεία που αφορούν τους δικούς τους πόρους.

Πιο συγκεκριμένα, διατίθενται εγγραφές (XML αρχεία) για τα ακόλουθα είδη πόρων:

 

τεκμηρίωση & εκπαιδευτικό υλικό

  • Πλήρης τεκμηρίωση για το σχήμα: διαθέσιμη σύντομα.
  • Βάση γνώσης (Knoweldge base) με λεπτομερή περιγραφή του σχήματος, με ορισμούς, παραδείγματα και οδηγίες: διαθέσιμη σύντομα.
  • Σχετικές δημοσιεύσεις

 

 

 

 

τεχνικές απαιτήσεις, πρότυπα και βέλτιστες πρακτικές για τους γλωσσικούς πόρους

Στην υποδομή clarin:el μπορείτε να καταθέσετε ψηφιακούς Γλωσσικούς Πόρους (ΓΠ) που ενσωματώνουν ή επεξεργάζονται περιεχόμενο σε οποιουδήποτε είδους μέσο (κείμενο, ήχο, βίντεο, εικόνα), ανεξάρτητα από τις τεχνικές τους προδιαγραφές. Όλοι οι πόροι θα είναι προσβάσιμοι από τους χρήστες της υποδομής σύμφωνα με τους όρους αδειοδότησης του κάθε πόρου.

Επίσης, πόροι δεδομένων που είναι συμβατοί με τις τεχνικές προδιαγραφές που θέτουν οι διαδικτυακές υπηρεσίες γλωσσικής επεξεργασίας θα είναι αυτόματα επεξεργάσιμοι από τις υπηρεσίες αυτές. Με βάση τις υπάρχουσες υπηρεσίες και εργαλεία γλωσσικής επεξεργασίας, οι προτιμητέες επιλογές για τους πόρους είναι:

  • περιεχόμενο στη νέα ελληνική,
  • κωδικοσειρά unicode,
  • απλό text format ή συμβατό με το σχήμα XCES για τα κειμενικά σώματα,
  • για τα επισημειωμένα σώματα, το μορφότυπο εισόδου που απαιτούν τα αντίστοιχα εργαλεία
  • μέγεθος μέχρι 40 - 50 MB.

Οι ίδιοι οι πόροι πρέπει να έχουν μεταφορτωθεί σε ένα από τα αποθετήρια της ΕΥ clarin:el.

Επιπρόσθετα, το δίκτυο clarin:el εργάζεται με στόχο τη δημιουργία ενός οικοσυστήματος όπου πόροι, τεχνολογίες και υπηρεσίες θα είναι διαλειτουργικές. Για τον σκοπό αυτό, υιοθετεί και προάγει τη χρήση ευρέως διαδεδομένων προτύπων και βέλτιστων πρακτικών για τους ΓΠ. Περισσότερες πληροφορίες μπορείτε να βρείτε στο "The Standards' Landscape Towards an Interoperability Framework".