Η ανάπτυξη και χρήση Μεγάλων Γλωσσικών Μοντέλων (Large Language Models, LLMs) σηματοδότησε μια σημαντική τομή της Τεχνητής Νοημοσύνης, ανοίγοντας νέες ευκαιρίες για έρευνα και βιομηχανικές εφαρμογές. Ωστόσο, τα LLM επιδεικνύουν εντυπωσιακές ικανότητες μόνο σε «μεγάλες» γλώσσες, όπως τα Αγγλικά, ενώ η απόδοσή τους ποικίλλει σημαντικά μεταξύ διαφορετικών γλωσσών. Ειδικά στην περίπτωση γλωσσών με χαμηλούς πόρους, όπως η Ελληνική, τα υπάρχοντα ανοιχτά LLM παρουσιάζουν χαμηλή απόδοση λόγω έλλειψης δεδομένων εκπαίδευσης.

Πρόσφατα, έχουν γίνει προσπάθειες για την επέκταση των δυνατοτήτων των ανοιχτών μεγάλων γλωσσικών μοντέλων σε άλλες γλώσσες (π.χ., LeoLM για τα Γερμανικά, Aguila για τα Ισπανικά κ.ά.), στον αντίποδα των εμπορικών κλειστών λύσεων. Οι προσπάθειες αυτές, όχι μόνο ενδυναμώνουν τεχνολογικά τους ομιλητές υποεκπροσωπούμενων γλωσσών, αλλά παρέχουν μεγαλύτερο έλεγχο, περισσότερη ασφάλεια και δυνατότητες για προσαρμογή και βελτιστοποίηση των μοντέλων σε συγκεκριμένες ανάγκες και εφαρμογές.

Το Ινστιτούτο Επεξεργασίας του Λόγου του Ερευνητικού Κέντρου Αθηνά (ΙΕΛ/ΕΚ Αθηνά) παρουσιάζει το Meltemi, το πρώτο ανοιχτό Μεγάλο Γλωσσικό Μοντέλο για την ελληνική γλώσσα, διαθέσιμο για ερευνητικούς αλλά και εμπορικούς σκοπούς. Βασισμένο στο Mistral-7Β, το Meltemi βελτιώνει σε σημαντικό βαθμό τις επιδόσεις του Mistral στην κατανόηση και παραγωγή γλώσσας στα Ελληνικά, καθώς έχει αναπτυχθεί μέσω συνεχιζόμενης προ-εκπαίδευσης (continual pre-training) σε ένα μεγάλο σώμα ελληνικών κειμένων υψηλής ποιότητας (28.5 δισ. tokens).

Διατίθεται το θεμελιώδες (foundation) μοντέλο Meltemi-7B, ένα LLM 7 δισεκατομμυρίων παραμέτρων, μαζί με μια παραλλαγή του, το Meltemi-Instruct-7B, το οποίο έχει εκπαιδευτεί περαιτέρω σε ερωτήσεις και οδηγίες και μπορεί να χρησιμοποιηθεί σε εφαρμογές που περιλαμβάνουν διεπαφές συνομιλίας (chatbots). Και τα δύο παρέχονται με άδεια χρήσης Apache 2.0.

Για την αξιολόγηση του μοντέλου, αναπτύχθηκε ένα ανοιχτό σύνολο δεδομένων στην ελληνική γλώσσα. Κατά την αξιολόγηση το Meltemi-7B παρουσίασε βελτίωση 14,9% κατά μέσο όρο σε σχέση με το Mistral-7B.

Η εκπαίδευση των μοντέλων πραγματοποιήθηκε σε υποδομές υπολογιστικού νέφους της Amazon, οι οποίες παρέχονται στην ερευνητική και ακαδημαϊκή κοινότητα από το Εθνικό Δίκτυο Υποδομών Τεχνολογίας και Έρευνας (ΕΔΥΤΕ Α.Ε.–GRNET).

Μπορείτε να διαβάσετε περισσότερα εδώ.