''Σώμα Ελληνικών Κειμένων'': Το «ψαχτήρι» της ελληνικής γλώσσας
Μια επιστημονική μηχανή αναζήτησης που μας δείχνει πώς χρησιμοποιούμε τη γλώσσα μας δημιούργησαν οι ερευνητές των Πανεπιστημίων Κύπρου και Αθηνών
Το Σώμα Ελληνικών Κειμένων που περιέχει 30 εκατομμύρια λέξεις μάς ανοίγει τα μάτια σχετικά με τον τρόπο με τον οποίο χρησιμοποιούμε τη γλώσσα μας τόσο στον γραπτό όσο και στον προφορικό λόγο
Ποια λέξη χρησιμοποιούμε πιο συχνά στον προφορικό λόγο μας και ποια στον γραπτό; Ποια λέξη είναι πιο «δημοφιλής», το Διαδίκτυο ή το Ιντερνετ, το κομπιούτερ ή ο υπολογιστής; Τι λέμε συχνότερα, τη λέξη άνδρας ή τη λέξη γυναίκα; Τι λέμε και γράφουμε πιο συχνά, «ο ασκός του Αιόλου» ή «οι ασκοί του Αιόλου»; Την απάντηση σε όλα αυτά τα άκρως ενδιαφέροντα ερωτήματα, τα οποία ουσιαστικώς σκιαγραφούν το πώς χειριζόμαστε το σημαντικότερο εργαλείο επικοινωνίας μας, την ελληνική γλώσσα, δίνει το Σώμα Ελληνικών Κειμένων, ένα μεγάλο έργο που περιλαμβάνει 30 εκατομμύρια λέξεις σε 26.000 κείμενα. Πρόκειται για ένα επιστημονικώς δομημένο «ψαχτήρι» στο οποίο ο καθένας μας μπορεί να... ψαχουλέψει για να ανακαλύψει τις χρήσεις πλήθους λέξεων. Ενα εργαλείο χρήσιμο σε μεταφραστές, διερμηνείς, διδάσκοντες, μαθητές και όχι μόνο. Ενα εργαλείο χρήσιμο σε οποιονδήποτε μιλά τα ελληνικά. Γνωρίστε το και μαζί γνωρίστε το πώς χρησιμοποιούμε τη ζωντανή, εξελισσόμενη Ελληνική. Διότι η γλώσσα μας σε αντίθεση με εμάς είναι ένας οργανισμός που... ποτέ δεν πεθαίνει.
Ποια είναι η λέξη που χρησιμοποιούμε συχνότερα στα ελληνικά όταν γράφουμε; Και όταν μιλάμε; Εντάξει, μπορεί να μην είχατε ασχοληθεί έως σήμερα με τέτοια ερωτήματα καθώς λίγο-πολύ θεωρούμε την ελληνική γλώσσα, το «εργαλείο» επικοινωνίας μας, δεδομένη. ο τρόπος όμως που τη χρησιμοποιούμε σε κάθε λογής κείμενα αλλά και στον προφορικό λόγο δεν είναι διόλου δεδομένος αλλά δυναμικός και ρευστός αποκαλύπτοντας πολλές χρήσιμες πληροφορίες για την εξέλιξη της κοινωνίας και αποτελώντας παράλληλα μια σημαντική «πυξίδα» διδασκαλίας για τους εκπαιδευτικούς. Ενα τέτοιο «ανθολόγιο» της γλώσσας μας που ονομάζεται Corpus (Σώμα Ελληνικών Κειμένων, ΣΕΚ), το πιο ολοκληρωμένο που έχει δημιουργηθεί έως σήμερα περιλαμβάνοντας 30 εκατομμύρια λέξεις οι οποίες προέρχονται από πολλές και διαφορετικές κειμενικές πηγές (από λογοτεχνία και δοκίμια έως εφημερίδες και περιοδικά αλλά και προφορικά κείμενα), έχουν δημιουργήσει ερευνητές των Πανεπιστημίων Αθηνών και Κύπρου, προσφέροντας μάλιστα τη δυνατότητα στον καθένα να «ψαχουλέψει» τη χρήση των ελληνικών λέξεων μέσω της ηλεκτρονικής διεύθυνσης www.sek.edu.gr. «To Βήμα» ανοίγει σήμερα το... σεντούκι που κρύβει τον πλούτο της γλώσσας μας με οδηγό του τον υπεύθυνο αυτού του σημαντικού προγράμματος, αναπληρωτή καθηγητή του Τομέα Γλωσσολογίας στο Τμήμα Φιλολογίας του Εθνικού Καποδιστριακού Πανεπιστημίου Αθηνών κ. Διονύση Γούτσο.
Οπως θα διαβάσετε, το περιεχόμενο του «σεντουκιού» που είναι γεμάτο γράμματα αποδεικνύεται άκρως διαφωτιστικό για το πώς μιλάμε και γράφουμε. Προκειμένου να πάρετε μια μικρή γεύση, να σας πληροφορήσουμε ότι οι μόνες δύο λέξεις που είναι μαυρισμένες σε αυτή την παράγραφο αποτελούν και τις απαντήσεις στα ερωτήματα που θέσαμε στην αρχή του κειμένου. Λοιπόν, πώς ομιλείτε και γράφετε (εσείς, εμείς και όλοι μας) ελληνικά;
«Το Σώμα Ελληνικών Κειμένων δημιουργήθηκε με στόχο τη γλωσσολογική έρευνα της ελληνικής γλώσσας και είναι το πρώτο ηλεκτρονικό σώμα κειμένων που περιλαμβάνει ένα ευρύ φάσμα προφορικών και γραπτών κειμενικών ειδών της σύγχρονης γλώσσας» μας πληροφορεί ο κ. Γούτσος. Οπως εξηγεί, έχουν υπάρξει και άλλες αντίστοιχες προσπάθειες όπως ο Εθνικός Θησαυρός της Ελληνικής Γλώσσας, που αποτελεί «τέκνο» του Ινστιτούτου Επεξεργασίας Λόγου - μάλιστα ο Θησαυρός είναι ένας μεγαλύτερος λεκτικός... θησαυρός αφού περιέχει πάνω από 40 εκατομμύρια λέξεις. Ωστόσο, σύμφωνα με τον καθηγητή, «το βασικό πλεονέκτημα του ΣΕΚ σε σύγκριση με τα υπόλοιπα Σώματα Κειμένων τα οποία κατά κύριο λόγο βασίζονται σε κείμενα εφημερίδων είναι η ποικιλία των κειμενικών ειδών που περιέχει - μιλούμε πάντα για ελληνικά κείμενα και όχι μεταφρασμένα από άλλες γλώσσες. Εχουμε περιλάβει λογοτεχνικά κείμενα (διηγήματα, ποιήματα, μυθιστορήματα), ακαδημαϊκά κείμενα (δοκίμια, επιστημονικά συγγράμματα, μελέτες), κείμενα εφημερίδων (ειδήσεις, άρθρα γνώμης, ακόμη και αγγελίες), αλλά και κείμενα από διάφορα είδη περιοδικών. Παράλληλα έχουμε περιλάβει προφορικά δεδομένα - εκπομπές από το ραδιόφωνο και την τηλεόραση, ομιλίες από τη Βουλή - αλλά και αυθεντικές συνομιλίες μεταξύ φίλων. Με τον τρόπο αυτόν αποκτούμε μια κατά το δυνατόν ολοκληρωμένη εικόνα για τη χρήση της γλώσσας μας». Συνολικά στο ΣΕΚ περιλαμβάνονται περί τα 26.000 κείμενα, η συντριπτική πλειονότητα των οποίων (90%) είναι γραπτά.
Το Διαχρονικό Σώμα Κειμένων
Το υπάρχον Σώμα Κειμένων, που χρηματοδοτήθηκε από την Επιτροπή Ερευνητικών Προγραμμάτων του Πανεπιστημίου Κύπρου και το πρόγραμμα «Πυθαγόρας» (με χρηματοδότηση του Ευρωπαϊκού Κοινωνικού Ταμείου και εθνικών πόρων), περιέχει δεδομένα που καλύπτουν μια εικοσαετία, από το 1990 έως το 2010, ωστόσο οι ερευνητές βρίσκονται ήδη σε διαδικασία διεξαγωγής ενός πολύ μεγαλύτερου έργου που θα πηγαίνει πίσω στον χρόνο και θα καλύπτει κείμενα ολόκληρου του 20ού αιώνα. Πρόκειται για το Διαχρονικό Σώμα Ελληνικών Κειμένων του 20ού αιώνα (πληροφορίες σχετικά με αυτό το μεγάλο πρόγραμμα μπορεί κάποιος να βρει στην ηλεκτρονική διεύθυνση greekcorpus20.phil.uoa.gr) το οποίο ξεκίνησε στα τέλη του 2012 και αναμένεται να ολοκληρωθεί το ερχόμενο έτος. Το συγκεκριμένο πρόγραμμα χρηματοδοτείται με 208.000 ευρώ στο πλαίσιο της πράξης «Αριστεία» από το Ευρωπαϊκό Κοινωνικό Ταμείο και από εθνικούς πόρους (Γενική Γραμματεία Ερευνας και Τεχνολογίας) και αναμένεται να συμπληρώσει με 20 εκατομμύρια λέξεις το μικρότερο «αδελφάκι» του, για την ακρίβεια... εγγονάκι του, το οποίο καλύπτει, όπως αναφέραμε, τα τελευταία 20 έτη, συνθέτοντας έτσι ένα λεκτικό παζλ ενός ολόκληρου αιώνα (και βάλε).
O αναπληρωτής καθηγητής Γλωσσολογίας στο Πανεπιστήμιο Αθηνών κ. Διονύσης Γούτσος, επικεφαλής του προγράμματος που «γέννησε» το Σώμα Ελληνικών Κειμένων
Οπως τονίζει ο κ. Γούτσος, «η ελληνική, σε αντίθεση με άλλες γλώσσες, δεν έχει επωφεληθεί επαρκώς έως τώρα από τις τεράστιες προόδους στο ευρύτερο ερευνητικό πεδίο της ανάπτυξης και αξιοποίησης γλωσσικών σωμάτων κειμένων. Το πρόγραμμα στοχεύει να καλύψει αυτό το κενό καθώς το Διαχρονικό Σώμα Κειμένων θα ενσωματωθεί στο ήδη υπάρχον». Ο επικεφαλής του φιλόδοξου προγράμματος μάς εξηγεί ότι και το καινούργιο, μεγάλο Σώμα θα περιλαμβάνει όλα τα είδη κειμένων (ακαδημαϊκά, λογοτεχνικά, εφημερίδες, περιοδικά), ενώ σε ό,τι αφορά τον προφορικό λόγο «μαγιά» θα αποτελέσουν τα κινηματογραφικά επίκαιρα, εκπομπές από το αρχείο της ΕΡΤ, ταινίες από το 1930 και μετά κ.ά. - έργο όχι πάντα εύκολο, όπως φαντάζεστε. Οι επιστήμονες βρίσκονται σε φάση συλλογής του υλικού συναντώντας βέβαια σκοπέλους - ένας τέτοιος είναι το πολυτονικό σύστημα, για το οποίο δημιουργούνται αυτή τη στιγμή από το πρόγραμμα ολοκληρωμένα εργαλεία που θα επιτρέψουν την επεξεργασία πολυτονικών κειμένων και την αναζήτηση σε αυτά. Κατά τον επιστήμονα, η νέα προσπάθεια αναμένεται να ρίξει φως στη διαχρονική χρήση της γλώσσας αποκαλύπτοντας πολλά από τα πώς και τα γιατί γράφουμε ό,τι γράφουμε και λέμε ό,τι λέμε.
Πώς να παίξετε με το «Σώμα»
Πώς λειτουργεί όμως το Corpus; Ο καθένας μπορεί να επισκεφθεί την ιστοσελίδα www.sek.edu.gr και να εισαγάγει σε αυτήν μία λέξη που τον ενδιαφέρει. Ενα ειδικό λογισμικό επεξεργασίας θα του δείξει εντός ολίγου πόσο συχνά εμφανίζεται η συγκεκριμένη λέξη αναζήτησης - γεγονός άκρως σημαντικό αφού μαρτυρεί πολλά για το ποιες λέξεις χρησιμοποιούμε περισσότερο στην ελληνική γλώσσα. Για παράδειγμα, σημειώνει ο κ. Γούτσος, έχετε σκεφθεί ποια είναι η «βασίλισσα» του γραπτού λόγου (αλλά σε μεγάλο βαθμό και του προφορικού;). Μόλις τη συναντήσατε στην προηγούμενη πρόταση, είναι το συνδετικό και. Ακολουθεί η αναφορική αντωνυμία ο «οποίος», η «οποία» αλλά και το αόριστο άρθρο «ένας».
Ποιες λέξεις λέμε συχνότερα
Στον προφορικό λόγο πάλι πολύ συχνά συναντούμε το «ξέρω 'γώ», το «ντάξει», το «εντάξει» και το «δηλαδή», ενώ από ρήματα σε συχνότητα υπερισχύουν τα «ξέρω», «λέω», «ήταν/ήτανε». Βέβαια ο καθηγητής παραδέχεται ότι ο προφορικός λόγος είναι ελαφρώς... ριγμένος μέσα στο ΣΕΚ - καθώς είναι πιο δύσκολο να γίνει συλλογή στοιχείων προφορικών κειμένων, κυρίως σε ό,τι αφορά τις συνομιλίες της καθημερινότητας. «Σε κάθε περίπτωση, για πρώτη φορά "σκιαγραφούμε" τη χρήση της γλώσσας μας στον προφορικό λόγο, έστω και ως έναν βαθμό, και ευελπιστούμε ότι μελλοντικά με το Διαχρονικό Corpus θα καταφέρουμε να κάνουμε και συγκρίσεις σχετικά με το πώς έχει αλλάξει αυτός ο ζωντανός οργανισμός τον τελευταίο αιώνα». Μάλιστα μια πιο ολοκληρωμένη προσέγγιση σχετικά με τον προφορικό λόγο γίνεται στο «φρέσκο» ηλεκτρονικό βιβλίο «Ο προφορικός λόγος στα Ελληνικά» το οποίο επιμελήθηκε ο κ. Γούτσος και περιέχει κείμενα νέων συνεργατών (εκδόσεις Σαΐτα). Μια βασική εισαγωγή στη Γλωσσολογία, που περιλαμβάνει και τη ματιά των Σωμάτων Κειμένων, προσφέρει και το πρόσφατο βιβλίο του ίδιου «Γλώσσα: Κείμενο, ποικιλία, σύστημα» (εκδόσεις Κριτική, 2012).
Μια δεύτερη πολύτιμη χρήση του ΣΕΚ αφορά το ότι επιτρέπει με ένα... κλικ του ποντικιού να βλέπουμε την κάθε λέξη μέσα στα συμφραζόμενά της εξάγοντας έτσι συμπεράσματα για τις διαφορετικές χρήσεις της. Ιδού ένα διαφωτιστικό παράδειγμα: εισάγουμε στο Corpus τη λέξη «αμφιβολία» και το λογισμικό γρήγορα μας την εμφανίζει μέσα σε διάφορες προτάσεις. «Σε ό,τι αφορά τη συγκεκριμένη λέξη, βλέπουμε ότι όταν χρησιμοποιείται στον ενικό εμφανίζεται συνήθως με αρνήσεις σε φράσεις όπως "δεν υπάρχει αμφιβολία". Οταν χρησιμοποιείται στον πληθυντικό, η χρήση είναι θετική: "υπάρχουν αμφιβολίες"» σημειώνει ο κ. Γούτσος.
Οσο πιο πολύ αναζητούμε τόσο πιο ενδιαφέροντα είναι τα συμπεράσματα που βγάζουμε. Για παράδειγμα, μέσω του ΣΕΚ ανακαλύπτουμε ότι κάποιες εκφράσεις όπως «ο ασκός του Αιόλου» χρησιμοποιούνται ακόμη και στον γραπτό λόγο λανθασμένα - συνήθως γίνεται χρήση στον πληθυντικό: «οι ασκοί του Αιόλου». Ανακαλύπτουμε επίσης ότι η προσωπική αντωνυμία «εγώ» στον προφορικό λόγο χρησιμοποιείται κυρίως όταν κάποιος θέλει να πάρει τον λόγο, ενώ το... δημοφιλές «εντάξει» δεν δηλώνει συναίνεση αλλά κυρίως διαφωνία (π.χ., «Πήγα στην Κω και ήταν πολύ όμορφη» - «Εντάξει, και εγώ πήγα αλλά δεν ενθουσιάστηκα»). Μαθαίνουμε και πολλά σχετικά με το πώς χρησιμοποιούμε «δάνεια» τα οποία δεν υπάρχει άνθρωπος που να μην έχει γράψει ή πει έστω και μία φορά. Για παράδειγμα, έχετε ποτέ αναρωτηθεί τι χρησιμοποιούμε περισσότερο: το ξενόφερτο Internet, τη μεταγραφή του στα ελληνικά Ιντερνετ ή την ελληνική λέξη Διαδίκτυο; Το Corpus σάς έχει την απάντηση: η ελληνική... εκδοχή κονταροχτυπιέται με την ξένη αλλά φαίνεται να παίρνει τα πρωτεία στα γραπτά και όχι μόνο στα ακαδημαϊκά κείμενα αλλά και στα εκλαϊκευτικά. Ελληνικά πρωτεία αποδεικνύεται ότι κατέχει και άλλος ένας σχετικά πρόσφατος όρος: οι Ελληνες πιο πολύ χρησιμοποιούν τη λέξη «υπολογιστής» παρά το αγγλικό «computer» ή το δάνειο σε μεταγραφή «κομπιούτερ».
Η μάχη των φύλων μέσα από τις λέξεις
Η αναζήτηση στο Corpus μπορεί να αποκαλύψει πολλά και για την ίδια την κοινωνία μας. Τι εννοούμε; Ας ρίξουμε λίγο «λάδι στη φωτιά» στην προαιώνια «μάχη» μεταξύ των δύο φύλων - για την ακρίβεια, δεν το ρίχνουμε εμείς, αφού η χρήση των λέξεων «άνδρας» και «γυναίκα» τόσο σε γραπτά όσο και σε προφορικά κείμενα... μιλά από μόνη της. Ο καθηγητής εξηγεί πως, αν αναζητήσουμε τις χρήσεις της λέξης «γυναίκα» στο ΣΕΚ, θα δούμε ότι αυτές περιλαμβάνουν συγκριτικά αρκετές υποτιμητικές χρήσεις, π.χ. «γυναίκα για τις δουλειές», «διακίνηση γυναικών». Σε ό,τι αφορά τη λέξη «άνδρας» όμως τα πράγματα είναι πολύ διαφορετικά αφού η χρήση της μαρτυρεί γενικώς κύρος.
Για παράδειγμα, «οι δύο άνδρες της κυβέρνησης συναντήθηκαν», «ισχυρός άνδρας της οικονομίας». Βέβαια σε συχνότητα εμφάνισης η λέξη γυναίκα - όπως και η λέξη κορίτσι ή κοπέλα σε σύγκριση με τη λέξη αγόρι - φαίνεται να παίρνει το... επάνω χέρι, αλλά μη βιαστείτε να νομίσετε ότι αυτό συμβαίνει για καλό. «Η λέξη γυναίκα χρησιμοποιείται συχνότερα καθώς συνηθίζουμε μέσα σε ένα ανδροκρατούμενο περιβάλλον να προσδιορίζουμε ότι κάποια είναι… γυναίκα πολιτικός, γυναίκα βουλευτής, γυναίκα επιστήμονας. Πρέπει να μπει ο χαρακτηρισμός γυναίκα δίπλα σε ένα επάγγελμα που θεωρείται κατ' εξοχήν ανδρικό. Οσο για τη λέξη κορίτσι, που και αυτή χρησιμοποιείται συχνά, μπορεί να "ντύνεται" με έναν σεξιστικό μανδύα. "Τι να σου κάνει το κορίτσι" λέμε ή "κορίτσι για σπίτι". Γενικώς αποδεικνύεται μέσα από τη χρήση της γλώσσας ότι η γυναίκα αποτελεί το επίκεντρο του ενδιαφέροντος αλλά συγχρόνως θεωρείται υποδεέστερη του άνδρα» διευκρινίζει ο καθηγητής.
Οπως συμπληρώνει, από μια έως τώρα προσεκτική ματιά στο Corpus της ελληνικής γλώσσας εξάγονται κάποια άκρως χρήσιμα συμπεράσματα: «Κατ' αρχάς φωτίζονται κοινωνικά ζητήματα όπως αυτό που αφορά το φύλο και την αντιμετώπισή του στη σύγχρονη ελληνική κοινωνία. Κατά δεύτερον, παρότι μέσω του ΣΕΚ έχουμε "ψαρέψει" αρκετά γλωσσικά λάθη, μπορούμε να πούμε ότι αυτά συμβαίνουν σχετικώς σπάνια, τόσο στον γραπτό λόγο όσο και στον προφορικό - παρότι, επαναλαμβάνω, το δείγμα που έχουμε στα χέρια μας και αφορά τον προφορικό λόγο δεν είναι μεγάλο ώστε να έχουμε μια ολοκληρωμένη εικόνα».
«Θησαυρός» για μεταφραστές - διδάσκοντες
Θα αναρωτιόταν κάποιος τι μπορεί να προσφέρει αυτό το «ψαχτήρι» (να μία από τις άλλες λέξεις της σύγχρονης εποχής μας που χρησιμοποιούμε πια συχνά στα ελληνικά), εκτός από τη διασκέδαση του να αναζητείς τη συχνότητα εμφάνισης και τη χρήση λέξεων στη γλώσσα μας. Ο κ. Γούτσος απαντά ότι «αυτοί οι κατάλογοι συχνότητας που μας προσφέρουν τα Σώματα Κειμένων είναι πολύ σημαντικοί τόσο για τους μεταφραστές όσο και για όσους διδάσκουν τη γλώσσα σε Ελληνες αλλά κατά κύριο λόγο σε ξένους μαθητές. Είναι άκρως χρήσιμο να ξέρουμε τι ακριβώς θα διδάξουμε, ποιες λέξεις ενδείκνυται να χρησιμοποιεί περισσότερο ένας ξένος μαθητής που θέλει να μάθει την ελληνική, με δεδομένο μάλιστα ότι αν κάποιος κατακτήσει 5.000-6.000 λέξεις μιας γλώσσας έχει στο... τσεπάκι του ένα καλό επίπεδο συνεννόησης». Ο καθηγητής μάς πληροφορεί ότι οι χρήστες του ΣΕΚ είναι πλέον χιλιάδες. «Πρόκειται κυρίως για μεταφραστές, διερμηνείς, ανθρώπους που διδάσκουν και βοηθούνται σημαντικά στο έργο τους»
Και μια και αναφερθήκαμε στο ψαχτήρι, ένα άλλο εύλογο ερώτημα θα αφορούσε το γιατί κάποιος να ανατρέξει στο ΣΕΚ και να μην μπει απλώς στη μηχανή αναζήτησης του Google ώστε να κάνει την ίδια δουλειά. «Το Διαδίκτυο αποτελεί ένα είδος Σώματος Κειμένων στο οποίο μας προσφέρει πρόσβαση η μηχανή αναζήτησης του Google. Ωστόσο σε αυτό δεν μπορούμε να ξέρουμε τι κείμενα περιλαμβάνονται, ενώ το ΣΕΚ περιέχει κείμενα που έχουν επιλεγεί με συγκεκριμένα κριτήρια» απαντά ο «πατέρας» του Corpus της ελληνικής γλώσσας.
Ενα Σώμα λοιπόν που κλείνει μέσα του όσα ο δικός μας, κλεισμένος στο σώμα μας, νους μετατρέπει σε λέξεις για να επικοινωνεί με τους γύρω του, για να εκφράζει τα στερεότυπα της κοινωνίας του αλλά και για να δημιουργεί ώστε να εξελίσσεται ο ίδιος και μαζί του η ολοζώντανη γλώσσα μας. Και όταν αυτό το Σώμα ολοκληρωθεί και γίνει... 100 και πλέον ετών, θα κουβαλά εντός του όλη τη σοφία της χρήσης της ελληνικής, δείχνοντας όχι μόνο το παρελθόν αλλά και το μέλλον της.
ΤΣΩΛΗ ΘΕΟΔΩΡΑ
10-8-2014
http://www.tovima.gr/science/article/?aid=621960
ΤΣΩΛΗ ΘΕΟΔΩΡΑ
10-8-2014
http://www.tovima.gr/science/article/?aid=621960