Η βιβλιοθήκη του αββαείου του Αγίου Γάλλου στην Ελβετία στεγάζει περίπου 160.000 τόμους ιστορικών και λογοτεχνικών χειρογράφων, που ανάγονται στον 8ο αιώνα. Πολλά εκ των οποίων έχουν γραφτεί σε γλώσσες που σπάνια μιλιούνται σήμερα- και τέτοιου είδους ιστορικά αρχεία φυλάσσονται σε βιβλιοθήκες και μοναστήρια ανά τον κόσμο. Μεγάλο μέρος τους είναι διαθέσιμο στο κοινό μέσω ψηφιακών εικόνων και τεχνολογίας, αλλά είναι πάρα πολύ και το υλικό που δεν έχει αναγνωστεί ποτέ.
Σε αυτό το πλαίσιο, επιστήμονες του University of Notre Dame αναπτύσσουν ένα δίκτυο τεχνητών νευρώνων για την ανάγνωση πολύπλοκου αρχαίου χειρόγραφου κειμένου, που βασίζεται στην ανθρώπινη αντίληψη για να βελτιώσει τις δυνατότητες του αποκαλούμενου deep learning transcription.
«Έχουμε να κάνουμε με ιστορικά έγγραφα γραμμένα σε στυλ που είναι εκτός ‘μόδας’ εδώ και πολύ καιρό, ίσως αιώνες, και σε γλώσσες σαν τα λατινικά, που σπάνια χρησιμοποιούνται πλέον» είπε ο Βάλτερ Σάιρερ, καθηγητής στο Τμήμα Επιστημών Υπολογιστή του πανεπιστημίου. «Μπορείς να βγάλεις ωραίες φωτογραφίες…μα αυτό που αναλάβαμε να κάνουμε είναι να αυτοματοποιήσουμε τη μεταγραφή με τρόπο που μιμείται την αντίληψη της σελίδα μέσα από τα μάτια του ειδικού αναγνώστη και παρέχει μια γρήγορη, searchable ανάγνωση του κειμένου».
Η σχετική έρευνα παρουσιάζεται στο Transactions on Pattern Analysis and Machine Intelligence του Institute of Electrical and Electronics Engineers. Εκεί παρουσιάζεται ο συνδυασμός παραδοσιακών μεθόδων machine learning με οπτική ψυχοφυσική – μία μέθοδο μέτρησης των συνδέσεων μεταξύ φυσικών ερεθισμάτων και πνευματικών φαινομένων, όπως ο χρόνος που απαιτείται για να αναγνωρίσει ένας ειδικός αναγνώστης έναν συγκεκριμένο χαρακτήρα, να αξιολογήσει την ποιότητα της γραφής ή να διαπιστώσει τη χρήση κάποιων συντομογραφιών.
Η ομάδα του Σάιρερ μελέτησε ψηφιοποιημένα χειρόγραφα στα λατινικά που είχαν γραφεί τον 9ο αιώνα. Οι αναγνώστες περνούσαν τις μεταγραφές που έκαναν με το χέρι σε ειδικό λογισμικό και μετρούσαν μετά τους χρόνους αντίδρασης κατά τη μεταγραφή για να κατανοηθεί ποιες λέξεις/ χαρακτήρες/ αποσπάσματα ήταν δύσκολα ή εύκολα. Αυτά τα δεδομένα δημιούργησαν ένα δίκτυο πιο κοντινό στον ανθρώπινο τρόπο λειτουργίας, μείωσαν τα λάθη και οδήγησαν σε μια ακριβέστερη, πιο ρεαλιστική ανάγνωση του κειμένου.
Οι ερευνητές προσπαθούν τώρα να βελτιώσουν την ακρίβεια των μεταγραφών, ειδικά σε περιπτώσεις εγγράφων που είναι ημιτελή ή έχουν ζημιές.