background image

σε bits.

Το δεύτερο στάδιο αφορά την επεξεργασία του σήματος οπού περιλαμβάνονται

διαδικασίες όπως η απομάκρυνση του θορύβου, η προσαρμογή της ταχύτητας ανά-

λογα με την μηχανή και η ομαλοποίηση της έντασης του ήχου. Για της επίτευξη αυ-

τών χρησιμοποιούνται εργαλεία όπως το ML Frequency Cepstral Coefficients (MFCC)

όπου εφαρμόζουν φίλτρα πάνω στα πλαίσια (frames) του σήματος κρατώντας την

χρήσιμη πληροφορία και απορρίπτοντας τις υπόλοιπες.

Στο τρίτο στάδιο, γίνεται ο διαχωρισμός του ήχου σε φωνήματα, δηλαδή στο

κώδικα από bits που έχει σχηματιστεί αποδίδονται τα στοιχεία της γλώσσας. Η δια-

δικασία αυτή αποτελεί την ακουστική ανάλυση και διαφέρει ανάλογα την γλώσσα

του ομιλητή. Για παράδειγμα στην ελληνική γλώσσα τα φωνήματα που οφείλει να

ξέρει η μηχανή είναι 24 συν τους δίφθογγους.

Για την αναγνώριση των φωνημάτων χρησιμοποιούνται ακουστικά μοντέλα όπως

τα κρυφά μοντέλα Markov (Hidden Markov Models – HMM) [46] τα οποία αναπα-

ριστούν τα φωνήματα της λέξης σε αλυσίδες και δημιουργούν όλους τους πιθανούς

συνδυασμούς που μπορούν να σχηματίσουν λέξεις. Με τον τρόπο αυτό πραγματο-

ποιείται η γλωσσική ερμηνεία η οποία όμως χρειάζεται να γνωρίζει την πιθανότερη

λέξη, από το σύνολο αυτών που σχηματίζονται, την οποία χρησιμοποίησε ο ομιλητής.

Για την ορθή επιλογή της λέξης, από τα μοντέλα Markov, που θα προκύψει

τελικά στο κείμενο του υπολογιστή, απαιτείται το σημαντικότερο στάδιο της λει-

τουργίας που είναι η αναγνώριση και η εκπαίδευση της μηχανής. Σε αυτό το στάδιο

η μηχανή, πριν τεθεί σε χρήση, έρχεται σε επαφή με εκατομμύρια προτάσεις την

γλώσσας που μετατρέπει, με σκοπό να γνωρίζει τις πιθανές χρήσης κάθε λέξης και

να μπορεί να επιλεγεί την πιο πιθανή σειρά των φωνημάτων και των λέξεων από

τα συμφραζόμενα της πρότασης που έχει πάρει στην δειγματοληψία.

72