background image

2.4

Αναγνώριση φωνής

Με τον όρο αναγνώριση φωνής [45] αναφερόμαστε στην ικανότητα του συστή-

ματος να συλλάβει τον προφορικό λόγο του χρήστη και να μετατρέψει σε κείμενο

τα ηχητικά κύματα της φωνής.

Η προσπάθεια για μετατροπή του προφορικού λόγου, ως κυρίαρχο μέσω της

ανθρώπινης επικοινωνίας, σε γραπτό λόγο από τις μηχανές είναι εγχείρημα που

απασχολεί την επιστήμη πριν ακόμα την δεκαετία του 70’. Ξεκινώντας από τα ερ-

γαστήρια του Bell όπου δημιουργείται μια μηχανή με όνομα Audrey (1952) η οποία

μπορεί να αναγνωρίσει ποιος αριθμός από το 1 έως το 9 εκφωνήθηκε στο μικρόφωνο

της, φτάνουμε στο σήμερα οπού ηλεκτρονικοί βοηθοί όπως η Google Assistant και η

Alexa μπορούν μόνο μέσω φωνητικών εντολών να χειριστούν κινητές συσκευές και

online site πωλήσεων.

Για να επιτευχθεί ο στόχος ενός συστήματος αναγνώρισης ομιλίας, δηλαδή η

ορθή μετατροπή του λογού σε κείμενο, απαιτείται να ξεπεραστούν σημαντικά εμπό-

δια που αφορούν τον ανθρώπινο προφορικό λόγο όπως τα διφορούμενα νοήματα

στις λέξεις και η προφορά της ιδίας λέξης από διαφορικούς χρήστες καθώς και

προβλήματα που αφορούν το περιβάλλον θορύβου της ομιλίας και το μέγεθος του

λεξιλογίου που γνωρίζει η μηχανή.

2.4.1

Τρόπος λειτουργίας

Οι απαιτήσεις μια μηχανής αναγνώρισης ομιλάς, όπως αναφέρθηκαν και παρα-

πάνω, κάνουν αντιληπτή την ανάγκη για ακριβείς αλγορίθμους και τεχνικές λει-

τουργίας ώστε η παραγωγή του τελικού γραπτού κειμένου να είναι όμοια τόσο

γραμματικά όσο και λεξιλογικά με την ομιλία του χρήση στην είσοδο.

Το πρώτο στάδιο λειτουργίας αφορά τη ψηφιοποίηση της ομιλίας. Αυτό περιλαμ-

βάνει την δειγματοληψία, δηλαδή τη λήψη των κυμάτων της φωνής μέσω μικροφώ-

νου, την κβαντοποίηση και την κωδικοποίηση του ήχου, δηλαδή την μετατροπή του

71