background image

Πλέον, το Google voice Recognition API αποτελεί ένα από τα πιο προηγμένα

συστήματα speech to text όπου υποστηρίζονται 125 γλώσσες και μορφές ΑPI είτε

με ανάκτηση αρχείων ήχου είτε με άμεση ομιλία.

Στην πρώτη μορφή, το αρχείο ήχου θα πρέπει να έχει διάρκεια 1 λεπτό και ο

χρήστης μπορεί να το έχει αποθηκευμένο στην συσκευή του σαν αρχείο ήχου και

να το ανακτήσει όταν χρειαστεί η μετατροπή του σε κείμενο. Σε περίπτωση που το

αρχείο είναι αρκετά μεγάλο δίνεται η δυνατότητα αποθήκευσης στο google Cloud

και ανάκτηση από εκεί.

Στην δεύτερη μορφή η οποία και χρησιμοποιήθηκε, η ροή δεδομένων είναι άμεση

αφού ο χρήστης ενεργοποιώντας το μικρόφωνο μέσω της αντίστοιχης εφαρμογής

google που χρησιμοποιεί μπορεί να γνωστοποιήσει το αίτημα που θέλει να κατα-

γράψει το σύστημα.

Η ίδια η google ένα χρόνο μετά το άνοιγμα του Google voice Recognition API

στο ευρύ κοινό, δήλωσε ότι χιλιάδες χρήστες το χρησιμοποιήσαν έχοντας πρόσβαση

σε περισσότερες παροχές και αυτό αποτέλεσε κίνητρο για την ίδια την εταιρεία να

προσθέσει νέα εργαλεία στις παροχές της.

2.5

Αναπαραγωγή φωνής

Ένα σύστημα εκφώνησης κειμένου (text-to-speech,TTS) [48] αποτελεί τον μηχα-

νισμό εκείνο οπού αναλαμβάνει την διαδικασία μετατροπής μιας ακολουθίας αλφα-

βητικών συμβολών στο αντίστοιχο ακουστικό σήμα ομιλίας.

Η θεμελιώδης διαφορά μεταξύ των συστημάτων TTS και μηχανών ομιλίας όπως

π.χ. το ραδιόφωνο έγκειται στο γεγονός ότι στην περίπτωση των TTS απαιτούμε η

μηχανή να εκφωνήσει αυτόματα οποιαδήποτε καινούργια πρόταση της δοθεί. Επι-

πλέον, η βασική διαφορά των TTS συστημάτων από αλλά συστήματα σύνθεσης

ομιλίας όπως τα voice response, είναι πως στην είσοδο του γραπτού λογού τα TTS

συστήματα αποθηκεύουν το λεξιλόγιο και την σύνταξη χωρίς περιορισμό, πραγ-

74