Πλέον, το Google voice Recognition API αποτελεί ένα από τα πιο προηγμένα
συστήματα speech to text όπου υποστηρίζονται 125 γλώσσες και μορφές ΑPI είτε
με ανάκτηση αρχείων ήχου είτε με άμεση ομιλία.
Στην πρώτη μορφή, το αρχείο ήχου θα πρέπει να έχει διάρκεια 1 λεπτό και ο
χρήστης μπορεί να το έχει αποθηκευμένο στην συσκευή του σαν αρχείο ήχου και
να το ανακτήσει όταν χρειαστεί η μετατροπή του σε κείμενο. Σε περίπτωση που το
αρχείο είναι αρκετά μεγάλο δίνεται η δυνατότητα αποθήκευσης στο google Cloud
και ανάκτηση από εκεί.
Στην δεύτερη μορφή η οποία και χρησιμοποιήθηκε, η ροή δεδομένων είναι άμεση
αφού ο χρήστης ενεργοποιώντας το μικρόφωνο μέσω της αντίστοιχης εφαρμογής
google που χρησιμοποιεί μπορεί να γνωστοποιήσει το αίτημα που θέλει να κατα-
γράψει το σύστημα.
Η ίδια η google ένα χρόνο μετά το άνοιγμα του Google voice Recognition API
στο ευρύ κοινό, δήλωσε ότι χιλιάδες χρήστες το χρησιμοποιήσαν έχοντας πρόσβαση
σε περισσότερες παροχές και αυτό αποτέλεσε κίνητρο για την ίδια την εταιρεία να
προσθέσει νέα εργαλεία στις παροχές της.
2.5
Αναπαραγωγή φωνής
Ένα σύστημα εκφώνησης κειμένου (text-to-speech,TTS) [48] αποτελεί τον μηχα-
νισμό εκείνο οπού αναλαμβάνει την διαδικασία μετατροπής μιας ακολουθίας αλφα-
βητικών συμβολών στο αντίστοιχο ακουστικό σήμα ομιλίας.
Η θεμελιώδης διαφορά μεταξύ των συστημάτων TTS και μηχανών ομιλίας όπως
π.χ. το ραδιόφωνο έγκειται στο γεγονός ότι στην περίπτωση των TTS απαιτούμε η
μηχανή να εκφωνήσει αυτόματα οποιαδήποτε καινούργια πρόταση της δοθεί. Επι-
πλέον, η βασική διαφορά των TTS συστημάτων από αλλά συστήματα σύνθεσης
ομιλίας όπως τα voice response, είναι πως στην είσοδο του γραπτού λογού τα TTS
συστήματα αποθηκεύουν το λεξιλόγιο και την σύνταξη χωρίς περιορισμό, πραγ-
74