Η OpenAI ανακοίνωσε την Πέμπτη ότι το API της θα περιλαμβάνει πλέον μια σειρά από νέες δυνατότητες φωνητικής νοημοσύνης, σχεδιασμένες να βοηθήσουν τους προγραμματιστές να δημιουργήσουν εφαρμογές που μπορούν να μιλούν, να μεταγράφουν και να μεταφράζουν συνομιλίες με τους χρήστες σε πραγματικό χρόνο.
Το νέο μοντέλο της εταιρείας, το GPT-Realtime-2, αποτελεί μια εξελιγμένη φωνητική προσομοίωση που μπορεί να συνομιλεί ρεαλιστικά με τους χρήστες. Σε αντίθεση με τον προκάτοχό του, το GPT-Realtime-2 είναι βασισμένο σε συλλογιστική επιπέδου GPT-5, γεγονός που του επιτρέπει να διαχειρίζεται πολύ πιο περίπλοκα αιτήματα χρηστών με μεγαλύτερη ακρίβεια και φυσικότητα.
Παράλληλα, η εταιρεία λανσάρει το GPT-Realtime-Translate, μια υπηρεσία σχεδιασμένη να παρέχει μεταφραστικές υπηρεσίες σε πραγματικό χρόνο που «συμβαδίζουν» με τον ρυθμό του χρήστη κατά τη διάρκεια μιας συνομιλίας. Το χαρακτηριστικό αυτό υποστηρίζει περισσότερες από 70 γλώσσες εισόδου και 13 γλώσσες εξόδου, διευκολύνοντας την επικοινωνία σε παγκόσμιο επίπεδο.
Στις νέες προσθήκες περιλαμβάνεται και το GPT-Realtime-Whisper, το οποίο προσφέρει δυνατότητες ζωντανής μετατροπής ομιλίας σε κείμενο (speech-to-text), καταγράφοντας τις αλληλεπιδράσεις καθώς αυτές συμβαίνουν. Σύμφωνα με την OpenAI, ο συνδυασμός αυτών των μοντέλων μετακινεί τον ήχο σε πραγματικό χρόνο από μια απλή διαδικασία «ερώτησης-απάντησης» προς φωνητικές διεπαφές που μπορούν πραγματικά να εκτελέσουν εργασία: να ακούσουν, να σκεφτούν, να μεταφράσουν, να μεταγράψουν και να αναλάβουν δράση καθώς εξελίσσεται μια συνομιλία.
Οι ενημερώσεις αυτές στοχεύουν πρωτίστως σε εταιρείες που επιθυμούν να επεκτείνουν τις δυνατότητες εξυπηρέτησης πελατών τους. Ωστόσο, η OpenAI σημειώνει ότι οι νέες δυνατότητες θα φανούν χρήσιμες σε ένα ευρύ φάσμα τομέων, όπως η εκπαίδευση, τα μέσα ενημέρωσης, οι εκδηλώσεις και οι πλατφόρμες δημιουργών.
Όσον αφορά την ασφάλεια, η OpenAI τόνισε ότι έχει ενσωματώσει δικλείδες ασφαλείας για να αποτρέψει την κατάχρηση των νέων εργαλείων για τη δημιουργία spam, απάτης ή άλλων μορφών διαδικτυακής κακοποίησης. Συγκεκριμένοι μηχανισμοί έχουν ενσωματωθεί στο σύστημα, ώστε οι συνομιλίες να μπορούν να διακόπτονται εάν ανιχνευθεί παραβίαση των οδηγιών για το επιβλαβές περιεχόμενο.
Βιβλιογραφία
TechCrunch: https://techcrunch.com