ΓΔ
2,442.92 +46.55 +1.94%
S&P 500
7,394.30 +127.31 +1.75%
DOW JONES
50,848.75 +929.97 +1.86%
NASDAQ
25,809.66 +640.16 +2.54%
DAX
24,669.37 +459.66 +1.90%
CAC
8,371.50 +170.71 +2.08%
NIKKEI
66,020.04 +1802.77 +2.81%
EUR / USD
1.16 -0.00 -0.01%
EUR / CHF
0.92 +0.00 +0.16%
Τεχνολογία

Η OpenAI λανσάρει νέες δυνατότητες φωνητικής νοημοσύνης στο API της

T
Toggle Tech Team
📅 May 9, 2026 ⏱ 2 min read 👁 25 views
Η OpenAI λανσάρει νέες δυνατότητες φωνητικής νοημοσύνης στο API της

Η OpenAI εισάγει προηγμένες δυνατότητες φωνητικής νοημοσύνης στο API της, επιτρέποντας στους προγραμματιστές να δημιουργούν εφαρμογές που μιλούν, μεταφράζουν και μεταγράφουν σε πραγματικό χρόνο. Με το νέο μοντέλο GPT-Realtime-2, που βασίζεται σε τεχνολογία επιπέδου GPT-5, και τα εργαλεία μετάφρασης και μεταγραφής, η εταιρεία στοχεύει στην αναβάθμιση της εξυπηρέτησης πελατών, της εκπαίδευσης και των μέσων ενημέρωσης, ενσωματώνοντας παράλληλα ισχυρές δικλείδες ασφαλείας.

Η OpenAI ανακοίνωσε την Πέμπτη ότι το API της θα περιλαμβάνει πλέον μια σειρά από νέες δυνατότητες φωνητικής νοημοσύνης, σχεδιασμένες να βοηθήσουν τους προγραμματιστές να δημιουργήσουν εφαρμογές που μπορούν να μιλούν, να μεταγράφουν και να μεταφράζουν συνομιλίες με τους χρήστες σε πραγματικό χρόνο.

Το νέο μοντέλο της εταιρείας, το GPT-Realtime-2, αποτελεί μια εξελιγμένη φωνητική προσομοίωση που μπορεί να συνομιλεί ρεαλιστικά με τους χρήστες. Σε αντίθεση με τον προκάτοχό του, το GPT-Realtime-2 είναι βασισμένο σε συλλογιστική επιπέδου GPT-5, γεγονός που του επιτρέπει να διαχειρίζεται πολύ πιο περίπλοκα αιτήματα χρηστών με μεγαλύτερη ακρίβεια και φυσικότητα.

Παράλληλα, η εταιρεία λανσάρει το GPT-Realtime-Translate, μια υπηρεσία σχεδιασμένη να παρέχει μεταφραστικές υπηρεσίες σε πραγματικό χρόνο που «συμβαδίζουν» με τον ρυθμό του χρήστη κατά τη διάρκεια μιας συνομιλίας. Το χαρακτηριστικό αυτό υποστηρίζει περισσότερες από 70 γλώσσες εισόδου και 13 γλώσσες εξόδου, διευκολύνοντας την επικοινωνία σε παγκόσμιο επίπεδο.

Στις νέες προσθήκες περιλαμβάνεται και το GPT-Realtime-Whisper, το οποίο προσφέρει δυνατότητες ζωντανής μετατροπής ομιλίας σε κείμενο (speech-to-text), καταγράφοντας τις αλληλεπιδράσεις καθώς αυτές συμβαίνουν. Σύμφωνα με την OpenAI, ο συνδυασμός αυτών των μοντέλων μετακινεί τον ήχο σε πραγματικό χρόνο από μια απλή διαδικασία «ερώτησης-απάντησης» προς φωνητικές διεπαφές που μπορούν πραγματικά να εκτελέσουν εργασία: να ακούσουν, να σκεφτούν, να μεταφράσουν, να μεταγράψουν και να αναλάβουν δράση καθώς εξελίσσεται μια συνομιλία.

Οι ενημερώσεις αυτές στοχεύουν πρωτίστως σε εταιρείες που επιθυμούν να επεκτείνουν τις δυνατότητες εξυπηρέτησης πελατών τους. Ωστόσο, η OpenAI σημειώνει ότι οι νέες δυνατότητες θα φανούν χρήσιμες σε ένα ευρύ φάσμα τομέων, όπως η εκπαίδευση, τα μέσα ενημέρωσης, οι εκδηλώσεις και οι πλατφόρμες δημιουργών.

Όσον αφορά την ασφάλεια, η OpenAI τόνισε ότι έχει ενσωματώσει δικλείδες ασφαλείας για να αποτρέψει την κατάχρηση των νέων εργαλείων για τη δημιουργία spam, απάτης ή άλλων μορφών διαδικτυακής κακοποίησης. Συγκεκριμένοι μηχανισμοί έχουν ενσωματωθεί στο σύστημα, ώστε οι συνομιλίες να μπορούν να διακόπτονται εάν ανιχνευθεί παραβίαση των οδηγιών για το επιβλαβές περιεχόμενο.

Βιβλιογραφία

TechCrunch: https://techcrunch.com

T

Toggle Tech Team

Editor-in-chief at Toggle. Covering technology and global affairs.