OpenAI lance trois nouveaux modèles d'API audio en temps réel, dont GPT-Realtime-2

Le GPT-Realtime-2 d'OpenAI apporte un raisonnement de classe GPT-5 aux agents vocaux en direct, et est lancé avec deux modèles audio en temps réel supplémentaires via l'API d'OpenAI.

OpenAI a lancé GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper par le biais de son API Realtime, qui est désormais disponible pour les agents vocaux de production.

Darryl Linington (traduit par DeepL / Ninh Duy), Publié 05/09/2026 🇺🇸 🇩🇪 ...

AI Business Software Laptop / Notebook Desktop Android Apple

OpenAI a lancé trois nouveaux modèles audio en temps réel via son API, poussant l'IA vocale des interactions de base de type question-réponse vers des agents capables d'écouter, de raisonner, de traduire et d'agir au sein d'une seule conversation en direct. Ce lancement marque également la sortie de l'API Realtime de la version bêta, la rendant généralement disponible pour une utilisation en production pour la première fois.

Au centre de cette version se trouve GPT-Realtime-2, le premier modèle vocal d'OpenAI construit sur le raisonnement de classe GPT-5. Contrairement à l'architecture étape par étape sur laquelle s'appuient la plupart des systèmes vocaux, GPT-Realtime-2 traite l'audio dans un flux continu, ce qui lui permet d'interpréter la parole au fur et à mesure et de répondre sans le décalage causé par des étapes de transcription et de synthèse séparées. Le modèle prend en charge une fenêtre contextuelle de 128 000 jetons, contre 32 000 dans la version précédente, ce qui permet de réaliser des sessions vocales plus longues et des flux agentiques complexes à plusieurs étapes sans échafaudage de mémoire externe.

Ce que GPT-Realtime-2 peut faire

Le modèle est conçu spécifiquement pour ce que OpenAI appelle le "comportement agentique" pendant les appels vocaux pendant les appels vocaux. Les préambules lui permettent de dire "Laissez-moi vérifier ça" ou "Un moment" pendant qu'elle exécute les appels d'outils, de sorte que les utilisateurs ne sont pas laissés dans l'expectative. Les appels d'outils parallèles lui permettent d'exécuter simultanément plusieurs demandes d'arrière-plan et d'indiquer laquelle est en cours d'exécution. Un comportement de récupération plus fort signifie qu'il gère les échecs à voix haute plutôt que de se figer au milieu de la conversation. L'ajustement du ton lui permet de passer d'un style à l'autre en fonction du contexte : plus mesuré pour les appels d'assistance et plus optimiste pour les confirmations.

GPT-Realtime-2 obtient un score supérieur de 15,2 % à celui de GPT-Realtime-1.5 sur Big Bench Audio, le benchmark de raisonnement audio d'OpenAI, et un score supérieur de 13,8 % sur Audio Multichallenger pour le suivi des instructions. Lors des tests en conditions réelles, Zillow a enregistré une augmentation de 26 points du taux de réussite des appels sur son benchmark adversarial le plus difficile, passant de 69 % à 95 % après une optimisation rapide sur GPT-Realtime-2. Le prix du modèle est de 32 dollars par million de jetons d'entrée audio et de 64 dollars par million de jetons de sortie audio, avec 0,40 dollar par million de jetons d'entrée mis en cache.

GPT-Realtime-Translate et GPT-Realtime-Whisper

Le deuxième modèle, GPT-Realtime-Translateest un système de traduction vocale en direct. Il traite les entrées vocales en continu et produit des traductions en temps réel sans demander aux locuteurs de faire des pauses ou de terminer des phrases complètes. Le modèle prend en charge plus de 70 langues d'entrée et 13 langues de sortie, ciblant l'assistance à la clientèle, l'éducation, les événements en direct et les environnements de vente transfrontaliers. BolnaAI, une société spécialisée dans l'IA vocale qui travaille pour les marchés linguistiques indiens, rapporte des taux d'erreurs de mots inférieurs de 12,5 % en hindi, en tamoul et en télougou par rapport à l'approche de traduction précédente. Le prix de GPT-Realtime-Translate est de 0,034 $ par minute de traitement audio.

GPT-Realtime-Whisper est le troisième modèle, qui étend la technologie de reconnaissance vocale Whisper d'OpenAI, largement adoptée, à un système de streaming. Alors que la version originale de Whisper était conçue pour la transcription après enregistrement, cette version produit des sous-titres en direct, au moment même où la parole est prononcée. Les cas d'utilisation comprennent les réunions en direct, la documentation des salles d'audience, la transcription dans les salles de presse et les outils d'accessibilité pour les utilisateurs malentendants. Il s'agit du modèle le plus abordable des trois, à 0,017 $ par minute. Les trois modèles sont disponibles dès maintenant via l'API OpenAI et le terrain de jeu des développeurs.

Le lancement ajoute également la prise en charge du serveur MCP, des capacités de saisie d'images et l'intégration des appels téléphoniques SIP à l'API Realtime, ce qui élargit la gamme des flux de travail de téléphonie d'entreprise et d'agentivité que les développeurs peuvent créer sans quitter l'API.

L'espace des outils d'IA a également attiré les attaquants qui cherchent à exploiter l'intérêt pour les nouveaux produits. Notebookcheck a fait état hier d'un faux site web Claude AI qui diffusait la porte dérobée Beagle Windows par le biais de résultats de recherche sponsorisés par Google à l'aide d'un programme d'installation Claude-Pro Relay trojanisé.