C'est plus expressif, plus naturel et plus multilingue, mais pas tout à fait parfait.
OpenAI vient de déployer une mise à niveau vers le mode vocal avancé pour les utilisateurs payants de ChatGPT - et c'est un signe clair que l'IA à laquelle nous parlons commence à nous ressembler beaucoup plus.
Cette nouvelle version, disponible seulement deux jours après l'engouement suscité par la version 3 d'ElevenLabs , apporte une intonation plus subtile, une cadence plus intelligente (oui, elle sait quand s'arrêter) et une palette émotionnelle qui inclut désormais l'empathie , le sarcasme et tout ce qui se trouve entre les deux. Oh, et elle peut aussi traduire en direct d'une langue à l'autre, au milieu d'une conversation. Que vous commandiez un café en portugais ou que vous expliquiez un projet en japonais, Voice peut désormais jouer à la fois le rôle d'interprète et d'assistant.
🎙️ Mais ne confondez pas lisse et parfait.
💬 Ce que dit OpenAI
Avec cette mise à jour, OpenAI souhaite que les conversations avec ChatGPT ressemblent moins à des commandes qu'à une conversation avec quelqu'un qui « comprend ». Le mode vocal est passé d'un ton plat à un ton tout en couleur, capable désormais de sonner de manière réconfortante , curieuse ou même un peu effrontée .
Et grâce à la traduction en temps réel , il se positionne comme votre compagnon de voyage toujours connecté et votre collègue mondial.
🧠 Ce que cela signifie (en termes humains)
Le mode vocal n'est pas seulement plus naturel, il est aussi plus pratique .
Vous pouvez désormais converser dans différentes langues , en mains libres.
Il fait une pause et met l'accent comme une vraie personne.
Et oui, cela peut désormais paraître un peu sarcastique si le moment l’exige.
Cela rapproche la technologie vocale de ChatGPT du niveau des assistants scriptés comme Alexa ou Siri, mais avec la flexibilité du dialogue ouvert.
Sauf…
❗ Problèmes connus : encore un peu approximatif sur les bords
Comme tout artiste cherchant sa gamme, le mode Voice n'est pas encore parfait.
Bizarreries audio : certains utilisateurs signalent des baisses de qualité sonore, comme des changements de tonalité gênants ou des artefacts robotiques.
Hallucinations étranges : cas rares de bruits de fond, de musique ou de sons de type publicité - bien qu'aucune donnée de ce type ne soit présente.
Les voix sont peut-être plus douces, mais les fantômes dans la machine n'ont pas complètement quitté le bâtiment.
❄️ Point de vue de l'équipe FrozenLight
Cette mise à jour est impressionnante. Mais voici la petite chose qui mérite d'être dite à voix haute :
Parler humain n’est pas la même chose qu’être serviable.
Une voix naturelle semble plus digne de confiance, mais il s'agit d'une illusion émotionnelle. Cela ne rend pas le modèle plus précis, ni les informations plus pertinentes. Et cela ne signifie certainement pas que le problème des hallucinations a disparu.
De plus, l'expressivité est réciproque. Plus la voix paraît « réelle », plus elle est mal à l'aise lorsqu'elle se trompe. Une erreur sur un ton monocorde est tolérable. Une erreur sur un ton assuré et sarcastique ? C'est étrange.
💡 Voici donc notre avis :
Nous apprécions la direction que prend cette approche. Mais l'étape suivante ne consiste pas seulement à peaufiner la voix : il s'agit de s'assurer que le contenu des paroles soit en phase avec la sonorité.
Parce qu'on ne peut pas automatiser la confiance. Mais on peut la construire, mot à mot, voix après voix.