È più espressivo, più naturale e più multilingue, ma non del tutto impeccabile.
OpenAI ha appena lanciato un aggiornamento alla modalità vocale avanzata per gli utenti ChatGPT a pagamento: è un chiaro segnale che l'intelligenza artificiale con cui parliamo sta iniziando a parlare molto più come noi.
Questa nuova versione, arrivata solo due giorni dopo l'entusiasmo generale suscitato dalla versione 3 di ElevenLabs , offre un'intonazione più delicata, una cadenza più intelligente (sì, sa quando fermarsi) e una gamma di emozioni che ora include empatia , sarcasmo e tutto ciò che sta nel mezzo. Oh, e può anche tradurre in tempo reale da una lingua all'altra, anche durante una conversazione. Che tu stia ordinando un caffè in portoghese o spiegando un progetto in giapponese, Voice ora può svolgere sia il ruolo di interprete che di assistente.
🎙️ Ma non confondere liscio con perfetto.
💬 Cosa dice OpenAI
Con questo aggiornamento, OpenAI vuole che le conversazioni con ChatGPT sembrino meno un semplice impartire comandi e più un parlare con qualcuno che "capisce". La modalità vocale è passata da piatta a a colori, ora in grado di suonare rassicurante , curiosa o persino un po' impertinente .
E grazie alla traduzione in tempo reale , si sta posizionando come il tuo compagno di viaggio sempre connesso e collaboratore globale.
🧠 Cosa significa (in parole umane)
La modalità vocale non è solo più naturale, è anche più pratica .
Ora puoi conversare in diverse lingue , senza usare le mani.
Fa una pausa e sottolinea come una persona reale.
E sì, ora può effettivamente suonare un po' sarcastico se il momento lo richiede.
Ciò avvicina la tecnologia vocale di ChatGPT al livello degli assistenti vocali con script come Alexa o Siri, ma con la flessibilità del dialogo aperto.
Tranne…
❗ Problemi noti: ancora un po' grezzo
Come ogni artista che cerca di trovare la propria estensione vocale, Voice Mode non ha ancora raggiunto la tonalità perfetta.
Problemi audio : alcuni utenti segnalano cali nella qualità del suono, come strani cambiamenti di tono o artefatti robotici.
Allucinazioni strane : rari casi di rumori di sottofondo, musica o suoni simili a quelli pubblicitari, nonostante non siano presenti dati del genere.
Le voci potrebbero essere più dolci, ma i fantasmi nella macchina non hanno ancora lasciato del tutto l'edificio.
❄️ Prospettiva del team FrozenLight
Questo aggiornamento è impressionante. Ma ecco la parte silenziosa che vale la pena di dire ad alta voce:
Sembrare umani non equivale ad essere utili.
Una voce che fluisce naturalmente sembra più affidabile, ma è un'illusione emotiva. Non rende il modello più accurato, né le intuizioni più significative. E certamente non significa che il problema delle allucinazioni sia scomparso.
Inoltre, l'espressività è un'arma a doppio taglio. Più la voce sembra "reale", più ci si sente a disagio quando si sbaglia qualcosa. Un errore in un tono monotono è tollerabile. Un errore in un tono sicuro e sarcastico? È inquietante.
💡 Ecco la nostra opinione:
Ci piace la direzione intrapresa. Ma il passo successivo non è solo la rifinitura vocale: è assicurarsi che il contenuto di ciò che viene detto sia coerente con il suono.
Perché non puoi automatizzare la fiducia. Ma puoi costruirla, parola per parola, voce per voce.