Es más expresivo, más natural y más multilingüe, aunque no del todo perfecto.

OpenAI acaba de lanzar una actualización del Modo de voz avanzado para los usuarios pagos de ChatGPT, y es una clara señal de que la IA con la que hablamos está empezando a sonar mucho más como nosotros.

Esta nueva versión, disponible solo dos días después del revuelo en internet por la Versión 3 de ElevenLabs , ofrece una entonación más sutil, una cadencia más inteligente (sí, sabe cuándo hacer una pausa) y un rango emocional que ahora incluye empatía , sarcasmo y todo lo demás. Ah, y también puede traducir en directo entre idiomas, durante una conversación. Ya sea que estés pidiendo un café en portugués o explicando un proyecto en japonés, Voice ahora puede actuar como intérprete y asistente.

🎙️ Pero no confundas suave con perfecto.

💬 Lo que dice OpenAI

Con esta actualización, OpenAI quiere que las conversaciones con ChatGPT se sientan menos como dar órdenes y más como hablar con alguien que "lo entiende". El Modo de Voz ha pasado de ser plano a ser a todo color, ahora capaz de sonar reconfortante , curioso o incluso un poco atrevido .

Y con traducción en tiempo real , se posiciona como su compañero de viaje y compañero de trabajo global siempre disponible.

🧠 Lo que eso significa (en palabras humanas)

El modo de voz no sólo es más natural: también es más práctico .

  • Ahora puedes conversar en diferentes idiomas , con manos libres.

  • Hace pausas y enfatiza como una persona real.

  • Y sí, ahora realmente puede sonar un poco sarcástico si el momento lo requiere.

Esto acerca la tecnología de voz de ChatGPT al nivel de asistentes con scripts como Alexa o Siri, pero con la flexibilidad del diálogo abierto.

Excepto…

❗ Fallos conocidos: todavía un poco áspero en los bordes

Al igual que cualquier artista que busca su rango, Voice Mode aún no ha alcanzado su tono perfecto.

  • Peculiaridades del audio : algunos usuarios informan caídas en la calidad del sonido, como cambios tonales extraños o artefactos robóticos.

  • Alucinaciones extrañas : casos raros de ruidos de fondo, música o sonidos parecidos a los de la publicidad, a pesar de que no existen datos al respecto.

Las voces pueden ser más suaves, pero los fantasmas en la máquina no han abandonado completamente el edificio.

❄️ Perspectiva del equipo FrozenLight

Esta mejora es impresionante. Pero aquí está la parte discreta que vale la pena mencionar:

Sonar humano no es lo mismo que ser útil.
Una voz que fluye con naturalidad da una sensación de mayor confianza, pero eso es una ilusión emocional. No hace que el modelo sea más preciso ni que las percepciones sean más significativas. Y, desde luego, no significa que el problema de las alucinaciones haya desaparecido.

Además, la expresividad es un arma de doble filo. Cuanto más "real" se percibe la voz, más incómoda resulta cuando algo falla. Un error en un tono monótono es tolerable. ¿Un error en un tono seguro y sarcástico? Eso es asombroso.

💡Así que aquí está nuestra opinión:
Nos gusta la dirección que estamos tomando. Pero el siguiente paso no es solo pulir la voz, sino asegurar que el contenido de lo que se dice esté a la altura de su sonido.

Porque no se puede automatizar la confianza. Pero sí se puede construir, palabra a palabra, voz a voz.

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.