Una noticia rápida para todos: ElevenLabs acaba de lanzar la versión 3 de su modelo de texto a voz, ¿y adivinen qué? Afirman ser el TTS más expresivo del mercado. No sé si eso significa "el más expresivo del mundo" (aunque definitivamente están presumiendo), pero una cosa es segura: es definitivamente más expresivo que cualquier otro que hayan lanzado antes. ¡Tenía muchas ganas de probarlo, así que aquí les dejo lo que encontré!

¿Qué es el rumor?

Aquí está la primicia: este nuevo modelo todavía está en modo de "vista previa de investigación", pero ya te permiten probarlo. Cada vez que genera una voz, te da dos opciones para elegir, así que puedes "elige tu propia aventura" para tus necesidades de TTS. ¿Lo mejor? Todavía lo están perfeccionando porque, bueno, la competencia es feroz. Es un buen momento para ponerte manos a la obra y empezar a experimentar con él.

Características interesantes para revisar

A continuación un resumen de algunas cosas que me llamaron la atención:

  • Emociones con la entrega : Sí, ahora puedes añadir emociones a la entrega de voz usando corchetes. Es muy fácil de usar y le da mucho más carácter a la voz.

  • Diálogos de múltiples velocidades : ahora puedes tener dos personajes hablando a diferentes velocidades, lo que es fantástico para crear conversaciones realistas.

  • 70 idiomas : Sí, tienen 70 idiomas en su haber, por lo que puedes llevar este modelo a nivel global (o al menos regional, dependiendo de dónde lo uses).

  • API de acceso anticipado : la API aún no está completamente activa, pero si quieres participar antes, puedes comunicarte con ellos y tener la oportunidad de probarla.

¡Alerta de oferta especial!

Si te interesa, hay un 80% de descuento hasta junio. Sí, has leído bien: 80%. Así que si quieres empezar a generar contenido de audio de calidad sin gastar una fortuna, ¡aprovecha ahora! Después de junio, imagino que el precio subirá, ¡así que no esperes!

Prueba de funcionamiento: ¡Escuchémoslo!

Hice una prueba rápida y, bueno, los resultados hablan por sí solos. Escucha estas dos versiones generadas por el modelo en el video de YouTube adjunto.

Hay una ligera diferencia en cómo suenan: la versión 2 salió mejor, más natural.
Pero esa es la belleza del modelo: puedes elegir la versión que funcione mejor para ti.

¿Que sigue?

Este modelo aún está en desarrollo, pero estoy muy entusiasmado con todo lo que ya es capaz de hacer. Empieza a experimentar con él ahora y cuéntame qué se te ocurre. Ya sea que estés generando contenido de audio realista, creando bots interactivos o simplemente divirtiéndote con diferentes personajes, las posibilidades son infinitas.

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.