חדשות מהירות לכולכם: ElevenLabs הוציאו זה עתה את גרסה 3 של מודל הטקסט-לדיבור שלהם, ונחשו מה? הם טוענים שהם ה-TTS הכי אקספרסיבי שיש. עכשיו, אני לא יודע אם זה אומר "הכי אקספרסיבי בעולם" (הם בהחלט גמישים, בכל אופן), אבל דבר אחד בטוח: זה בהחלט יותר אקספרסיבי מכל דבר שהם הוציאו בעבר. לא יכולתי לחכות לבדוק את זה, אז הנה מה שמצאתי!
מה הבאזז?
הנה הסקופ: המודל החדש הזה עדיין במצב "תצוגה מקדימה של מחקר", אבל הם כבר מאפשרים לכם לצלול פנימה. בכל פעם שהוא מייצר קול, הוא נותן לכם שתי אפשרויות לבחור מהן - כך שאתם מקבלים אופציה קטנה של "בחרו את ההרפתקה שלכם" לצורכי ה-TTS שלכם. החלק המגניב? הם עדיין מכווננים אותו כי, ובכן, התחרות הופכת להיות עזה. זה זמן טוב ללכלך את הידיים ולהתחיל לשחק איתו.
תכונות מגניבות שכדאי לבדוק
הנה סיכום של כמה דברים שתפסו את עיני:
רגשות עם הגשה : כן, עכשיו אפשר להוסיף רגש להגשה הקולית באמצעות סוגריים. קל מאוד לשימוש ונותן הרבה יותר אופי לקול.
דיאלוגים מהירים מרובים : כעת ניתן לדבר בין שתי דמויות במהירויות שונות, וזה נהדר ליצירת שיחות מציאותיות.
70 שפות : כן, יש להם 70 שפות, אז אפשר להשתמש במודל הזה ברמה עולמית (או לפחות אזורית, תלוי איפה משתמשים בו).
ממשק API לגישה מוקדמת : ממשק ה-API עדיין לא פעיל במלואו, אך אם אתם רוצים גישה מוקדמת, תוכלו ליצור איתם קשר ולנסות לבדוק אותו.
התראת מבצע מיוחד!
אם אתם מעוניינים, יש הנחה של 80% עד יוני. כן, קראתם נכון - 80%. אז אם אתם רוצים להתחיל לייצר תוכן אודיו רציני בלי לרוקן את הכיס, עכשיו זה הזמן להתחיל. אחרי יוני, אני מניח שהמחיר יעלה בקפיצות, אז אל תחכו!
ניסוי: בואו נשמע!
עשיתי בעצמי בדיקה מהירה, ובכן, התוצאות מדברות בעד עצמן. האזינו לשתי הגרסאות שנוצרו על ידי המודל ביוטיוב המצורף למעלה.
יש הבדל קטן באיך שהם נשמעים - גרסה 2 יצאה טובה יותר, טבעית יותר.
אבל זה היופי של המודל: אתה יכול לבחור את הגרסה שהכי מתאימה לך.
מה הלאה?
המודל הזה עדיין בפיתוח, אבל אני ממש מתרגש ממה שהוא כבר מסוגל לעשות. התחילו להתנסות איתו עכשיו, וספרו לי מה אתם מעלים. בין אם אתם יוצרים תוכן אודיו מציאותי, בונים בוטים אינטראקטיביים או סתם נהנים עם דמויות שונות, האפשרויות הן אינסופיות.