גוגל (Google) פרסמה מסמך מחקר המתאר בפירוט רב מערכת חדשה שפותחה בתוך החברה, ומטרתה לדמות קול אנושי ברמה מציאותית גבוהה כל כך, שלמעשה לא ניתן יהיה להבדיל עוד בין הקול הממוחשב וקול אנושי אמיתי.
המערכת החדשה, Tacotron 2, משלבת בין שתי רשתות נוירונים נפרדות. האחת הופכת טקסט לתרשים ויזואלי (ספקטוגרמה) מדויק במיוחד, ואילו השנייה מסוגלת ״לקרוא״ את התרשים ולהפוך אותו לדיבור. התוצאה היא קול שלא רק נשמע דומה מאוד לקול האנושי, אלא אף מתחשב בנושא המשפט ובטון, ומקריא אותו תוך הדגשת מילים או רעיונות מסוימים.
המערכת מתמודדת היטב גם עם שמות קשים לביטוי ומשפטים ארוכים ומורכבים, אם כי נכון לעכשיו היא תומכת בשפה האנגלית בלבד, ורק בקול נשי. למרות שהמחקר עצמו עוסק בהיבטים התאורטיים של מערכת האינטליגנציה המלאכותית המתוחכמת שפותחה לצורך יצירת הקול הממוחשב, Tacotron 2 היא מוצר מסחרי לכל דבר ועניין ולאחר שיושלם פיתוחו הוא צפוי להשתלב בשירותים השונים של גוגל, לרבות אפליקציית הסייען הדיגיטלי Google Assistant וסדרת הרמקולים החכמים Google Home.
דוגמאות של הפרויקט אפשר למצוא כאן.