Voder: перший у світі синтезатор людської мови
Голос у GPS-навігаторі, віртуальний асистент у смартфоні чи автоматичні відповіді гарячих ліній часто не є справжніми голосами. Не існує настільки великої кількості записаних слів, які комп’ютер підбирає і з’єднує разом, щоб створити речення. Вони генеруються комп’ютером “на льоту”, але звучать настільки природно, настільки по-людськи, що часто їх неможливо відрізнити від голосу реальної людини.
Людські голоси набагато складніші з акустичної точки зору, ніж гавкіт собаки чи нявчання кота. Їхнє розмаїття просто вражає – немає двох голосів, які звучали б абсолютно однаково. Додайте до цього різні інтонації та емоції, наголоси на складах та акценти. Відтворити нюанси мовлення зовсім не просто. Те, що ми здатні синтезувати людський голос, та ще й з такою точністю, є справжнім досягненням.
Одна з перших спроб створити синтезатор людського голосу була зроблена російським професором Християном Краценштейном понад двісті років тому, у 1779 році. Краценштейн створив апарат, що складався з ряду вібруючих трубок, які були конструктивно подібні до голосового тракту людини. Його пристрій міг штучно відтворювати п’ять довгих голосних звуків.
У 1791 році австрійський винахідник Вольфганг фон Кемпелен (Wolfgang von Kempelen) створив більш досконалу машину, змодельовану на основі різних людських органів, які беруть участь у процесі мовлення. Машина мала пару сильфонів, що імітували легені, вібруючу пластину, яка виконувала роль голосових зв’язок, шкіряну трубку для голосового тракту, дві ніздрі, шкіряні язик та губи. Маніпулюючи формою шкіряної трубки та положенням язика і губ, фон Кемпелен зміг відтворювати певні приголосні і голосні звуки. Через 50 років Чарльз Вітстоун (Charles Wheatstone) сконструював вдосконалену версію мовної машини фон Кемпелена, яка могла вимовляти більшість приголосних звуків і навіть кілька повних слів.
Першим пристроєм, який можна вважати справжнім синтезатором мови, був THE VODER (Voice Operating Demonstrator), розроблений Гомером Дадлі з Bell Labs у 1930-х роках. Це була досить складна машина з чотирнадцятьма клавішами, схожими на піаніно, планкою, керованою зап’ястям, і ножною педаллю, якою оператор маніпулював, щоб змусити машину говорити. Звук був дуже роботизованим, наче “інопланетянин, що говорить під водою”, як описала його Ліза Гернсі з “Нью-Йорк Таймс”.
Насправді, “голос робота”, який ми часто чуємо в старих науково-фантастичних фільмах, можливо, походить якраз від VODER. “Після того, як справжній голос машини увійшов у суспільну свідомість, його місце і форма в художньому зображенні вже ніколи не будуть такими, як раніше, – писав Бен Фіно-Радін з Rhizome. “Після того дня в 1939 році ми точно знали, як має звучати нелюдська машинна мова”.
Пісня “Auld Lang Syne” у виконанні ВОДЕРа:
На сайті whatisthevoder.com, який присвячений VODER, описано, як він працював:
Оператор вибирав один з двох основних звуків за допомогою зап’ястного пульта: дзижчання і шипіння. Дзижчання було основою для голосних звуків і звуків носового типу. Шиплячий звук був основою для приголосних.
Потім ці звуки пропускалися через фільтри, які обирав оператор шляхом натискання відповідних клавіш на клавіатурі. Ці звуки об’єднувалися і відправлялися через гучномовець. Для звуків, які не можна відтворити за допомогою дзижчання або шипіння, таких як “p”, “d”, “j” і “ch”, можна було вибрати додаткові фільтри.
Різні слова можна було об’єднувати в різні речення на основі маніпуляцій з клавішами та фільтрами. Можна було навіть додавати різні вирази і висоту голосу (регулювалося педаллю).
Гелен Гарпер, яка була центральним оператором VODER під час його демонстрації на Всесвітній виставці в Нью-Йорку в 1939 році, дає нам уявлення про те, наскільки важко було опанувати це чудо техніки:
“Наприклад, щоб відтворити на ВОДЕРі слово “концентрація” (англ. concentration), я повинна послідовно вимовити тринадцять різних звуків, зробити п’ять рухів зап’ястя, змінити положення педалі від трьох до п’яти разів, залежно від того, яку інтонацію я хочу надати цьому слову. І, звичайно, все це потрібно робити в точно визначений час”.
Харпер знадобився рік постійних тренувань, перш ніж вона навчилася керувати машиною з достатньою точністю. Триста дівчат проходили навчання на операторів, але менше тридцяти дійшли до кінця.
Такий досвідчений оператор, як пані Гарпер, могла змусити VODER заговорити будь-якою мовою, а також імітувати голоси тварин.