Парсер Хабра: Станиславский для робота. Как использовать возможности эмоционального синтеза

четверг, 26 декабря 2013 г.

Станиславский для робота. Как использовать возможности эмоционального синтеза

Поздравляем всех с наступающими праздниками! Этот пост будет не столько технический, сколько сказочно-новогодний. По традиции, накануне Нового года мы придумываем подарки для наших партнеров и клиентов. Но также нам хочется сделать что-то приятное для более широкой аудитории. Самый лучший подарок – сделанный своими руками. А дарить подарки приятнее всего детям. Поэтому в этом году мы придумали проект «Робот читает сказки детям». Мы взяли 12 новогодних сказок, озвучили их с помощью синтеза речи и разместили на нашем портале Voice Fabric.

Как известно, Центр речевых технологий создал несколько голосов TTS (text-to-speech), которые используются в системах IVR контакт-центров, системах голосового оповещения, мобильных приложениях — «Radio RSS» и «Читатель».

Как подбирались голоса

Всего в команде «голосовых роботов» на данный момент 5 женских и 2 мужских голоса. У каждого голоса свое имя. Преобладание женских голосов объясняется тем, что в информационных системах именно женские голоса комфортнее для восприятия пользователями.

Индивидуальность каждого голоса обеспечивается несколькими факторами. Во-первых, тембр голоса сохраняется при студийной записи диктора, голос которого используется в качестве прототипа. Во-вторых, мы сохраняем интонационные особенности голоса диктора, применяя статистически рассчитанную модель голоса, которая создается именно по студийным фонограммам этого диктора.В итоге, для озвучивания сказок мы отобрали 6 голосов: Владимира, Анну, Юлию, Марию, Викторию и Александра.Выбирая сказки, мы руководствовались, конечно, новогодне-рождественской темой, отсутствием копирайтов, а также личными предпочтениями. Коллекция получилась пестрая: это и известные русские народные сказки («Два Мороза», «Лисичка-сестричка», «Снегурочка»), и европейская классика братьев Гримм и Г.Х. Андерсена. Также мы нашли менее известные у нас, но очаровательные рождественские сказки «Портной из Глостера» и «Мышонок Твикли». И, конечно, не могли обойти стороной замечательную притчу О. Генри «Дары волхвов», которая не совсем сказка, но очень трогательная история о настоящей любви.

Как происходит процесс озвучивания

Для начала были распределены роли: в основном, персонажи мужского рода отдавались мужским голосам, женского — женским. Исключения были, но редкие. За автора текст читал и мужской и женский голоса. Просто для разнообразия впечатлений. Часть персонажей получали дополнительную характерную тембральную окраску. Например, мыши озвучивались не просто женским голосом, но и дополнительно изменялся тембр в сторону «мелких» мультяшных героев.

Обработка текста перед озвучиванием была минимальной. В текст вставлялись SSML-теги «voice», которые задавали имя голоса для текста и дополнительные теги для задания тембра. Иногда приходилось уточнять место ударения в однозначном слове: «Бегут, дорОгой тешатся».

Нашей задачей было добиться естественности звучания, поэтому голоса должны передавать эмоции персонажей. И наши голосовые роботы это умеют. На пример, они могут смеяться. Для этого в тексте надо просто добавить веселый смайлик. И вздыхать. Для этого в тексте надо просто добавить грустный смайлик.

Зато с выражением других эмоций оказалось сложнее. Выяснилось, что выражению негатива наши роботы не обучены. В сказке «Лисичка-сестричка» старуха ругает старика очень нежно и ласково.

<voice name="Анна"/> Подошла баба к возу: ни воротника, ни рыбы, и начала ругать мужа: <voice name="Юлия"/> - Ах ты!.. Такой-сякой! Ты еще вздумал обманывать!

Да и голос звучит совсем не по-старчески, а мелодично и молодо. Вот тут можно воскликнуть в духе Станиславского «Не верю!»

Забавный момент в этой же сказке: «Лисичка прыгнула и попала головой в кадку с тЭстом». Сразу заметно, что у актрисы техническое образование, а от домоводства она далека.

Действительно, наш новогодний проект – это скорее творческая самодеятельность. Но наши синтезированные голоса используются и в настоящем театре. ЦРТ запускает проект в Александринском театре в Санкт-Петербурге. Разрабатывается синтезатор речи, способный читать художественный текст с сохранением речевых и эмоциональных особенностей голоса заданного актера.

Что получилось?

Мы запустили страничку со сказками на портале ЦРТ, посвященном технологиям синтеза речи Voice Fabric, а также анонсировали на страницах компании ВКонтакте и FaceBook.

Мы очень волновались по поводу того, как дети воспримут наш проект. Тем не менее, читателям наши сказки понравились. Более половины участников опроса ВКонтакте оценили проект положительно. Естественно, была и критика, что никакие роботы не могут заменить чтение книг родителями. И мы с этим полностью согласны! А вот познакомить в интересной игровой форме детей с миром высоких технологий очень даже могут! К тому же у этой технологии есть важная особенность — она позволяет читать сказки слабовидящим детям.

А вы что думаете?

P.S. Совсем недавно к команде наших роботов присоединилась англоговорящая коллега Carol, и мы обязательно придумаем что-нибудь интересное для ее творческого дебюта!

This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers.

Парсер Хабра

...

четверг, 26 декабря 2013 г.

Станиславский для робота. Как использовать возможности эмоционального синтеза

Как подбирались голоса

Как происходит процесс озвучивания

Что получилось?

Комментариев нет:

Отправить комментарий

...

четверг, 26 декабря 2013 г.

Станиславский для робота. Как использовать возможности эмоционального синтеза

Как подбирались голоса

Как происходит процесс озвучивания

Что получилось?

Комментариев нет:

Отправить комментарий

четверг, 26 декабря 2013 г.