29 октября 2019, 18:53

Компания Бекмамбетова научилась синтезировать голоса знаменитостей

Проект по полному копированию голосов известных людей Vera Voice запустили компания продюсера Тимура Бекмамбетова Screenlife Technologies и разработчик HR-сервиса «Робот Вера». Об этом сообщил vc.ru.

Сооснователь «Стафори» Владимир Свешников пояснил, что для получения копии голоса нейросеть учитывает манеру произношения слов, скорость речи, тембр и интонацию.

Он пояснил, что для синтеза голоса достаточно всего нескольких часов аудиоданных от обладателя голоса, а также оцифрованный текст, который герой начитывает.

«Аудиопоток и текст выгружаются в несколько нейронных сетей одновременно, одна генерирует спектрограмму звука (его визуальное изображение), а вторая — непосредственно звук», — пояснил Владимир Свешников.

При этом он пояснил, что со всеми заключат договор, чтобы использование голоса было легальным. Первым человеком, который согласился принять участие в проекте, стал сооснователь студии «Кубик в кубе» Руслан Габидуллин.

Сооснователи Vera Voice отметили, что намерены отслеживать появление голосовых клонов, чтобы защитить известных людей от несанкционированного копирования голосов.

Как напомнил РБК, это не первый подобный проект в России. Учрежденная Сбербанком компания АБК в январе показала ролик, где нейросеть говорила голосом актера Иннокентия Смоктуновского.

На Западе первой компанией, которая представила синтез человеческой речи с помощью нейросети, стала принадлежащая Google WaveNet. Свой алгоритм фирма показала еще в 2016 году. В данный момент такие технологии уже начали применять. В частности, умная колонка Alexa от компании Amazon может говорить голосом актера Самуэля Ли Джексона.