14 ноября 2019, 09:48

Нейросеть научилась копировать голоса за пять секунд

Читать 360tv в

Пять секунд входных данных хватило искусственному интеллекту, чтобы научиться копировать чужой голос. Комплексную систему синтеза речи разработали в Google.

Свой вклад в развитие генератора речи «Такотрон» внесли более 10 специалистов. Система способна подражать голосам различных людей. Состоит она из трех компонентов, существующих независимо друг от друга.

Одна нейросеть верифицирует речь за несколько секунд даже в потоке фонового шума, вторая синтезирует последовательности на основе Tacotron 2, третья отвечает за результат на выходе.

Специалисты уверены, что при помощи модели смогут синтезировать «естественную речь», даже если голос человека не был задействован во время обучения нейросети.

«Сырые технологии и нулевое участие человека» не мешают работать и нейросети-копирайтеру. Она способна сгенерировать текст из одной предложенной фразы.

Реклама

Реклама