Начну с небольшого экскурса в историю вопроса.

В 2016 году компания Adobe анонсировала инструмент VoCo, который был способен имитировать голос любого человека. Для этого ему был необходим образец голоса - запись длиной 20 минут.

Имитация голоса уже реальность

Годом позже канадский стартап Lyrebird запустил бета-версию сервиса (легко гуглится), с помощью которого можно обучить нейронную сеть имитировать любой голос. Для обучения необходима запись длиной уже всего одна! минута.

В своем бложике они всячески подчёркивают свои исключительно добрые намерения, бьют себя в грудь, обещая, что "ваш голос принадлежит только вам", а они "всего лишь обслуга". Но это все слова, тем более я не нашел ни одного упоминания о хотя бы предположительной области применения этой технологии.

И теперь перейдем к самому интересному.

Учёные из китайской компании Baidu в феврале 2018 опубликовали статью, в которой описывается подход к клонированию голоса, работающий на образцах длиной всего 3.7 секунды!!!! Качество результата в таком случае, конечно плохое, но разработка-то продолжается...

Так что, уважаемые пикабушники, хочу предупредить вас, что уже совсем скоро телефонные мошенники смогут выйти на новый уровень. И теперь вместо смски от "сына/дочери/внука/.." с просьбой срочно положить денег на телефон, они просто позвонят. И для генерации вашего голоса используют запись вашего разговора с какой-нибудь службой поддержки, "случайно" пропавшей в открытый доступ. Будьте осторожны!


Вот здесь можно послушать результаты работы алгоритма Baidu: https://audiodemos.github.io.