Программа клонирования голоса от Baidu

Интернет гигант, и по совместительству «китайский Google», отчитался о работе, проведённой в сфере развития искусственного интеллекта. Компания представила интересный программный продукт, работающий с нейронными сетями, который способен за секунды клонировать голос любого человека. Программе достаточно проанализировать короткий фрагмент исходника, и на выходе получается неотличимый от оригинала клон голоса. Более того, помимо точных характеристик тембра и прочего, программа умеет придавать голосу особенности, к примеру, акцент.

Этот вариант является более продвинутой версией программы, которая имитировала голос, анализируя довольно длинные фрагменты образцов, но специалисты подразделения Deep Voice представили год назад продукт, которому хватает всего получасового фрагмента. Однако конкуренты тоже не спят, программа VoCo от знаменитой компании Adobe может имитировать речь, обработав двадцатиминутный материал, а молодая компания Lyrebird из Канады вообще продемонстрировала удивительные результаты – их программа могла создать клон на основе всего минутного фрагмента исходника.

Сферы применения

И вот новая подвижка в этом направлении от Baidu, теперь программе достаточно изучить всего несколько секунд исходника. Впечатляет, но для чего это всё, какая практическая польза от подобной технологии? О сути, это просто игрушка, баловство. Но не стоит спешить с выводами, поскольку точек приложения может быть очень много. Даже банальная болезнь, когда человек лишается на время или постоянно способности говорить. А технология ему эту способность вернёт, пусть и таким не очень естественным образом. А если у вас неспокойный ребёнок, не желающий засыпать, пока не услышит сказку от мамы, её голоса. И если вам некогда, либо вы далеко, то голос ваш сам прибудет к вашему ребёнку. Со всеми интонациями и характеристиками, даже если нет возможности связаться по телефону. Кроме того, голосовые ассистенты теперь будут говорить с вами тем голосом, который вам приятен и знаком.

Обратная сторона

Да, обратная сторона имеется у любой технологии, даже самой мирной на первый взгляд. В нашем случае, это злоупотребления технологией, голос известных людей могут использовать несанкционированно и в не очень законных целях. Сейчас лучшие системы распознавания голоса в подавляющем большинстве случаев идентифицируют клонированный голос как оригинал, это более 95 процентов. В этом кроются опасности, технология станет доступна широким массам, и случаи мошенничества не заставят себя ждать.

Сегодня уже существуют программы, основанные всё на тех же нейронных сетях, которые способны менять лица людей на видеоматериалах. Уже есть случаи изменения видео для взрослых, где используются лица знаменитых людей. И если пока это выглядит как обычное хулиганство, то в купе с идеальным копированием голоса, проблема может переместится на более высокий уровень. Фейковые новости, ложные заявления политиков, которые говорят то, чего на самом деле не сказали бы никогда. Даже нынешний уровень подмены в фотошопе многих людей способен обмануть, что же будет дальше, когда зачатки ИИ попадут в руки профессиональных мошенников. Ведь на сегодняшний день его возможности превосходят фотошоп в сотни раз.


Поделись мнением о статье "Программа клонирования голоса от Baidu", предложи свой вариант в комментариях! Спасибо!


Добавить комментарий

Ваш e-mail не будет опубликован.