Сладкий голосок: как звуковые дипфейки заставили мир онеметь

Перед человечеством стоит непростой вопрос, кому принадлежат голоса

Технологии преображают наши представления о реальности и о человеке, разрезая на кусочки то, что казалось целостным объектом. Собеседник как набор аудиовизуальной информации раскладывается на части, и вот уже его голос существует отдельно от лица и тела. Звучит достаточно фантастично, между тем на это способен обыкновенный телефон. С развитием ИКТ разрыв увеличивается: голосовые сообщения отделяются от говорящего не только в пространстве, но и во времени. И нить, соединяющая то, что мы слышим, с реальным объектом, оказывается еще тоньше и искривленнее.

А что, если никакого объекта на той стороне не будет вовсе? Только голос посреди металлического леса девайсов. Голос, очень напоминающий настоящего человека. Возможно, даже не абстрактного, а вполне конкретного. Возможно, это голос вашего друга или, кто знает – ваш собственный? Голосовой дипфейк, или клон голоса – это технология, позволяющая с помощью искусственного интеллекта воссоздать речь определенной персоны, сохранив ее характерные особенности. Причем синтезированы могут быть не только тембр, высота и сила голоса, но также скорость говорения, паузы, интонации – все, что делает его звучание узнаваемым.

Не так давно для создания реалистичной копии голоса требовались часы записи человеческой речи. Процесс говорения был материалом, состоящим из отдельных звуков. Запись делилась на фрагменты, которые затем соединялись для получения новых комбинаций. Это была большая и длительная работа. Взрывное развитие нейросетей перевернуло игру. Умные модели действуют намного быстрее: они учатся создавать аудиальный клон всего за несколько минут, а самые совершенные представители своего вида умеют справляться с задачей в считанные секунды. Что дальше? Вероятно, впереди нас ждет идеальная имитация речи в режиме реального времени.

В начале этого года Microsoft сообщила о том, что готовит ИИ, способный снять голос человека по записи длиной в 3 секунды. Всего 3 секунды, и человек оцифрован. Немного техномагии, и вот вы слышите «себя», бегло разговаривающего на китайском. Хотя стоит уточнить: прямо сейчас опробовать инструмент не получится, он доступен лишь для исследовательских целей. О разработке аналогичного алгоритма, способного воспроизводить голоса людей по небольшим фрагментам и работать с несколькими языками, сообщила и Meta*. Делать продукт общедоступным в корпорации тоже не спешат. Говорят, слишком велики риски.

А риски и правда огромные. Опасность голосовых дипфейков, которая приходит в голову в первую очередь, связана с мошенниками. Уж им-то подобная технология может неплохо помочь и уже помогает. Так, в Китае мужчина перевел серьезную сумму денег (4,3 млн юаней, или около 57 млн рублей), как он думал, своему хорошему другу. В действительности средства поступили на счет преступнику, укравшему личность его приятеля, то есть сумевшему создать качественный голосовой и визуальный дипфейк.

И случай этот далеко не единственный. Примерно в то же время мошенники в США попытались выманить у женщины деньги, сымитировав похищение ее дочери-подростка. Матери поступил звонок с неизвестного номера, на другом конце провода она услышала просьбы о помощи и крики, голос однозначно принадлежал ее ребенку. К счастью, женщина смогла сориентироваться и убедилась, что ее дочь на самом деле в безопасности. Однако немного меньше самообладания, и фальшивые похитители получили бы крупный выкуп, практически не замарав руки.

Между тем существование звуковых дипфейков ведет к появлению и более тонких проблем, чем апгрейд откровенных преступлений. Что такое голос и кому он принадлежит? Долгое время человечество, казалось, хорошо знало ответ на этот вопрос. Да, в какой-то момент голоса певцов и актеров стали доступны для прослушивания и без их присутствия, но авторское право разобралось с этой деталью. Грубо говоря, записанный голос принадлежит человеку, изо рта которого он исходит в момент записи – тут все просто и понятно. Но воссоздать голос не равно воссоздать запись голоса. С помощью технологии дипфейка голосом актера можно озвучить фразы, которые он никогда не говорил. А если момента, когда голос буквально исходит из своего обладателя, просто нет, то можно ли сказать, что это все еще его голос?

Этим вопросом оказалась глубоко обеспокоена актриса озвучивания и дубляжа Алена Андронова, когда обнаружила, что клон ее голоса легко доступен для использования в Сети. Модель для синтеза, воспроизводящая ее речь, стала коммерческим продуктом, отчужденным от нее самой. Произошло это после того, как она согласилась предоставить свой голос для обучения искусственного интеллекта «Тинькофф Банку». Две стороны встретились в непримиримой битве. Актриса уверена в том, что ее собственность украдена и нейросеть, получившая имя «Алена» и звучащая как она, – это эксплуатация ее голоса. В банке же утверждают, что синтезированная речь ИИ больше не имеет к ней отношения и вообще, доказать, что это именно ее голос, юридически нельзя.

На просторах интернета легко можно найти призраки голосов живых и мертвых людей, доступные для покупки и даже для свободного использования. Нейросетевой Винни-Пух, в советское время озвученный Евгением Леоновым, спел уже немало песен, далеких от своего репертуара, таких как Toxicity группы System of a Down или Smells Like Teen Spirit группы Nirvana. И кто скажет, связан ли как-то актер с ИИ-кавером или нет. Ведь пародисты тысячи раз копировали голос Винни-Пуха и могли делать это крайне успешно, даже неотличимо от оригинала. Можно ли тогда считать, что копирование естественными инструментами правомерно, а клонирование с помощью технологий – нет?

Если вдуматься, вопрос, кому принадлежит голос, можно развивать двумя путями: философским и грубо бюрократическим. В последнем случае нам потребуется унифицированная технология высочайшей точности, которая на базе единого алгоритма сможет кодировать голоса, превращая их в очень конкретный уникальный объект. Используя такую технологию, мы сумеем анализировать запись и устанавливать, звучит ли на ней чей-то определенный голос. Но этот путь, разумеется, открывает большое пространство для манипуляций: полностью скопированная речь с небольшой поправкой (к примеру, слегка смягченная буква «р») может считаться другим голосом, как бы здравый смысл не кричал об обратном. Реально ли избежать подобных инсинуаций? Есть над чем подумать. Стоит ли говорить, что философский путь потребует еще более глубоких размышлений.

Но дело в том, что общественность не то чтобы стремиться познать природу или установить истинную принадлежность голоса. Она лишь реагирует на угрозу. И активнее всего реакция со стороны профессионального сообщества, потому что и угроза для них выше. Еще в январе 2023 года российский Союз дикторов обратился в Госдуму с просьбой подвергнуть нейросетевой синтез голоса государственной регуляции. Ожидаемое событие, ведь именно дикторы волей случая оказались ближе всего к границе между искусственной и человеческой речью. Роботизированный голос пока плохо справляется с эмоциями, однако спокойное интонирование, ровный тон и смысловые ударения уже удаются ИИ вполне неплохо. Кого быстрее вытеснят с рынка, кажется очевидным.

Хотя, надо сказать, актеры тоже переживают за свою судьбу. Так, Пол Эйдинг, голосом которого говорят персонажи из игр Fallout и Metal Gear Solid, услышал «себя» в озвучке видео, согласие на которую не давал. Он отнесся к своему незапланированному участию в деле прогресса без всякого энтузиазма. Актер публично высказал возмущение тем, что его голос без разрешения «вложили в уста» ИИ. Конечно, не все представители ремесла реагируют на синтез речи подобным образом. К примеру, Джеймс Эрл Джонс, озвучивший легендарного Дарта Вейдера, положительно отнесся к идее воссоздать его голос с помощью нейросети. Правда, он был предупрежден и сам к тому моменту решил отказаться от дальнейшего исполнения роли.

Еще сложнее история с дипфейками голосов умерших людей. Сегодня уже известны случаи, когда с разрешения родственников компании воссоздавали речь покойных служителей искусства. Недавно с помощью ИИ был клонирован голос Милогоста Речека, сыгравшего Виктора Вектора в Cyberpunk 2077. Актер ушел из жизни перед выходом дополнения игры, поэтому его было решено заменить нейросетью. Сыновья Речека одобрили идею. А могли и не одобрить. Что было бы тогда? Скорее всего, CD Projekt Red отказались бы от своей задумки, чтобы не портить репутацию, однако это был бы исключительно жест доброй воли. Ведь то, что голос мертвого человека принадлежит его родственникам, никак не установлено. Действительно, если ИИ обучается на записи, принадлежащей компании (та же озвучка игры и мультфильма), то почему бы не считать, что компания имеет право создать синтез речь на основе своей собственности.

Так много вопросов и так мало ответов. А тем временем развитие искусственного интеллекта идет полным ходом, и аудиальные дипфейки становятся все более совершенными. Догадается ли бигтех вовремя притормозить или, боясь отстать от лихих и этически диковатых открытых решений, обнародует продукты своих многомиллионных трудов раньше, чем появится адекватная регуляторика в этой области? И смогут ли люди высказаться за или против подобных технологий или звуковые клоны сделают это раньше – их собственными голосами?

Фото: pxhere.com

* деятельность компании признана экстремистской и запрещена в России

Подписывайтесь на ФедералПресс в МАХ, Дзен.Новости, а также следите за самыми интересными новостями в канале Дзен. Все самое важное и оперативное — в telegram-канале «ФедералПресс».

Подписывайтесь на наш канал в Дзене, чтобы быть в курсе новостей дня.