График работы офисов, платежных терминалов и функций интернет- и мобильного банка «Ренессанс Банк» в праздничные дни

Технология клонирования голоса может стать реальной угрозой для систем голосовой биометрии

Распознавание лиц и голоса, биометрические системы, «оживление» фото, обман системы распознания лиц, взлом голосовой биометрии. Об этом и многом другом из мира технологий РегионСамара.ру пообщался с исполнительным директором, начальником управления статистического анализа «Ренессанс Кредит» Сергеем Афанасьевым.

Как взломать голосовую биометрию?

Сейчас любой человек может создать свой дипфейк (примеч. — подделка), используя, например, мобильное приложение Reface. Хочу сразу предупредить безнадежных романтиков – дипфейки уже начинают регулироваться законом, поэтому официальные приложения работают по принципу fair use (добросовестное использование) и имеют ряд ограничений и защит – например, запрет на анонимное использование, наличие вотермарок, скрытых меток и т.п.

Расскажу, как взламываются системы распознавания голоса. Вообще взломом (или клонированием) чужого голоса начали заниматься еще до появления нейронных сетей. Среди российских экспертов по клонированию чужого голоса самими известными считаются Владимир Винокур и Максим Галкин. Но мы поговорим о более современных технологиях взлома, которые можно легко масштабировать.

Одна из таких технологий – запущенный в 2017 году проект Lyrebird AI, который позволяет генерировать речь по загруженному слепку голоса. Примерно через год после запуска разработчики открыли доступ к API проекта, то есть любой желающий мог воспользоваться этой технологией. Григорий Бакунов из Яндекса (который придумал специальный макияж для взлома фотобиометрии) в своем телеграм-канале тогда писал:

«TNW с испугом пишет о потенциале проекта Lyrebird для преступников. Эта система позволяет загрузить минуту своего голоса, а потом получить текст-ту-спич* с голосом, похожим на ваш. Автор прав, сделать из, скажем, 2-3 часов речи очень приличный TTS можно, причем для этого подойдут уже готовые опенсорсные технологии».

* Text-to-speech или TTS — преобразование текста в речь.

Сейчас на рынке есть уже несколько проектов, позволяющие клонировать чужой голос:

  • Resemble.AI – предоставляется демоверсия программы;
  • iSpeech – есть демоверсия для 27 языков, включая русский;
  • Lyrebird AI – можно загрузить демоверсию на 3 часа речи;
  • Vera Voice – продукт от компании Screenlife Technologies и команды проекта «Робот Вера».

Технология клонирования голоса может стать реальной угрозой для систем голосовой биометрии – когда по загруженному слепку чьего-либо голоса мошенники смогут генерировать этим голосом любую речь: например, ответы на вопросы оператора банка, где используется голосовая биометрия.

И хотя голосовые слепки сложнее достать, чем, например, фотографии из социальных сетей, такие технологии будут использоваться в различных мошеннических схемах.

Для защиты систем голосовой биометрии, как и для фотобиометрии, используют технологию Liveness Detection, которая позволяет убедиться, что на другом конце провода находится живой человек, а не диктофон с заранее записанной речью. Для голосовой биометрии обычно используется интерактивный Liveness Detection – когда человека просят произнести случайно сгенерированную фразу. Текущие возможности нейронных сетей позволяют обходить интерактивный Liveness Detection путем генерации речи в режиме онлайн. В развитии технологии генерации речи пионерами можно считать компанию DeepMind, принадлежащую Гуглу, которая известна благодаря своей программе AlphaGo, победившей чемпиона мира в игру го (китайский аналог шахмат или шашек).

Компания DeepMind прославилась не только своими игровыми ботами. В 2016 году они разработали порождающую нейронную WaveNet, которая умеет генерировать речь по технологии TTS в режиме онлайн. В основе WaveNet лежат разработанные в DeepMind свёрточная и рекуррентная нейронные сети PixelCNN и PixelRNN. В первых релизах Wavenet (в 2016 году) разработчики DeepMind отмечали проблему высокой ресурсоемкости нейронной сети – для генерации одной секунды речи требовалось порядка 1-2 минут работы нейронной сети. Всего через год эту проблему решили, и WaveNet стала генерировать одну секунду речи всего за несколько миллисекунд. Позже WaveNet была встроена в голосовой помощник Google Assistant.

Со взломом голосовых технологий ученые активно экспериментируют и по другим направлениям. В 2018 году исследователи из университета Беркли (США) показали, как можно взламывать голосовые помощники: они отправляли на голосовые помощники Siri и Alexa набор звуков, находящиеся за пределами человеческой слышимости или замаскированные среди музыки, и смогли тайно активировать системы искусственного интеллекта на смартфонах – набирать номера телефонов, открывать веб-сайты и т.д.

Демонстрация этих уязвимостей поставила под сомнение надежность голосовой биометрии для ее использования в системах безопасности, например, при разблокировке дверей дома, переводе денег в мобильном банке, покупке товаров в интернет-магазинах и т.д.

Инженеры по разработке систем безопасности понимают риски, связанные с уязвимостями биометрических систем, и начинают прибегать к мультимодальному подходу – когда в систему идентификации закладывается сразу несколько видов биометрии. Один из таких примеров — Единая биометрическая система (ЕБС), запущенная в России в 2018 году для удаленной идентификации граждан на портале госуслуг. ЕБС использует две модальности для биометрической идентификации: распознавание лица по фотографии и голосовую идентификацию пользователя. Разработчики ЕБС предполагали, что бимодальный подход позволит уменьшить долю ошибочных срабатываний, а также снизит риски взлома, поскольку злоумышленникам придется обходить сразу два типа биометрии – фото и голос.

Но совсем недавно, в начале 2020 года, китайские исследователи из технологической компании SenseTime разработали генеративную нейронную сеть, которая позволяет принимать на вход изображение целевой персоны и аудиозапись с речью, а на выходе — отдавать видео с целевой персоной, на котором выражение лица человека соответствует аудиодорожке. Таким образом, с помощью этой технологии можно «оживить» фотографию лица любого человека с его клонированным голосом. Это показывает, что и бимодальные биометрические системы, вообще говоря уязвимы.