Технология глубокого обмана: как работает дипфейк (ВИДЕО)

Сергей Медведев: Будущее наступило в последние несколько лет с технологией дипфейков, которая захватила не только индустрию искусственного интеллекта, но и кино, рекламу, СМИ, соцсети. Она позволяет генерировать реалистичные видео, в которых можно к любому телу приставить голову любого человека.


Какие возможности и какие угрозы несет эта технология? Приблизит ли она нас к миру тотальной симуляции, где мы уже не сможем отличить фейк от реальности? Обсудим это с Артуром Хачуяном, специалистом по анализу данных, основателем компании Tazeros.

Видеоверсия программы

Многие IT-компании взялись за разработку технологии антидипфейков

Корреспондент: Раньше технологией дипфейка владели исключительно эксперты по спецэффектам, а сегодня появились программы, значительно упрощающие этот процесс. Генерация реалистичного видео-, аудио- и фотоконтента часто используется для дискредитации публичных лиц: политиков, артистов и журналистов. Дипфейкам неоднократно подвергались Дональд Трамп, Том Круз, Николас Кейдж и другие. Технология с каждым днем прогрессирует, и если раньше отличить реальную речь или образ человека на видео было достаточно просто, то в скором времени разницы с оригиналом почти не будет видно.

Многие IT-компании взялись за разработку технологии антидипфейков, которые смогут определять даже качественные видеоподделки. Уже сейчас с помощью такой технологии можно оказывать влияние на политику, использовать ее в мошеннических схемах и манипулировать общественным мнением.

Сергей Медведев: Как я понимаю, в термине "дипфейк" происходит сближение двух слов – deep learning и fake. То есть изначально это взялось из глубинного обучения машин?

Артур Хачуян: Да, машины научились выделять лица на фотографиях, понимать, куда они смотрят, проводить наложение одного лица на другое.

Сергей Медведев: Изначально использовалась технология ГАН – генеративно-состязательные нейросети, – чтобы тренировать искусственный интеллект на распознание истинных и фейковых имиджей?

Уже сейчас с помощью такой технологии можно оказывать влияние на политику и манипулировать общественным мнением

Артур Хачуян: Да, изначально это родилось как раз из развития технологии распознавания и лицевой идентификации. Необходимо было решить ряд компьютерных задач: определить, куда человек смотрит, куда повернута его голова, делать это все быстрее и быстрее. В один прекрасный момент алгоритмы научились делать это в реальном времени. Потом появились генеративно-состязательные типы нейросетей, когда одна, например, пыталась создать реалистичное изображение человека, а другая пыталась найти изъяны. Они состязаясь друг с другом, и таким образом сеть обучала сама себя.

Сергей Медведев: Появляются мемы с Николасом Кейджем, его подставляют голову, генерируют Барака Обаму. Как далеко это может зайти?

Артур Хачуян

Артур Хачуян: Сейчас все еще есть проблема с созданием фотореалистичных изображений без этапа постпродакшена. Сейчас можно в реальном времени сделать нечто полушуточное для того, чтобы потом вбросить это в соцсети как какой-то фейк, но нужно еще пройти этап постпродакшена: подчистить, подкрасить. Я думаю, еще три-пять лет, и можно будет абсолютно в любом месте использовать подобные вещи в реальном времени: замена теле- и радиоведущих, создание рекламы, ведение социальных аккаунтов от лица несуществующих персонажей, мошенничество и все прочее.

Сергей Медведев: Это станет масштабным, изменит наше взаимодействие с цифровой реальностью, соцсети, кино?

Артур Хачуян: Сейчас люди привыкли к тому, что если перед ними человек, то он стопроцентно настоящий, так же как 10–15 лет назад люди были уверены, что если какую-то информацию публикуют СМИ, то это правда. Сейчас люди по-другому относятся к любому контенту, всегда пытаются проверить его. Следующие пять лет все то же самое будет при общении с виртуальными помощниками, ассистентами. Это полностью меняет восприятие, создает некий уровень недоверия к реальным или нереальным персонажам.


Сергей Медведев: По-моему, китайское телевидение уже использует виртуальных телеведущих, которые неотличимы от реальных. Существуют ли технологии, которые помогают это распознать? Ведь это же очень важно, например, в судебном расследовании. Когда предоставляются видеодоказательства виновности, можно сфабриковать твое изображение – ты убиваешь человека.

Это создает некий уровень недоверия к реальным или нереальным персонажам

Артур Хачуян: Такие технологии есть, но они тоже на зачаточном этапе. К сожалению, нет подобных алгоритмов, которые имели бы вес на судебной экспертизе, для этого все равно нужно вызывать человека, который что-то сделает ручками. Многие компании сейчас разрабатывают алгоритмы детекции и фейк-ньюс, и подобных видео. Но сейчас это еще не носит массового характера, и, я думаю, на создание алгоритмов борьбы есть еще три-пять лет.

Сергей Медведев: Это будет примерно как с допингом: технология обмана всегда будет на полшага впереди. Я читал, что сейчас смотрят по глазам, невозможно сделать абсолютно одинаковые дипфейки.

Артур Хачуян: Для того чтобы создать дипфпейк, нам необходимо в реальном времени затрекать положение человека. Для этого используется базовая модель лица, включающая в себя глаза, нос, рот. Если быстро пролистать сто таких фотографий, можно увидеть, что положение глаз, носа и рта всегда остается одинаковым. Таким образом, достаточно легко определить, сгенерировано ли это лицо, наложено одно на другое или нет. Но это потому, что никто не задался целью улучшить это настолько, чтобы отойти от усредненной базовой модели человека.

Сергей Медведев: Здесь появляются важные юридические моменты. Могут возникнуть порноролики и порноместь. Если я не ошибаюсь, одним из объектов этого стала Скарлетт Йоханссон: создали множество фейковых роликов.

Артур Хачуян: Или это были ее ролики, а она сказала, что это дипфейк. К сожалению, никто никогда не узнает правды. Кстати, очень популярный лайфхак: можно попросить человека потрогать себя за лицо. Если начать трогать себя за лицо, то этот алгоритм в реальном времени развалится.

Китайское телевидение уже использует виртуальных телеведущих, которые неотличимы от реальных

Сергей Медведев: По-моему, при помощи этой технологии делают даже кинофильмы с уже умершими актерами.

Артур Хачуян: Это пока еще не совсем дипфейк, скорее, этап постпродакшена. Актер настоящий, его либо искусственно омолаживают, либо, как в случае с Кэрри Фишер, на актрису, очень похожую на нее, потом накладывают лицо, и это выглядит фотореалистично. Наносится специальный грим с точками для отслеживания, там специальные камеры, специальные установки. Потом все это проходит этап постпродакшена, где каждый кадр подчищают и подкрашивают ручками. Поэтому Кэрри Фишер в последних "Звездных войнах" выглядит как настоящая. Но это все не про real time и не про подделку.

Последний раз я слышал об использовании дипфейков, когда якобы кому-то позвонили от имени Леонида Волкова. Там какое-то ужасное скайп-видео, и действительно непонятно, он это или нет, дипфейк это или просто плохое качество.

Сергей Медведев: Есть такое зрелище не для слабонервных в Китае: матери устроили свидание с ее четырехлетней дочкой, умершей от рака: сделали дипфейк ее дочки, оцифровав видеоизображения. Есть ролик с реакцией этой женщины: честно говоря, страшновато смотреть.

Артур Хачуян: Это на грани этического фола. Может быть, это возьмет на вооружение кто-нибудь из авторов передачи "Жди меня" или "ДНК", но я бы не стал использовать такие вещи.

Матери устроили свидание с ее четырехлетней дочкой, умершей от рака: сделали дипфейк ее дочки

Сергей Медведев: Такое "Черное зеркало", альтернативная этическая реальность.

Рассуждает медиаэксперт Михаил Гуревич.

Михаил Гуревич: Есть дипфейки разного рода, разного качества. Технология с каждым месяцем, даже с каждой неделей развивается, появляются новые наработки. Это некое постоянное соревнование: плохие люди пытаются создать новые возможности, а те, кто должен защищать безопасность людей, наоборот, развивают всякого рода технологии, которые будут противодействовать дипфейкам.

Производились замеры, и выяснилось, что разного рода системы, например, "Азур" от "Майкрософт" в 30% случаев велся на голосовой дипфейк. Голосовые колонки чуть ли не в 60% случаев не могут отличить настоящий голос хозяина от голоса, созданного с помощью технологий дипфейка. Что же касается простых людей, очень многие не смогут уловить разницу во всякого рода видеофайлах, где якобы записаны выступления знаменитых политиков и селебрити, и будут уверены, что они слышали того самого человека, который сказал совершенно непотребную вещь.

Михаил Гуревич

Все чаще происходят разные неприятности, связанные с кибермошенничеством, основанные как раз на дипфейках, в первую очередь голосовых, когда злоумышленники с помощью специальных модуляторов голоса дают приказы на перевод тех или иных денежных средств.

Сергей Медведев: Видимо, одним из ближайших последствий дипфейка будет тотальный кризис доверия к визуальному изображению.

Артур Хачуян: Помимо этого есть еще такая важная вещь, как повышение уровня тревожности и агрессии в обществе. Сейчас, во времена ковида, во всевозможные чаты продолжают вбрасывать какие-то странные, непонятно кем созданные ролики, где подруга знакомого или дочка офицера рассказывает историю о том, что все умерли от вакцины или, наоборот, не умерли от вакцины. Ребята, которые это распространяют, могут в течение пяти лет взять на вооружение подобные алгоритмы и создавать абсолютно фотореалистичный контент.

Сергей Медведев: Надо ли это наказывать по Уголовному кодексу?

Убивает не оружие, а человек. Здесь примерно то же самое

Артур Хачуян: Это сложный вопрос. Если я создам дипфейк, распространю ложную информацию о том, что целая деревня умерла от вакцины, то меня можно преследовать по закону. Закону все равно, каким образом я создал этот контент, в студии с реальными актерами или дома, скачав четыре библиотеки с GitHub. Но саму технологию преследовать не нужно. Убивает не оружие, а человек. Здесь примерно то же самое. Технология крутая, она позволяет решить огромное количество задач оптимизации не только в кинематографе, но и в жизни, поэтому ничего плохого я в этом не вижу.

Сергей Медведев: Я читал о том, насколько важна эта технология в тренировке искусственного интеллекта: натаскивать на распознавание лиц, создать огромный архив виртуальных лиц, научить компьютер отличать их друг от друга. Или создаются какие-то медицинские вещи, делаются фейковые пациенты со своими симулированными искусственными историями болезней, и на них обучается алгоритм.

Артур Хачуян: Мы сейчас общаемся с голосовыми помощниками, чуть позже будем общаться с видеопомощниками. Их придется подстраивать под индивидуальные запросы каждого конкретного человека, используя для этого массу алгоритмов по генерации подобной графики.


Сергей Медведев: Может быть, лет через 15 мы действительно переедем в метавселенные, которые все сейчас строят? И их будут населять дипфейки, в том числе сгенерированные жизнеподобные видеоизображения?

Артур Хачуян: Да, это путь в виртуализацию. Он не всегда плохой, не всегда хороший, но это определенная тенденция. Сейчас вряд ли все ломанутся в метавселенную "Фейсбука", просто потому, что у нас нет хорошего виар-контента, хороших устройств ввода и вывода информации, но они появятся в ближайшие пять лет. У нас только-только вошли в обиход виар-очки, и далеко не все они показывают качественную картинку, большинство работает короткий промежуток времени. Возможно, появится влияние на наши органы чувств, эффект полного присутствия.

Сергей Медведев: Может быть, люди будут платить большие деньги за то, чтобы оставаться в реальной действительности, получать свидетельства того, что ты общаешься с реальным, а не сгенерированным персонажем.

Возможно, появится влияние на наши органы чувств, эффект полного присутствия

Артур Хачуян: Исходя из того, какое количество людей сейчас смотрит государственные телерадиоканалы, я думаю, спрос на то, чтобы уйти от своей реальности в некую мифическую, виртуальную, будет весьма велик.

Сергей Медведев: Вам не страшно от такого будущего, в котором никакой видеоинформации нельзя будет доверять, ты не будешь знать, общаешься с живым человеком или с компьютерным аватаром?

Артур Хачуян: Это, конечно, страшно. Но даже в текущем мире развития онлайн-дейтинга, анонимных чатов, приложений знакомств большинство людей все равно продолжают ходить на физические офлайн-свидания. Они укоротили первый этап знакомства, выбора партнера, но все еще продолжают взаимодействовать друг с другом в офлайне. Я думаю, по крайней мере для поколения миллениалов еще будет существовать офлайн-мир, и их очень сложно будет полностью интегрировать в какую-то метавселенную.

Сергей Медведев: Эта новая технологическая реальность создает новую антропологию. Думаю, это будет иметь значительные политические последствия, ведь вопрос доверия – это вопрос и сплочения общества, и существования современных государств. Если мы окажемся в мире дипфейков, то, как говорил герой одного писателя, которому недавно исполнилось 200 лет, "если бога нет, то все позволено". Если все вокруг дипфейк, тоже будет все позволено.