Еще в начале 2018 года в Интернете разошлось видео с Джорданом Пилом и президентом Обамой в главных ролях. Несколько моих друзей прислали его мне, и, хотя что-то не так с видео, я был подозрительно убежден. Позже в видео показано, что Джордан Пил озвучивает своего рода голос, вкладывая слова в уста президента Обамы, но движения рта и головы президента Обамы кажутся естественными. Мне сразу пришла в голову идея, о которой я давно читал в Интернете, это должно быть дипфейк.

Компьютерное зрение - это сложная область, в первую очередь связанная с обработкой изображений и видео, которая дает компьютерам возможность понимать информацию из изображений и видео. Уже есть распространенные, популярные приложения для технологий компьютерного зрения, такие как автономные транспортные средства, которые используют компьютерное зрение для анализа дорожных путей и препятствий, медицинские системы, которые используют компьютерное зрение для диагностики пациентов, и, конечно же, распознавание лиц, используемое Facebook, чтобы предлагать теги фотографий. . Компьютерное зрение - это академический зонтик, под которым подпадает дипфейк, и его постоянное развитие сделало дипфейки популярными и более доступными.

Чтобы понять, откуда взялись дипфейки, нам нужно изучить ученых, которые заложили его основу. В 1997 году в статье, написанной Кристофом Бреглером, Мишель Ковелл и Малкольмом Слэйни, была разработана инновационная, поистине уникальная программа, которая по существу автоматизировала то, что могли делать некоторые киностудии. Программа перезаписи видео может синтезировать новые лицевые анимации из аудиовыхода. Он основан на более старых работах, которые интерпретировали лица, синтезировали звук из текста и моделировали губы в трехмерном пространстве, но он был первым, кто собрал все это вместе и убедительно оживил.

Результаты этой статьи 1997 года короткие, но удивительно убедительные.

Вот три видео из газеты:

В таком порядке довольно легко определить, какое видео является оригиналом, но это абсолютно невероятно, учитывая, что оно было создано в то время, когда Оскар за лучшие визуальные эффекты присуждался ко Дню независимости.

Это одна из самых важных работ в разработке дипфейков. Фактически, многие из распространенных сегодня видеоэффектов, которые объединены в такие программы, как Premiere Pro или Final Cut, используют обновленные принципы алгоритмов из этой статьи.

Авторы ссылаются на то, что эту систему «можно использовать для перезаписи фильмов, телеконференций и спецэффектов», хотя это еще предстоит увидеть (по состоянию на июнь 2018 г.).

Начало 2000-х было довольно тихим, поскольку компьютерное зрение все глубже проникало в мир распознавания лиц. Разработки в этой области позволили кардинально улучшить такие вещи, как отслеживание движения, что сделало сегодняшние дипфейки более убедительными.

Активные модели внешности - это алгоритм, который дебютировал в статье Тимоти Ф. Кутса, Гарета Дж. Эдвардса и Кристофера Дж. Тейлора в 2001 году. Статья была популярна в то время и сохранила свою популярность. Использование тщательной статистической модели для сопоставления формы с изображением оказалось большим шагом вперед. Они сделали сопоставление лиц и отслеживание значительно более эффективным.

В 2016 и 2017 годах в двух документах было установлено, что дипфейки достижимы с использованием оборудования потребительского уровня: проект Face2Face из Технического университета Мюнхена и проект Synthesizing Obama из Вашингтонского университета. Несмотря на то, что они полностью различались по целям, которые они пытались достичь, они резко улучшили время вычислений и рендеринга, обновив графическую точность таким образом, чтобы они выглядели фотореалистично.

Face2Face пытается создать анимацию в реальном времени, заменяя область рта целевого видео актерами. Этот метод не обеспечивает никакого звука, но уже есть хорошо разработанные способы синтезировать человеческий голос.

Синтез Обамы - это Video Rewrite 2.0 с улучшенной анимацией, текстурами и выражениями. Он добавил морщинки и ямочки и изменил цвета, чтобы лучше соответствовать освещению и тону кожи. Хотя эти графические улучшения действительно обеспечивают более убедительную модель, самым большим достижением этого проекта была его способность убедительно временно изменять как аудио, так и видео; это означает, что брови испытуемого двигаются в соответствии с тем, что они говорят. Больше не было моментов, когда субъект переставал говорить, но их брови продолжали двигаться.

Результаты этого проекта почти фотореалистичные и быстрые. Для расчета 66-секундного видео на NVIDIA TitanX и Core i7–5820 потребовалось всего 45 минут. На более распространенном бытовом оборудовании это займет всего несколько часов.

Огромный всплеск дипфейков во многом можно объяснить Reddit и порнографией, на которую большее внимание привлекла Саманта Коул из Vice. Удаленный субреддит с соответствующим названием r / deepfakes насчитывал около 90 000 участников и содержал дипфейк-порно от различных актеров. После запрета Reddit обновил свою политику в отношении контента, чтобы лучше отразить свою позицию в отношении порнографии.

По состоянию на 7 февраля 2018 г. мы внесли два обновления в политику нашего сайта в отношении недобровольной порнографии и материалов сексуального или непристойного характера с участием несовершеннолетних. Эти политики ранее были объединены в одно правило; теперь они будут разделены на два отдельных. Сообщества, сосредоточенные на этом контенте, и пользователи, которые публикуют такой контент, будут заблокированы на сайте. (Н / ландофлобстеры)

С тех пор появилось множество непорнографических субреддитов дипфейков, наиболее популярными из которых являются r / SFWdeepfakes, которые весело помещают лицо Николаса Кейджа в максимально возможное количество мест.

Существует множество общедоступных ресурсов для разработки дипфейков. Пользователь Reddit u / deepfakes, один из крупнейших участников r / deepfakes, сослался на библиотеку Python Keras и проект Github tensorflow в качестве источников своего программного обеспечения. На Github есть еще много проектов deepfake, некоторые из которых содержат готовые исполняемые файлы, готовые к немедленному использованию. Сегодня сделать дипфейки легко даже для новичка, но самым большим препятствием является терпение. Тем не менее, прибавка к эффективности от разработки аппаратного и программного обеспечения только сделает их более распространенными.

Для большего чтения: Саманта Коул сделала много замечательных репортажей о дипфейках и о том ущербе, который они могут нанести, от начальной статьи о Галь Гадот до последствий для наших политических разговоров. Я очень рекомендую ее работу.