Почему GAN?

Привет !! Сегодня я поделюсь отрывком, который я получил в результате работы над GAN за последний год. Эта статья будет основана на том, чтобы помочь вам начать самостоятельное исследование и применение, а не на части прямой однополярной информации. Потому что я считаю, что было бы нереально поделиться одним специализированным ресурсом, особенно в такой огромной области исследований и разработок, как эта.

Но я могу гарантировать вам, что все ресурсы действительно хороши для начинающего, поскольку все ресурсы, записные книжки с кодом и документы - это те, которые я опробовал и с которыми работал, так что готово! хорошие чтения.

Путешествие началось, когда я слушал выступление Яна Гудфеллоу, объясняющего, как он создал эту архитектуру, на одном из курсов Coursera, а затем по мотивам моего учителя доктора Сердара Чифтчи мы начали искать, читать и применять множество различных моделей для понимания и возьмите в руки GAN.

Я использовал очень много ресурсов, наиболее подробным из которых, безусловно, является статья самого Яна Гудфеллоу. И поскольку мне потребовалось несколько недель, чтобы понять всю логику и математику, стоящую за всем этим. Я подумал, что было бы здорово, если бы я смог облегчить задачу и помочь другим разобраться в ней быстрее. Так !! ага, чего мы ждем? давайте нырнем :)

Прочитав эту статью, вы узнаете следующее:

Что такое GAN?
Как построить стабильную сеть GAN?
Создайте код своего GAN с нуля!
Различные структуры GAN.
Некоторые интересные приложения GAN.
Ресурсы.

1. Что такое GAN?

Генеративные состязательные сети - это подход к генеративному моделированию с использованием методов глубокого обучения, таких как сверточные нейронные сети.

Они представляют собой умный способ обучения генеративной модели с использованием двух разных моделей - Генератора и Дискриминатора.
Первая модель называется «Генератор» и предназначена для генерации новых данных, аналогичных ожидаемым. Генератор можно уподобить человеку, подделывающему искусство, который создает фальшивые произведения искусства.
Вторая модель называется Дискриминатором. Цель этой модели - определить, являются ли входные данные «настоящими» - принадлежат ли они исходному набору данных - или «поддельными» - созданы фальшивомонетчиком. В этом сценарии Дискриминатор аналогичен полиции (или эксперту по искусству), которая пытается определить произведения искусства как правдивые или мошеннические.

Вкратце:

Генератор. Модель, которая используется для создания новых правдоподобных примеров из проблемной области.
Дискриминатор. Модель, которая используется для классификации примеров как реальных (из предметной области) или поддельных (сгенерированных).

2. Как построить стабильные сети GAN?

Генеративные состязательные сети сложно обучить. Это связано с тем, что архитектура включает в себя модель генератора и дискриминатора, которые участвуют в игре с нулевой суммой.

Это означает, что когда мы работаем над разработкой одной из этих двух моделей, это повлияет на производительность другой. Так, например, генератор может генерировать бессмысленные изображения или всегда генерировать одно и то же изображение.

Улучшение архитектуры GAN для создания стабильных GAN - это подход, который стал известен как Deep Convolutional GAN или DCGAN.

Готовы к некоторым советам, чтобы сделать GAN счастливым? : D

Даунсэмпл с использованием чередующихся сверток (например, не используйте объединяющие слои).
Повышайте дискретизацию с помощью чередующихся сверток (например, используйте транспонированный сверточный слой).
Используйте LeakyReLU (например, не используйте стандартный ReLU).
Используйте BatchNormalization (например, стандартизируйте выходные данные слоя после активации).
Используйте инициализацию гауссовского веса (например, среднее 0,0 и стандартное отклонение 0,02).
Используйте стохастический градиентный спуск Адама (например, скорость обучения 0,0002 и бета1 0,5).
Масштабировать изображения в диапазоне [-1,1] (например, использовать Tanh на выходе генератора).

3. Создайте код своего GAN с нуля!

Здесь я предпочел поделиться большим количеством ресурсов, «очевидно, одного ресурса недостаточно», за которым я следил сам, когда пытался построить свою первую GAN с нуля.

Первая - это потрясающая статья от RealPython:

Лучшая из них - это потрясающая статья от Machine Learning Mastery:

Мне действительно удалось записаться на обучающий курс через Gmail, что очень помогло мне в моем исследовательском путешествии.

Еще один полезный ресурс - это блокнот Google Collab, который помогает вам создавать изображения с помощью CIFAR 10 и понимать общую концепцию в качестве основы.

4. Различные структуры GAN.

CycleGAN:

CycleGAN - очень популярная архитектура GAN, которая в основном используется для изучения преобразования между изображениями разных стилей.

Например, преобразование изображения лошади в зебру, зиму в лето и наоборот. Вы также можете преобразовывать изображения в разные стили рисования, такие как Сеззан и Ван Гог, не правда ли? Ну по крайней мере для меня это так: D

Для получения дополнительной информации вы можете следовать руководству, приведенному ниже, опять же, это руководство, которое я уже изучал и нашел его полезным:

CycleGAN | TensorFlow Core
В этой записной книжке демонстрируется преобразование непарного изображения в изображение с использованием условных GAN, как описано в разделе Несопряженный… www.tensorflow.org

Не забываем и статью Непарное преобразование изображения в изображение с использованием Cycle-Consistent Adversarial Networks, опубликованную лабораторией Berkeley AI Research (BAIR).

Текст-2-изображение

Архитектура GAN, которая добилась значительного прогресса в создании значимых изображений на основе явного текстового описания. Эта формулировка GAN принимает текстовое описание в качестве входных данных и генерирует изображение RGB, которое было описано в текстовом описании.

Например, при вводе «эта птица красно-белая с очень короткой вершиной» будет создано изображение птицы, которое выглядит так, как указано в описании.

Подробнее об этой архитектуре вы можете прочитать в ее основной статье здесь.

А также попробуйте сами в этом репозитории на Github :)

ДискоГАН

В последнее время DiscoGAN стал очень популярным из-за его способности изучать междоменные отношения по неконтролируемым данным.

Для нас, людей, междоменные отношения воспринимаются по умолчанию в нашем творении. Имея изображения двух разных областей, человек может понять, как они связаны друг с другом. В качестве примера на следующем рисунке у нас есть изображения из двух разных доменов, и, просто взглянув на эти изображения, мы можем очень легко понять, что они связаны по природе их внешнего цвета.

Ознакомьтесь с исследовательской статьей здесь и попробуйте здесь

StyleGAN

На каждой конференции, на которой я объяснял GAN, я задавал следующий вопрос.

Как вы думаете, откуда эта маленькая девочка? К сожалению, я не смог обмануть аудиторию этим вопросом, так как, пока они не дойдут до этого раздела, они будут легко знать ответ, который этот ребенок от GANganic: D, специально сгенерированный Style GAN.

StyleGAN - это формулировка GAN, способная генерировать изображения с очень высоким разрешением даже с разрешением 1024 * 1024. Идея состоит в том, чтобы создать стек слоев, в котором начальные слои могут создавать изображения с низким разрешением (начиная с 2 * 2), а последующие слои постепенно увеличивают разрешение.

Самый простой способ для GAN генерировать изображения с высоким разрешением - это запоминать изображения из набора обучающих данных, и при создании новых изображений он может добавлять случайный шум к существующему изображению. На самом деле StyleGAN этого не делает, а изучает особенности человеческого лица и генерирует новый образ человеческого лица, которого не существует в реальности. Если это звучит интересно, посетите Этот человек не существует. Каждое посещение этого URL-адреса будет генерировать новое изображение человеческого лица, которого не существует во вселенной.

5. Некоторые приложения GAN.

Старение лица

В данной работе предлагается первый метод автоматического старения лица на основе GAN. В отличие от предыдущих работ, в которых GAN использовались для изменения лицевых атрибутов, в нем особое внимание уделяется сохранению оригинальной личности в старой версии его / ее лица. С этой целью он представляет новый подход к оптимизации скрытых векторов GAN с сохранением идентичности. Объективная оценка полученных изображений пожилых и помолодевших лиц с помощью современных решений для распознавания лиц и оценки возраста демонстрирует высокий потенциал предлагаемого метода.

Искусственный интеллект может сказать платью "да"

В этом приложении вы можете примерить платья и наряды, которые хотите купить в Интернете. Смотрите здесь.

ИГАН

Генерация интерактивных изображений через генерирующие состязательные сети.

iGAN (также известный как интерактивный GAN) - это авторская реализация интерфейса создания интерактивных изображений, описанная в:
Генеративное визуальное манипулирование в естественном многообразии изображений
С помощью нескольких движений пользователя наша система могла создавать фотографии -реалистичные образцы, которые лучше всего удовлетворяют пользователям, редактируемым в режиме реального времени. Система основана на глубоких генеративных моделях, таких как Generative Adversarial Networks (GAN) и DCGAN. Система служит двум целям:

Интеллектуальный интерфейс рисования для автоматического создания изображений, вдохновленных цветом и формой мазков кисти.
Интерактивный инструмент визуальной отладки для понимания и визуализации глубоких генеративных моделей. Взаимодействуя с генеративной моделью, разработчик может понять, какой визуальный контент может создавать модель, а также ограничения модели.

Попробуйте сами здесь

6. Ресурсы.

Как я уже упоминал, эта статья основана на многих других статьях, репозиториях GitHub, руководствах и статьях, на многие из которых я уже ссылался в статье и в разделе ресурсов.

Вы можете использовать их, чтобы начать свое собственное познавательное путешествие:

Http://www.iangoodfellow.com/slides/2016-12-04-NIPS.pdf

GAN с нуля 1: глубокое введение. С кодом на PyTorch и TensorFlow
«Самая крутая идея в области глубокого обучения за последние 20 лет. - Ян Лекун о GAN. medium.com »

6 архитектур GAN, которые вы действительно должны знать - neptune.ai
Генеративные состязательные сети (GAN) были впервые представлены в 2014 году Яном Гудфеллоу и его коллегами. al. и с тех пор это… neptune.ai

Указатель / ~ taesung_park / CycleGAN / наборов данных
Изменить описание people.eecs.berkeley.edu

parikhsachi / GAN-generate-faces
Использует GAN (генеративные состязательные сети) для генерации новых изображений лиц. Установить pip Установить ноутбуки jupyter… github.com

Генеративные состязательные сети - горячая тема в машинном обучении - KDnuggets
NIPS2016 (система обработки нейронной информации) - ежегодное мероприятие, которое привлекает лучших и самых ярких из… www.kdnuggets.com

18 впечатляющих приложений генеративных состязательных сетей (GAN) - мастерство машинного обучения
Генеративная состязательная сеть, или GAN, - это тип архитектуры нейронной сети для генеративного моделирования. Генеративная… machinelearningmastery.com

Галерея лиц, созданных искусственным интеллектом | Generated.photos
Загрузите нужное лицо из галереи "Созданные фотографии", чтобы добавить его в свой проект. Получите разнообразную библиотеку сгенерированных искусственным интеллектом… сгенерированных. Фотографий

GAN - Некоторые интересные приложения GAN
Мы добились впечатляющих успехов в первые несколько лет разработки GAN. Больше никаких изображений лиц размером с марку, подобных этим… medium.com

hindupuravinash / the-gan-zoo
Каждую неделю выходят новые статьи GAN, и за ними трудно уследить, не говоря уже о невероятных… github.com

Этого человека не существует
Этого человека не существуетthispersondoesnotexist.com

NVlabs / stylegan
Изображение: Эти люди не настоящие - они созданы нашим генератором, который позволяет контролировать различные аспекты… github.com

paarthneekhara / text-to-image
Это экспериментальная реализация тензорного потока для синтеза изображений из подписей с использованием Skip Thought Vectors. … github.com

SKTBrain / DiscoGAN
Официальная реализация PyTorch обучения обнаружению междоменных отношений с генерирующими противоборствующими сетями… github.com

материалы по теме:

Новые материалы

Анатомия SDK

Анатомия SDK Большинство инженеров полагаются на комплекты для разработки программного обеспечения или SDK в своей повседневной работе. Многие в нашей отрасли признают SDK набором..

Понимание агентов (Часть — 3)

Это третья часть серии «Введение в ИИ». Присоединяйтесь к нам, поскольку мы исследуем различные аспекты искусственного интеллекта во всей этой серии. Начальные части серии будут связаны ниже..

Обоснование вызовов кодирования 2023 в Javascript

Здравствуйте! Я собираюсь познакомить вас с подробным объяснением двух проблем с кодированием, с которыми я столкнулся во время интервью в 2023 году. Внимание! Я подробно описал здесь многое,..

5 причин, по которым ML и AI подвели нас в нефтегазовом секторе

Пришло время осознать: ИИ и машинное обучение - замысловатые словечки. Вы когда-нибудь слышали о невероятном механизме искусственного интеллекта в виде черного ящика, поддерживаемом машинным..

Обзор кода — Миссия невыполнима?

Обзор кода — миссия невыполнима? 3 расширения VsCode, которые помогут вам ориентироваться в коде! Как новый пользователь Visual Studio Code, мне иногда трудно перемещаться по открывающему и..

BrightFuture (реализация интерфейса Java Future на Golang)

Отказ от ответственности: это моя первая статья на medium.com. Я постарался сделать это по-настоящему простым, и люди, находящиеся на любом этапе своей учебной лестницы, могут извлечь..

Серия блогов по ускорению вывода на основе глубокого обучения — Часть 2 — Аппаратное обеспечение

Глубокие нейронные сети стали обычной практикой во многих приложениях машинного обучения. Их способность достигать человеческой и даже сверхчеловеческой точности сделала их важной вехой в истории..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Front End Development Typescript Java Computer Science Development NLP Tech Algorithms Programming Languages Python Programming Angular HTML Javascript Tips ChatGPT Data Reactjs Developer API Code Data Visualization CSS Tutorial Neural Networks Computer Vision Statistics