Что я узнал из ICML 2018

Как инженер, специализирующийся на прикладном машинном обучении, мне посчастливилось побывать в этом году на Международной конференции по машинному обучению (ICML) в Стокгольме, Швеция. Вот некоторые из моих самых важных выводов.

1. Имитация имеет ключевые преимущества для обучения с подкреплением

Докладчики: Исон Юэ (Калифорнийский технологический институт) и Хоанг М. Ле (Калифорнийский технологический институт)

Имитационное обучение, также известное как «обучение на основе демонстрации» или «ученичество», является многообещающей областью исследования машинного обучения, поскольку оно помогает обучающимся агентам преодолевать проблемы обучения в среде открытого мира, имитируя ранее существовавшие цели. поведение. Disney Research использовала имитационное обучение, например, для создания анимации лиц, которые имитируют движения челюстей людей, когда они говорят на разных языках - в этом Юэ и Ле стали партнерами Disney.

Другие исследованные приложения включали обучение автономных транспортных средств на основе принятия решений человеком, отслеживание того, где спортсмены должны находиться на поле, на основе успешных примеров, а также выбор и размещение объектов для выполнения (например, склады Amazon).

Имитационное обучение убедительно, потому что оно использует «выигрышные» примеры для решения некоторых из фундаментальных проблем своей родительской дисциплины, обучения с подкреплением. В конце концов, весь смысл обучения с подкреплением состоит в том, чтобы научить агента максимизировать совокупное вознаграждение, которое он получает, совершая действия в окружающей среде (представьте себе ИИ-собаку, пытающуюся максимизировать количество угощений, которые она может получить, выясняя, какие уловки использовать. выполнять). Находя успешные ранее существовавшие модели поведения (от «экспертов» или «демонстрантов», как их называют), имитационное обучение помогает: а) сузить область возможных действий, которые могут привести к вознаграждению (без эксперта « пространство действия »может быть чрезмерно большим) и б) установить прямую корреляцию между действиями и наградами (в отличие от неуверенности, какое действие привело к награде в данном эпизоде).

В этом выступлении были рассмотрены следующие методы: поведенческое клонирование, прямое изучение политики и обратный RL.

Видео и слайды здесь.

2. Обучение с подкреплением без использования моделей не готово для реального мира

Ведущий: Бенджамин Рехт (Калифорнийский университет в Беркли)

Безмодельное обучение с подкреплением пытается максимизировать вознаграждение, которое получает агент, заставляя его напрямую взаимодействовать со своей средой, а не сначала устанавливая четко определенную модель¹ этой среды и взаимодействуя с этой моделью в качестве прокси. Безмодельные подходы привлекательны, потому что они не требуют усилий и накладных расходов на попытки построить модель рассматриваемой среды.

На первый взгляд кажется, что безмодельный RL был бы отличным кандидатом для помощи в реальных сценариях и, в частности, с проблемами непрерывного управления². Проблемы непрерывного управления включают управление входами в реальные динамические системы для минимизации затрат (например, роботы учатся двигаться, беспилотные автомобили, перемещающиеся по загруженным дорогам, и беспилотные летательные аппараты, обучающиеся стабилизации в воздухе). Поскольку задачи непрерывного управления очень похожи на задачи RL в своей формулировке как задачи минимизации, состоящие из состояний, действий, переходов и вознаграждений, не было бы здорово, если бы мы могли научиться решать эти проблемы без предварительного моделирования сложных реальных сред?

Тем не менее, как бы многообещающе это ни казалось, существуют некоторые фундаментальные проблемы, связанные с управлением реальными системами без модельных RL-агентов. Как убедительно доказал доктор Рехт в своем учебном пособии, обучение с подкреплением без моделей действительно эффективно только в сильно структурированной, закрытой среде, например, в симуляциях и играх. Как только агент попадает в реальную непрерывную среду, производительность становится очень нестабильной и чувствительной даже к малейшим возмущениям и изменениям в инициализации. Причина такого падения производительности, вероятно, связана с тем, что закрытые среды не моделируют все условия реального мира, и поэтому агент, который хорошо работает в закрытой среде, может не подходить для прогнозирования невидимых возмущений в реальном мире.

Вторая причина, по которой обучение с подкреплением без моделей терпит неудачу в реальных ситуациях, заключается в том, что реальный мир не позволяет проводить столько экспериментов, что является ключевой основой обучения без моделей, поскольку ставки намного выше. Рассмотрим, например, RL-агента, который учится управлять мотоциклом на шоссе: ему не разрешат терпеть неудачу в той же степени, что и в симуляции, из-за стоимости многократного уничтожения мотоциклов - чтобы сказать ничего о ситуациях, в которых задействованы люди - и поэтому агент не может учиться методом проб и ошибок так же, как в симуляции.

Учитывая, что занятия с подкреплением были одними из самых популярных на ICML в этом году (до такой степени, что конференция в шутку называлась ICRL), д-р Рехт предложил сообществу сосредоточиться на основанном на моделях RL. - особенно управление с прогнозированием моделей - или поиск фундаментальных методов для дальнейшей стабилизации обучения с подкреплением без использования моделей в реальных средах. Рехт предупреждает, что если мы продолжим оптимизировать только безмодельные алгоритмы управления RL в моделировании, мы получим не то дерево.

Чтобы глубже погрузиться в работу доктора Рехта, я рекомендую прочитать его краткую, но весьма познавательную серию Экскурсия по обучению с подкреплением для посторонних.

Видео и слайды здесь.

3. ИИ имеет решающее значение для безопасности

Ведущий: Dawn Song (Калифорнийский университет в Беркли)

В этом выступлении были рассмотрены проблемы и возможности на пересечении ИИ и безопасности: как машинное обучение и безопасность запутаны, если мы хотим внедрить исследования машинного обучения в продукты. Чтобы показать, насколько уязвимы наши алгоритмы обучения, доктор Сонг обсудил различные методы атаки на системы глубокого обучения, в частности на системы зрения (в качестве примера посмотрите мою вводную работу здесь). С другой стороны, машинное обучение также можно использовать для создания новых атак на различные программные системы (например, веб-сервисы и облака IoT).

Еще одна важная часть рассказа о безопасности и машинном обучении - это рассмотрение конфиденциальности и, в частности, проблема предотвращения извлечения конфиденциальной информации из моделей машинного обучения. Несмотря на то, что этот доклад носит вводный характер, этот доклад дал прекрасное представление о растущей взаимосвязи между безопасностью и машинным обучением, которое высветило некоторые из наиболее важных проблем, на которые следует обратить внимание в будущем.

4. Популярные бумажные темы от ICML

Я наткнулся на ряд интересных статей на ICML, которые, как я подумал, было бы полезно сгруппировать по темам.

а) Противник

Одной из самых больших тем, с которыми я столкнулся, было состязательное машинное обучение, которое представляет собой широкую область использования конкуренции между алгоритмами обучения для оптимизации генератора, который предлагает новые образцы. В этом поле есть два основных подполя - одно, которое генерирует новые образцы на основе обучения из обучающего набора (например, обучение генератора для создания картин в определенном стиле), а другое, которое генерирует состязательные образцы, предназначенные для обмана нейронных сетей. сети.

Статьи:

Затуманенные градиенты создают ложное ощущение безопасности: обход защиты и примеры состязательности

Доказательная защита против состязательных примеров с помощью выпуклого внешнего состязательного многогранника

Блокированные состязательные атаки с ограниченным количеством запросов и информации

Какие методы обучения для GAN действительно сходятся?

б) Новые архитектуры в глубоком обучении

Эта тема относится к достижениям во внедрении новых архитектурных компонентов в нейронные сети, о чем я видел много дискуссий. Эта работа способствует глубокому обучению как области в целом и предоставляет новые инструменты для решения задач прогнозирования в различных областях.

Статьи:

Дифференцируемая пластичность: обучение пластических нейронных сетей с обратным распространением

Условные нейронные процессы

Генеративные временные модели с пространственной памятью для частично наблюдаемых сред

в) Внедрение достижений машинного обучения в продукты

Исследования, связанные с внедрением систем машинного обучения в продукты.

Бумага:

Parallel WaveNet: быстрый высокоточный синтез речи

г) Обучение с подкреплением

Достижения, направленные на решение проблемы максимизации совокупного вознаграждения за счет принятия решений в пространстве состояния-действия.

Статьи:

Обучение через игру - решение редких наград с нуля

Иерархическая имитация и обучение с подкреплением

Неконтролируемое метаобучение для обучения с подкреплением

Неявные квантильные сети для обучения с распределенным подкреплением

д) Теория

Работа здесь направлена ​​на дальнейшее теоретическое понимание того, почему и как работает машинное обучение (и особенно глубокое обучение). Эта работа имеет решающее значение для того, чтобы мы могли постоянно двигаться вперед с развертыванием моделей и сетей повсюду, поскольку она предоставляет фундаментальные знания, которые противопоставляют высокоэмпирические достижения, достигнутые сообществом глубокого обучения.

Статьи:

Машинная теория разума

Механика дифференцируемых игр для n игроков

е) Конфиденциальность и справедливость

По мере того, как глубокое обучение становится применимым в контекстах, которые имеют широкое отношение к популяциям людей (например, здравоохранение, оценка заявок на получение кредита и т. Д.), Нам нужны дополнительные инструменты, которые позволят нам устранить исторические предубеждения, присутствующие в данных обучения. В то же время нам нужны способы узнать, что личная информация не может быть извлечена из моделей с помощью состязательной атаки. Эта работа продвигается в этих областях.

Статьи:

Остаточная несправедливость в честном машинном обучении на основе предвзятых данных

Справедливость без демографии в минимизации повторных потерь

5. Подслушано на ICML

Наконец, несколько забавных и содержательных цитат из ICML:

«Все машинное обучение превращается в обучение с подкреплением, когда мы запускаем его в производство. Сегодня у вас есть эти огромные компании, регулярно переобучающие модели с отзывами пользователей. Это обучение с подкреплением. «

- Д-р Бенджамин Рехт, доцент (Калифорнийский университет в Беркли)

Контекст: Dr. Бенджамин Рехт выступал за более фундаментальные исследования для стабилизации агентов обучения с подкреплением в непрерывных реальных средах. Он отметил, что многие производимые модели, не относящиеся к RL, часто подвергаются переобучению на основе обратной связи, что фактически превращает их в системы RL.

«Одной строчки, которую мы все любим писать как специалисты по машинному обучению, а именно« (acc, loss) = model.evaluate (x_test, y_test) », уже недостаточно».

- Николас Карлини, научный сотрудник (Google Brain)

Контекст: Николас Карлини, получив награду за лучшую работу за свою работу Затуманенные градиенты создают ложное ощущение безопасности, выступал за более структурированный подход к проверке моделей, а именно за счет создания способов идентификации степень безопасности модели.

Как дела? Спасибо за ваши полезные конструктивные предложения и за ваш ценный глубокий вопрос. Мы уточним, что мы узнали, и обновим последнее приложение, если у нас будет место для проверки нашей оценки!

- Организационная группа ICML 2018

Контекст. Для всех документов, представленных в ICML, которые требовали доработки перед принятием, организаторы использовали классические методы НЛП, чтобы определить слова и фразы, которые авторы использовали в ответ на критику с наибольшей вероятностью изменения результата. . Это было забавное сочетание ключевых фраз, призванное повысить шансы автора принять участие в ICML.

Заключение

ICML в этом году привлекла внимание более чем 5000 участников и более 600 работ, программных докладов, стендовых презентаций и наград, врученных в течение шестидневного расписания. установили свои собственные стенды (я написал о том, кто был там, в другом посте.) Невозможно было пропустить рост посещаемости и новое исследование, представленное в ICML в этом году, что указывает на то, что сообщество машинного обучения более активно, чем Когда-либо.

Самым существенным выводом нетехнического характера для меня стало постоянное сочетание фундаментальных теоретических исследований и разработки продуктов в области машинного обучения. ML остается областью, которую еще предстоит освоить. Несмотря на то, что у нас есть инструменты, которые становятся все более сложными, продвинутыми и простыми в использовании (TensorFlow, PyTorch, Cloud Services и т. Д.), Подлинные и эффективные инновации по-прежнему исходят в основном из исследований. Это означает, что крупные компании продолжают вкладывать значительные средства в неизведанное, создавая исследовательские лаборатории, где ведущие ученые могут зарабатывать солидные зарплаты, устанавливая свою собственную повестку дня.

Вот некоторые вещи, которые я бы хотел увидеть в следующем году:

  • Исследование дистилляции, то есть исследование, которое решает проблему увеличения долга на исследования по мере продвижения сообщества . Было бы здорово видеть больше исследователей, желающих комплексно обрабатывать, упрощать и размещать исследования в более широком контексте, чтобы сократить задолженность по исследованиям, которая накопилась за последнее десятилетие.
  • Я также хотел бы увидеть более широкое исследование оптимизаций за пределами глубокого обучения и обучения с подкреплением. Это всего лишь мое мнение, но я считаю, что общий искусственный интеллект будет не столько заниматься одной конкретной областью, сколько сочетанием оптимизации с полуструктурированным пониманием мозга. Я считаю, что сообществу следует продолжать искать вдохновения в мозге животных и человека при решении проблем интеллекта.

В целом, ICML был феноменальным опытом. Я покинул конференцию с энтузиазмом и воодушевлением, чтобы продолжить работу над проблемами машинного обучения, сосредоточив свои усилия на выделении определенных областей исследований, чтобы другие могли понять, какие проблемы были решены, и черпать вдохновение для решения других задач. Если у вас есть количественный опыт и вы заинтересованы в сотрудничестве, оставьте комментарий здесь или напишите мне по адресу dhruv [dot] guliani [at] gmail [dot] com.

Дхрув (Dhruv) - инженер-программист машинного обучения в Connected, фирме по разработке продуктов, которая работает с клиентами, чтобы добиться воздействия с помощью программных продуктов. Больше историй здесь.

Замечания автора

Я хотел бы поблагодарить Эли Бернстайна за помощь в корректуре и редактировании этой статьи до нескольких исправлений.

Как всегда, оставляйте здесь комментарии и указывайте на любые ошибки, которые вы обнаружите. Я постараюсь исправить их как можно быстрее!

Сноски

  1. «Модель» в RL на основе моделей фиксирует вероятности перехода между состояниями и действиями и содержит некоторую информацию о возможном вознаграждении, исходящем от этих переходов. По сути, такое понимание динамики перехода позволяет свести проблему RL к проблеме планирования оптимальной траектории в среде для максимизации общего вознаграждения.
  2. Сходство между задачами непрерывного управления и задачами RL объясняется фундаментальной формулировкой обеих задач. Большинство задач обучения с подкреплением рассматриваются как марковские процессы принятия решений (MDP). MDP - это математическая основа для моделирования сценариев принятия решений, состоящая из 1) конечного набора состояний, 2) конечного набора действий, 3) вероятности того, что действие приведет к определенному состоянию, 4) немедленного вознаграждения (или ожидаемое немедленное вознаграждение), полученное после перехода между состояниями из-за действия, и 5) коэффициент дисконтирования. Проблемы непрерывного управления также можно рассматривать как MDP, имеющие те же фундаментальные компоненты, которые описаны выше, и поэтому кажется естественным, что методы обучения с подкреплением также будут эффективны в этой области.