1. Новый алгоритм стохастического градиентного спуска для изучения основных подпространств(arXiv)

Автор: Шарлин Ле Лан, Джошуа Гривз, Джесси Фарбратер, Марк Роуленд, Фабиан Педрегоса, Ришаб Агарвал, Марк Г. Беллемаре.

Вывод.Многие задачи машинного обучения кодируют свои данные в виде матрицы с, возможно, очень большим количеством строк и столбцов. В некоторых приложениях, таких как нейробиология, сжатие изображений или глубокое обучение с подкреплением, главное подпространство такой матрицы обеспечивает полезное низкоразмерное представление отдельных данных. Здесь нас интересует определение d-мерного главного подпространства данной матрицы из выборочных элементов, то есть из малых случайных подматриц. Хотя для этой задачи существует ряд методов, основанных на выборке (например, правило Ойи \citep{oja1982simplified}), они предполагают доступ ко всем столбцам матрицы или определенной матричной структуре, такой как симметрия, и не могут быть объединены как есть с нейронными сетями \ citep{baldi1989neural}. В этой статье мы выводим алгоритм, который изучает главное подпространство из выборочных записей, может применяться, когда приближенное подпространство представлено нейронной сетью, и, следовательно, может быть масштабирован для наборов данных с фактически бесконечным числом строк и столбцов. Наш метод состоит в определении функции потерь, минимизатором которой является искомое главное подпространство, и построении градиентной оценки этой потери, смещение которой можно контролировать. Мы дополняем наш теоретический анализ серией экспериментов с синтетическими матрицами, набором данных MNIST \citep{lecun2010mnist} и областью обучения с подкреплением PuddleWorld \citep{sutton1995generalization}, демонстрируя полезность нашего подхода.

2.Децентрализованный стохастический градиентный спуск-восхождение для минимаксных задач с конечной суммой(arXiv)

Автор:Хунчан Гао

Аннотация:Задачи минимаксной оптимизации в последние годы привлекли значительное внимание из-за их широкого применения в многочисленных моделях машинного обучения. Для решения задачи минимаксной оптимизации было предложено множество методов стохастической оптимизации. Однако большинство из них игнорируют распределенную настройку, при которой обучающие данные распределяются по нескольким рабочим процессам. В этой статье мы разработали новый децентрализованный метод восхождения по стохастическому градиентному спуску для задачи минимаксной оптимизации с конечной суммой. В частности, используя градиент с уменьшенной дисперсией, наш метод может достичь сложности выборки O(n√κ3(1−λ)2ε2) и сложности связи O(κ3(1−λ)2ε2) для невыпукло-сильно вогнутого минимакса. проблема с оптимизацией. Насколько нам известно, наша работа является первой, в которой достигнута такая теоретическая сложность для такого рода задач. Наконец, мы применяем наш метод для оптимизации задачи максимизации AUC, и экспериментальные результаты подтверждают эффективность нашего метода.