Когда мы слышим слово «матрица», у нас возникает интуитивное представление о прямоугольном массиве чисел, или так это называется в книгах.

Изучая главу «Матрица» в школьной математике, кто бы мог подумать, что это прямоугольное представление чисел и есть то, за чем охотится ИИ. Для лучшего понимания того, как матрица взаимодействует с машинным обучением, предположим, что у вас есть «m» признаков объекта, которые вы хотите, чтобы ваш алгоритм машинного обучения искал, для классификации этого объекта как «A» или «B». Если мы представляем эти функции в виде вектора-столбца, то мы говорим, что этот вектор представляет собой одномерную матрицу-столбец, содержащую функции, которые классифицируют нашу модель в любой из вышеупомянутых категорий. Теперь можем ли мы классифицировать неизвестный объект по категории, взглянув только на один пример функции? Концепция здесь довольно проста. Нам нужны, может быть, тысячи подобных функций, которые идентифицируют объект как «А» или «Б». Давайте увеличим количество столбцов до «n», каждый из которых содержит характеристики объекта. Теперь у нас есть матрица данных, скажем «A», порядка m x n, в которой каждый столбец является вектором признаков, а строки — обучающими примерами.

Например, возьмем неглубокую нейронную сеть, имеющую только один скрытый слой в качестве нашего классификатора, а скрытый слой состоит из четырех нейронов. Один из столбцов признаков, скажем «x», содержащий x1,x2,x3 .. до xm, выбирается из матрицы, и мы инициализируем матрицу radom 'w' порядка 4 x m, которая называется матрицей весов. Скалярное произведение матрицы весов и вектора-столбца добавляется к другой случайно инициализированной матрице "b", известной как смещение. Обратите внимание, что размеры b равны (4,1), потому что результирующая матрица скалярного произведения w(4,m) и x(m,1) имеет размеры (4,1). Результирующая матрица, скажем, «а», передается в функцию активации (предпочтительно сигмовидную функцию в случае неглубокой сети), которая отображает каждый элемент матрицы в функцию. Сигмовидная функция связывает каждый элемент в диапазоне [0,1]. Заметим, что вертикальной асимптоты этой функции не существует.

Работа, которую мы сделали до сих пор, выглядит примерно так

Та же процедура повторяется на следующем слое сети, который, наконец, классифицирует объекты в один из классов. Выходные данные можно обрабатывать с помощью функции softmax, которая распределяет выходные данные на основе вероятностей. При прогнозировании вычисляется средняя абсолютная ошибка, а затем в игру вступает алгоритм обратного распространения ошибки, который заставляет нейронную сеть обучаться.

Заключение

Кажется, что определение «прямоугольное представление» подходит и для машинного обучения. Матрица является одним из наиболее важных понятий, необходимых в области линейной алгебры, которая способствует машинному обучению.