Оправдывает ли повышенная точность дополнительную сложность модели машинного обучения?

Поскольку вычислительная мощность компьютеров становится дешевле и доступнее, для достижения большей точности все чаще используются сложные алгоритмы машинного обучения.

Однако оправдывает ли повышение точности добавленную сложность?

Чтобы ответить на этот вопрос, я провел небольшой эксперимент. Я обучил и протестировал набор данных Доход взрослых с различными алгоритмами классификации машинного обучения, чтобы наблюдать разницу в AUC (площадь под кривой) и времени, затрачиваемом на обучение и тестирование.

Описание набора данных и предварительная обработка

Во-первых, давайте поговорим о наборе данных, который я использую. Доход взрослых — это набор данных, доступный в Репозитории машинного обучения UCI. Здесь мы предсказываем, превысит ли доход человека 50 тысяч долларов в год, основываясь на различных факторах, таких как уровень образования, возраст, пол, род занятий, страна проживания и т. д.

Этот набор данных имеет 14 категориальных признаков, таких как рабочий класс, семейное положение, профессия, родная страна и т. д. Я выполнил однократное кодирование для всех категориальных столбцов этого набора данных, а также удалил пропущенные значения. Это увеличило общее количество функций до 85. Так как я хотел проверить производительность различных алгоритмов с увеличенными столбцами функций. Я решил не реализовывать какой-либо алгоритм выбора функций и оставить 85 столбцов функций.

Результаты

Это результат различных моделей, обученных для 43957 точек данных и прогнозирующих 4885 точек данных. Самый высокий AUC достигается с помощью случайного леса (метод ансамбля), а самый низкий — с помощью машины опорных векторов (это неудивительно, поскольку у SVM есть проблемы с огромными наборами данных).

Если вы обратите внимание на тройку наиболее эффективных моделей Random Forest, Extra Tree и Decision Tree. Все три имеют AUC выше 70, причем обе модели ансамбля (случайный лес и дополнительное дерево) работают лучше, чем более простое дерево решений. Однако это произошло за счет увеличения времени обучения и тестирования.

Время обучения классификатора случайного леса и дополнительного дерева в 12 и 16 раз большесоответственно по сравнению с деревом решений. Кроме того, время, необходимое для прогнозирования, в 37 и 52 раза большесоответственнопо сравнению с деревом решений. Наконец, классификатор случайного леса и дополнительного дерева потребляет в 114 и 260 раз больше памяти.

Это дополнительное время связано с увеличением вычислительных затрат, необходимых для создания дополнительных деревьев ансамблевых моделей.

Вывод

Увидев приведенные выше результаты, пришло время ответить на вопрос, на который мы намеревались ответить: стоит ли точность дополнительных затрат?

Как оказалось, это не простой вопрос. Достижения в области чипов и электроники привели к тому, что вычислительная мощность с каждым днем становится все дешевле. Разница во времени сократится, если мы будем использовать продвинутую машину с лучшим оборудованием. В некоторых сценариях, таких как медицинская классификация, имеет смысл потратить больше, чтобы получить лучшую чувствительность и специфичность.

Однако рекомендуется отдавать предпочтение более простой модели, когда разница в точности незначительна. Например, в этой задаче нет большой разницы в AUC дерева решений и дополнительного дерева. Поэтому нет особого смысла выбирать модель классификации Extra Tree, учитывая ее дополнительную стоимость.

Что вы думаете об этом? Пожалуйста, оставьте комментарий ниже, я хотел бы прочитать об этом. А если вы хотите ознакомиться с моделями, которых я тренировал, вы можете найти это в этом блокноте.

материалы по теме:

Новые материалы

Как развивается смешанно-целочисленное программирование, часть 7

Унифицированная техника раннего завершения для первично-двойственных алгоритмов в смешанно-целочисленном коническом программировании (arXiv) Автор : Ювэнь Чэнь , Кэтрин Нин , Поль Гулар..

Как научить модель Keras распознавать текст переменной длины

Я некоторое время играл с официальным примером Keras image_ocr.py и хочу поделиться своими выводами в этом посте. В официальном примере выполняется только обучение модели, но отсутствует..

Практическая пакетная нормализация

История начинается после использования инициализации He вместе с ELU (или любым вариантом ReLU) может значительно снизить опасность проблем с исчезающими/взрывающимися градиентами в начале..

Поэзия онлайн-кодирования: путешествие пикселей и страсти

В мире, наполненном инновациями, онлайн-обучение программированию становится холстом, на котором обретает форму полотно вашей мечты. Это больше, чем просто создание строк кода; это сродни..

Обработка изображений с помощью Python - размытие и повышение резкости для начинающих

Как применить ядра свертки к цветным изображениям? В этой статье мы обсудим, как применять ядра размытия и повышения резкости к изображениям. Эти базовые ядра составляют основу многих более..

Ограничение скорости в .NET Core 7 Web API

Что такое ограничение скорости? Ограничение скорости — это процесс, используемый для ограничения количества запросов, разрешенных для определенного ресурса в указанном временном окне. .NET..

Стабильная Diffusion 1.0 выдаёт более красивые картинки, чем SD 2.1?! Почему?

Удивительные открытия, которые я сделал недавно. Смотрите в видео: https://youtu.be/PakgD6FewoU Есть одно логичное объяснение — что у вас?

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning AI React Software Engineering Nodejs Front End Development Typescript Java Computer Science Development NLP Tech Programming Languages Algorithms Angular Python Programming HTML Javascript Tips ChatGPT Data Reactjs Developer API Code Data Visualization CSS Tutorial Neural Networks Computer Vision Statistics