При решении проблемы классификации (двоичной или мультиклассовой), если общее количество класса данных намного меньше, чем общее количество другого класса данных, это называется дисбалансом классов. Например, у вас может быть проблема 2-го класса со 100 экземплярами (строками). Всего 80 экземпляров помечены как класс 1, а оставшиеся 20 экземпляров - как класс 2.

Вот несколько способов справиться с классовым дисбалансом:

Передискретизация

Повышение дискретизации означает создание копий класса меньшинства для устранения дисбаланса класса. Как показано на рисунке ниже, оранжевый класс составляет меньшинство, а дисбаланс классов устраняется путем создания нескольких копий оранжевого класса до тех пор, пока он не станет равным синему классу.

Даунсэмплинг

Пониженная выборка использует случайно выбранные точки данных из большинства классов, чтобы справиться с дисбалансом классов. Как показано на рисунке ниже, синий класс составляет большинство, и только случайно выбранные точки данных используются в том же количестве, что и оранжевый класс.

Регулировка веса класса

Один из простейших способов справиться с дисбалансом классов - просто использовать в алгоритме аргумент веса класса баланса. По умолчанию веса классов для логистической регрессии в sci-kit-learn равны None, что означает, что обоим классам будет уделяться одинаковое внимание при настройке модели. В качестве альтернативы вы можете передать 'balanced', чтобы присвоить веса, обратно пропорциональные частоте этого класса.

lr_weighted = LogisticRegression(class_weight = ‘balanced’)

SMOTE (Техника передискретизации синтетических меньшинств))

SMOTE создает больше выборок в классе меньшинства, не путем репликации существующих точек данных, а путем создания новых точек в пределах возможного. Другими словами, он создает новые точки данных вокруг существующих данных.



SMOTE, как правило, является мощным способом справиться с дисбалансом классов, но он сталкивается с вычислительными проблемами, когда у вас есть большое количество функций из-за проклятия размерности.

Источники:





Получите доступ к экспертному обзору - Подпишитесь на DDI Intel