Обработка несбалансированного набора данных при классификации изображений

Я работаю над тестовым заданием по обнаружению вулканов по изображениям с радара. Изображения имеют размер 100x100 пикселей и одноканальные. Набор обучающих данных был сильно несбалансированным (количество изображений без вулканов в 5 раз больше, чем с вулканами).

Существует множество способов решить эту проблему, например веса классов, передискретизацию обучающего набора данных, потерю фокуса и т. Д.

В этой статье я представлю ручную передискретизацию обучающего набора данных, чтобы решить проблему дисбаланса классов.

Давайте сначала рассмотрим распределение классов в данных. Здесь мы видим количество выборок на класс до передискретизации:

Мы можем увидеть 1K образцов с вулканами и около 6K образцов без вулканов.

Передискретизация означает, что мы увеличиваем количество выборок в второстепенных классах, так что количество выборок в разных классах становится равным или близким к нему, таким образом, становится более сбалансированным.

Давайте применим ручную передискретизацию при подготовке обучающих выборок.

Я применил передискретизацию в методе prepareImages:

def prepareImages(train, shape, data_path, mode):
    for index, row in train.iterrows():
        has_volcano = row['Volcano?']
        ...
        if has_volcano and mode == 'train':
            x_train[count] = img_to_array( cv2.flip( img, 1 ) )
            y_train[count] = int(has_volcano)
            count += 1
            // repeat the same step three more times applying different transformation and incrementing count

Здесь читаем атрибут образца «Вулкан?». Если изображение содержит вулкан, мы применяем некоторые преобразования к исходному изображению и добавляем измененное изображение в набор данных вместе с соответствующей меткой. В моем случае я применил 3 переворота (со значениями 0, 1 и -1) и повернул (cv2.ROTATE_90_CLOCKWISE).

Давайте отобразим распределение классов после передискретизации

Экспериментальная оценка передискретизации

Результаты с передискретизацией

Когда не применяется передискретизация

loss: 0.2359 — acc: 0.9202 — val_loss: 0.4253 — val_acc: 0.8626
AUC = 0.500

и график потерь / точности

При выполнении прогноза на тестовом наборе данных мы получаем следующие результаты:

number of images with volcanoes: 0
number of images without volcanoes: 2734

Мы видим, что все тестовые образцы были классифицированы как не имеющие вулканов.

Результаты с передискретизацией

Когда мы применяем передискретизацию

loss: 0.6885 — acc: 0.5264 — val_loss: 0.6856 — val_acc: 0.5718
AUC = 0.504

и наши кривые обучения

При выполнении прогноза на тестовом наборе данных мы получаем следующие результаты:

number of images with volcanoes: 27
number of images without volcanoes: 2707

Вот и все.

материалы по теме:

Новые материалы

8 советов и рекомендаций по работе с большими наборами данных в машинном обучении

Основное руководство по оптимизации памяти и кода Pandas и Scikit-learn - популярные библиотеки в сообществе специалистов по науке о данных, поскольку они обладают высокой производительностью..

«Может ли ИИ произвести революцию в бизнес-аналитике? Изучаем ключевые тенденции и трансформации»

Бизнес-аналитика (BI) и искусственный интеллект (ИИ) все чаще переплетаются в современном бизнес-ландшафте. Как мы подчеркиваем в нашем блоге, использование возможностей искусственного..

Метод массива push() | Метод массива JavaScript

=> Метод push() добавляет новый элемент в массив (в конец) => Метод push() возвращает новую длину массива Пример: // Consider an array of Fruits var fruits = ["Banana", "Orange", "Apple",..

Драйверы перемен в мире бухгалтерского учета

Спустя две с половиной тысячи лет после того, как Гераклит заявил, что «единственная константа в этом мире — это изменение», его слова по-прежнему звучат правдоподобно, поскольку интенсивность..

Что такое Интернет вещей и как он будет формировать будущее

Что такое Интернет вещей? Интернет вещей (IoT) относится к сети цифровых устройств через Интернет, которые используют встроенные датчики для передачи пользовательских данных между ними и..

Рефакторинг: защитные оговорки

Методика, позволяющая стать лучшим разработчиком В компьютерном программировании сторож - это логическое выражение, которое должно быть истинным, если выполнение программы должно..

Написание игры-симулятора интерфейса командной строки менее чем за 30 минут с использованием Python

Быстрая игра, сделанная за считанные минуты с помощью простого кода Python Введение Одна вещь, которую я действительно люблю в программировании компьютеров и которая делает программирование..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Python Software Development Coding Deep Learning AI React Software Engineering Nodejs Front End Development Typescript Computer Science Java Development Algorithms Javascript Tips NLP Angular HTML Python Programming Developer Tech ChatGPT Programming Languages Data Visualization API Reactjs CSS Data Neural Networks Code Tutorial Computer Vision Productivity