Сегодня мы собираемся узнать о процессе, связанном с моделью машинного обучения, очень глубоко, мы можем легко понять, что происходит.

Есть 3 шага, связанные с ML.

1. Предварительная обработка данных

2. Моделирование

3. Оценка

Предварительная обработка данных

В дальнейшей предварительной обработке данных у нас есть три задания.

1.импорт данных
2.очистка данных
3.разделение наборов данных на тестовые и обучающие наборы.

Пояснение 1

При импорте данных у нас есть много способов получить данные, например, из нашей базы данных, файла, Интернета, онлайн-потока данных, веб-скрапинга и т. д.

Это зависит от требований и условий заказчика или компании, откуда брать данные.

В основном, как инженер машинного обучения, вы будете получать данные в таблице или через Интернет.

Пояснение 2

Очистка данных — наиболее важная часть машинного обучения. Как инженер по машинному обучению, вы несете ответственность за очистку данных в соответствии с требованиями или условиями.

Существует множество способов очистки данных, поскольку модели машинного обучения работают только с числовыми значениями, поэтому нам необходимо сделать набор данных числовым и т. д. Некоторые важные шаги по очистке данных перечислены ниже.

1. Удаление выбросов
2. Удаление или заполнение значений nan
3. Преобразование значений наборов данных в числовые значения.

4. Преобразование наборов данных в категориальные

Я приду со следующей темой, специально посвященной очистке данных.

Пояснение 3

Почему мы разделяем наборы данных на обучающие и тестовые?

У инженера был вопрос почему и как, правильно?😊

Мы разделяем наборы данных в основном на 80:20 случайным образом, потому что мы используем 80% случайных данных в нашей модели, чтобы увидеть, как наша модель прогнозируется или выполняется. Затем мы используем эти предсказанные значения для сравнения с фактическими значениями, которые составляют 20% случайных данных.

Увидев и оценив производительность модели, мы пойдем дальше, я подробно объясню вам в следующей главе о выборе модели.

2. Моделирование

На этапах моделирования мы выбираем модель на основе требований в таблице, в основном мы видим, какие проблемы мы решаем, такие как кластеризация, регрессия или классификация.

При выборе модели мы используем специальную формулу, чтобы выбрать модель, которая будет эффективно решать наши задачи.

После выбора нашей модели мы обучаем модель на наших наборах данных, которые ранее были разделены на наборы поездов, и тестируем во время этого процесса, мы используем данные набора поездов 80:20.

После обучения данных мы проверяем производительность модели, сравнивая прогнозируемые значения и фактические значения, если они настолько хороши, то мы двигаемся дальше, иначе мы выбираем другую модель, которая лучше всего соответствует требованиям.

3.Оценка

Оценка модели — это метод, который используется для получения производительности модели с помощью таких формул, как матрица решений и т. д.

Это все основы, которые вам не нужно знать, прежде чем углубиться в ML.

Я надеюсь, что вы возьмете что-нибудь в корзину ML.😊

Спасибо 😊