Это часть анализа данных. Это важный шаг к анализу набора данных, и самые мощные графики используются, чтобы узнать внутреннюю часть данных. С помощью этого процесса мы можем найти внутренности каждого столбца данного набора данных. Исследовательский анализ данных играет ключевую роль в CRISP DM.

В этом процессе мы использовали Python для очистки и визуализации данных. В Python у нас есть надежные инструменты, такие как pandas, matplotlib и seaborn. Все это поможет визуализировать данные быстрее и с ясным пониманием для аналитика данных и клиента. Для лучшего понимания мы взяли образец набора данных, такой как набор данных AMCAT.

Этапы EDA:

1)собрать данные с клинта

2) понять набор данных

3) загрузить данные в инструмент

4) очистить данные

5) визуализация данных

6) проверить выбросы

7) представление внутренностей данных

1) Соберите данные от клинта:

Нам нужно получить данные разными способами. Клинт будет давать свои данные напрямую, а иногда клинт не будет давать данные напрямую и скажет нам собирать данные из разных источников. Нам нужно иметь возможность собирать данные из аутсорса. Некоторые инструменты помогут нам собрать данные, такие как веб-скрапинг. Красивый суп поможет нам собрать данные, если клинт не предоставит данные. Аналитик данных всегда способен извлечь данные из разных источников. Сбор данных является важным шагом.

Пример использования:

Я столкнулся с проблемой при очистке данных. Я сделал проект по ценам на отели в разных городах. Я столкнулся с множеством проблем на сайте, некоторые сайты позволяют нам удалять данные, а некоторые сайты не позволяют нам удалять данные. Я провел анализ на hotels.in, чтобы проверить цены в крупных городах Индии, и он показывает превосходные интерьеры отелей.

2) Понимание набора данных:

Поймите общее количество пользовательских данных. Разные данные имеют разные цели, мы не можем проводить финансовый анализ, взяв фармацевтические данные. Сбор полезных данных от клинта является основной обязанностью аналитика данных, инженера и ученого.

Набор данных имеет разные типы данных, такие как количественные данные и качественные данные, количественные данные - это не что иное, как числовые данные, понимающие данные, какой это тип данных и какой тип анализа мы можем сделать с этой колонкой, чтобы дать больше внутренностей клинту и качественным данные не что иное, как категориальные данные. В этом у нас есть обычные данные, и пример обычных данных для обычных данных — пол, а пример для обычных данных — процент.

Поймите, что каждый столбец в наборе данных — это числовые или категориальные данные. Затем выполните визуализацию данных, которая поможет лучше понять внутренности.

3)Загрузить данные в инструмент:

Jupyter Notebook поможет нам проанализировать EDA. Этот инструмент подходит для языков Python и R, но мы провели много анализа с помощью Python, и R поможет со статическими данными.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Все вышеперечисленное помогает визуализировать данные. Numpy и pandas помогают очищать данные и выполнять группировку. Matplotlib и seaborn помогут визуализации проникнуть внутрь.

ds = pd.read_csv("aspiring_minds_employability_outcomes_2015.csv")

Этот код поможет загрузить CSV-файл и будет готов к работе.

На приведенном выше рисунке показана функция info(). Информация предоставляет всю информацию, например, существуют ли нулевые значения и тип данных, а также проверяет длину строк и столбцов с помощью функции формы. Используя функцию column(), мы можем получить все столбцы.

4)Очистка данных:

Очистка данных с помощью некоторых методов, таких как использование некоторых функций цикла, функции определения и лямбда-функции с помощью python. Python — лучший язык для очистки данных. В Python есть такие типы данных, как list, dict очень поможет в очистке набора данных.

Чтобы очистить целевые значения, мы можем использовать другой язык, например REGEX. Regex — один из инструментов очистки, который будет надежно работать с помощью небольшой логики, которую мы можем использовать в логических циклах. Перед очисткой нам нужно знать, какие повторяющиеся символы существуют, поэтому мы используем уникальные для одного столбца.

На приведенном выше рисунке показан один из примеров, которые мы сделали для проверки столбцов набора данных AMCAT на наличие дубликатов. Используя unique, мы получим все уникальные значения, мы можем проверить все уникальные значения и выполнить очистку данных.

На приведенном выше рисунке показана очистка данных в обозначении в наборе данных AMCAT. Для очистки столбца мы использовали функцию def, поскольку мы использовали цикл for для создания цикла каждый раз, когда использовали функцию блока для замены повторяющихся значений. Мы также можем использовать другие методы, такие как функции замены и лямбда. Но это займет некоторое время, чтобы написать, чтобы написать, поэтому использовал определение, чтобы получить быструю компиляцию.

На приведенном выше рисунке показан код, который я использовал для отелей .in. Этот код не что иное, как использование REGEX и python для получения целевого значения. Total regex — это сокращенные методы, но они дают отличные результаты по сравнению с другими типами. В этом коде я использовал только применение и лямбда для вставки значений вместо значений замены.

Используя функцию группировки, мы можем сгруппировать все уникальные значения в наборе данных, а порядок поможет отобразить данные в порядке возрастания или убывания. У нас есть много функций, таких как max(), min(), count() и т. д., с помощью всего этого мы можем сортировать данные в соответствии с нашим использованием, панды будут выполнять все действия, такие как SQl и равные SQL, но ram запускает pandas и SQL в базе данных. С помощью панд.

df.groupby('Name').groups

This is one of the small code with group by function.

5)Визуализация данных:

Визуализация данных играет ключевую роль в любых данных компании, зная внутреннюю часть данных, используя визуализацию некоторыми методами, чтобы узнать разные типы данных. Нам нужно следовать некоторому условию, чтобы сделать визуализацию данных.

В визуализации данных есть два типа графиков

1)Универсальный вариант

а)kde-числовой

б) Hist-числовой

в) числовой ящик

2)Би вариант

а) Scatter- числовой, числовой-числовой, char

б) шестнадцатеричный, числовой

в) парный участок

г) ящичковая диаграмма

у нас много сюжетов, но мы часто используем этот сюжет.

1)Универсальный вариант:

а) Сюжет Kde:

График оценки плотности ядра (KDE) — это метод визуализации распределения наблюдений в наборе данных, аналогичный гистограмме.

График kde представляет собой не что иное, как график распределения. С помощью этого графика мы можем легко определить асимметрию данных. Существует три типа асимметрии: 1) положительная асимметрия 2) симметричное распределение 3) отрицательная асимметрия. На приведенной ниже диаграмме отрицательный перекос, многие выбросы являются ложью с правой стороны.

Гистограмма — это графическое представление, в котором группа точек данных организована в заданные пользователем диапазоны. На этой гистограмме мы можем найти количество диапазона с помощью диапазона, только распределение будет происходить на приведенной ниже диаграмме, где показана гистограмма.

Выше показана гистограмма данных, данные искажены вправо, и в этом коде я применил оттенок пола. Этот оттенок будет различать данные между женщинами и мужчинами для лучшего понимания.

c) Коробчатая диаграмма:

В описательной статистике ящичковая диаграмма или ящичковая диаграмма — это тип диаграммы, часто используемый в объяснительном анализе данных. Коробчатые диаграммы визуально показывают распределение числовых данных и асимметрию посредством отображения квартилей данных и средних значений.

На этом графике мы можем найти выбросы с помощью IQR (межквартильный диапазон), линии, которые мы называем усами, и у нас есть диапазоны 25, 50 и 75 процентилей.

На приведенном выше рисунке показаны данные о заработной плате в наборе данных AMCAT, здесь мы видим, что на этом графике присутствует много выбросов.

2)Би вариант:

а) График рассеяния:

Это тип графика или математической диаграммы, использующей декартовы координаты для отображения значений обычно двух переменных для набора данных. Благодаря этому мы можем видеть, что данные находятся в ковариации и корреляции данных. Мы можем построить числовой, числовой и числовой и общаться в чате.

Мы построили график с помощью Seaborn и использовали оттенок пола, чтобы сравнить самца и самку. На приведенной выше диаграмме показана толщина в верхней части графика.

б) Гексбиновый график:

Шестнадцатеричный график полезен для представления взаимосвязи двух числовых переменных, когда у вас много точек данных. Без перекрытия точек окно построения разбивается на несколько шестигранников. Цвет каждого шестиугольника обозначает количество точек в нем.

c) Парный график:

График пар позволяет нам увидеть как распределение отдельных переменных, так и отношения между двумя переменными. Парные графики — отличный метод выявления тенденций для последующего анализа и, к счастью.

г)Гистограмма:

Гистограмма или столбчатая диаграмма — это диаграмма или график, который представляет категориальные данные в виде прямоугольных столбцов с высотой или длиной, пропорциональными значениям, которые они представляют. Полосы могут располагаться вертикально или горизонтально. Вертикальную гистограмму иногда называют столбчатой ​​диаграммой.

На приведенном выше рисунке показана гистограмма, на которой этот график построен с числовыми и символьными значениями. Это один из примеров, которые я нарисовал на сайте hotels.in для разных отелей с их ценой.

После всего этого построения мы проведем некоторый статический анализ, применив центральную предельную теорему и некоторые тесты, такие как t-тест, z-тест и тест хи, а также мы проведем проверку гипотез и т. Д.

7)Представление внутренних данных:

После всей части анализа мы представим все внутренности глинту или передадим данные для моделирования. Для будущего машинного обучения.

Вышеупомянутые 7 шагов важны для EDA

Для получения данных с веб-сайтов мы можем использовать парсинг. Я даю ссылку на веб-скрейпинг ниже.



Если вам нравится этот блог, следуйте за мной, и в будущем я буду загружать больше блогов по анализу данных, машинному обучению, большим данным и AWS, и спасибо за вашу поддержку.