«Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты» — Конфуций, «Аналитики Конфуция. Лу Лингун»
титульная страница > программирование > Понимание ваших данных: основы исследовательского анализа данных (EDA).

Понимание ваших данных: основы исследовательского анализа данных (EDA).

Опубликовано 27 августа 2024 г.
Просматривать:711

Understanding your data: The Essentials of Exploratory Data Analysis (EDA).

После того, как данные собраны и сохранены, необходимо провести их анализ, чтобы получить осмысленное понимание. Именно по этой причине в игру вступает исследовательский анализ данных (EDA). Как следует из названия, мы 'исследуем' данные, т.е. получаем их общий обзор.

Собираемые данные могут представлять собой текст, видео или изображения и обычно хранятся в неструктурированном виде. Редко встретишь данные, которые на 100% чисты, то есть без каких-либо аномалий. Кроме того, данные могут быть в различных форматах, таких как Excel, CSV (значения, разделенные запятыми), Json, Parquet и т. д.

В мире данных EDA также можно назвать манипулированием данными или очисткой данных. Специалисты отрасли подчеркивают важность очистки данных для удаления 'мусора', поскольку это может негативно повлиять на результаты, а также на прогнозы. Структурированные данные, обычно в табличном формате, можно анализировать с помощью нескольких методов и инструментов (например, Excel, Power BI, SQL), но для этой иллюстрации мы сосредоточимся на Python.

EDA с использованием Python
Язык программирования Python является одним из наиболее распространенных инструментов в EDA благодаря своей универсальности, которая позволяет использовать его во многих отраслях, будь то финансы, образование, здравоохранение, горнодобывающая промышленность, гостиничный бизнес и другие.
Встроенные библиотеки, а именно Pandas и NumPy, очень эффективны в этом отношении и работают повсеместно (при использовании Anaconda/Jupyter Notebook, Google Collab или IDE, такой как Visual Studio)

Ниже приведены общие шаги и строки кода, исполняемые при выполнении EDA:

Сначала вы импортируете библиотеки Python, необходимые для манипуляций/анализа:

импортировать панд как pd
импортировать numpy как np

Во-вторых, загрузите набор данных
df = pd.read_excel('Путь к файлу')

Примечание: df — это стандартная функция для преобразования табличных данных во фрейм данных.

После загрузки вы можете просмотреть данные, используя код:
df.head()

Покажутся первые 5 строк набора данных
Альтернативно, вы можете просто запустить df, который отобразит несколько избранных строк (верхних и нижних) всего набора данных, а также все столбцы в нем.

В-третьих, разберитесь во всех типах данных, используя:
df.info()

Примечание. Типы данных включают целые числа (целые числа), с плавающей запятой (десятичные числа) или объекты (качественные данные/описательные слова).

На этом этапе желательно получить сводную статистику данных, используя:
df.describe()

Это даст вам такие статистические данные, как Среднее значение, режим, стандартное отклонение, максимальное/минимальное значения и квартили.

В-четвертых, определите, существуют ли в наборе данных нулевые значения, используя:
df.isnull()

Затем можно проверить наличие дубликатов (повторяющихся записей)
df.duulated()

Другими ключевыми аспектами EDA являются проверка того, как различные переменные в наборе данных связаны друг с другом (Корреляция) и их распределение.
Корреляция может быть положительной или отрицательной и находится в диапазоне от -1 до 1. Ее код:

df.corr()

Примечание: показатель корреляции, близкий к 1 указывает на сильную положительную корреляцию, а показатель, близкий к -1 указывает на сильная отрицательная корреляция.

Распределение проверяет, насколько симметричны или асимметричны данные, а также асимметрию данных, и оно может быть нормальным, биномиальным, бернуллиевым или Пуассон.

Подводя итог, можно сказать, что исследовательский анализ данных — это важный процесс, позволяющий лучше понять данные. Это позволяет улучшить визуализацию и построение моделей.

Заявление о выпуске Эта статья воспроизведена по адресу: https://dev.to/s_ndichu/understanding-your-data-the-essentials-of-exploratory-data-analysis-eda-1hh7?1. В случае каких-либо нарушений, пожалуйста, свяжитесь с Study_golang@163. .com, чтобы удалить его
Последний учебник Более>

Изучайте китайский

Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.

Copyright© 2022 湘ICP备2022001581号-3