Введение
В зависимости от конечной цели, которую вы ставите в отношении своих данных в результате модели машинного обучения, разработки визуализаций и внедрения удобных для пользователя приложений, развитие свободного владения данными в начале проекта будет способствовать конечному успеху.
Основы EDA
Здесь мы узнаем, как необходимость предварительной обработки данных выгодна аналитикам данных.
Из-за обширности и разнообразия источников сегодняшние данные, скорее всего, будут аномальными. Предварительная обработка данных стала фундаментальным этапом в области науки о данных, поскольку данные высокого качества позволяют создавать более надежные модели и прогнозы.
Исследовательский анализ данных — это инструмент специалиста по данным, позволяющий увидеть, какие данные могут быть раскрыты за пределами формального моделирования или задачи проверки предположений.
Специалист по данным всегда должен выполнять EDA, чтобы гарантировать надежные результаты и применимость к любым ожидаемым результатам и целям. Это также помогает ученым и аналитикам подтвердить, что они находятся на правильном пути к достижению желаемых результатов.
Вот некоторые примеры исследовательских вопросов, которыми руководствуется исследование:
1.Есть ли существенный эффект от предварительной обработки данных
подходы к анализу — пропущенные значения, совокупность значений, фильтрация данных, выбросы, преобразование переменных и сокращение переменных — на точные результаты анализа данных?
2. На каком значимом уровне необходим предварительный анализ данных в научных исследованиях?
Метрики исследовательского анализа данных и их важность
1.Фильтрация данных
Это практика выбора меньшего фрагмента набора данных и использования этого подмножества для просмотра или анализа. Полный набор данных сохраняется, но для расчета используется только его часть; фильтрация обычно является временной процедурой. Обнаружение неточных, неправильных или некачественных наблюдений в ходе исследования, извлечение данных для конкретной группы интересов или поиск информации за определенный период — все это можно обобщить с помощью фильтров. Специалист по данным должен указать правило или логику во время фильтрации, чтобы извлечь случаи для исследования.
2.Агрегация данных
Агрегация данных требует сбора необработанных данных в одном месте и суммирования их для анализа. Агрегация данных увеличивает информационную, практическую и полезную ценность данных. Для определения этой фразы часто используется точка зрения технического пользователя. Агрегация данных — это процесс интеграции необработанных данных из многих баз данных или источников данных в централизованную базу данных в случае аналитика или инженера. Затем совокупные числа создаются путем объединения необработанных данных. Сумма или среднее значение является прямой иллюстрацией совокупного значения. Агрегированные данные используются в анализе, отчетности, информационной панели и других информационных продуктах. Агрегация данных может повысить производительность, качество принятия решений и сократить время на понимание.
3.Отсутствуют данные
В аналитике данных пропущенные значения — это другое название пропущенных значений
данные. Это происходит, когда определенные переменные или респонденты не учитываются или пропускаются. Пропуски могут произойти из-за неправильного ввода данных, потери файлов или поломки технологии. Отсутствие данных может время от времени приводить к смещению модели, в зависимости от их типа, что делает их проблематичными. Отсутствие данных означает, что, поскольку иногда данные могли быть получены из вводящей в заблуждение выборки, результаты можно обобщать только в пределах параметров исследования. Чтобы обеспечить согласованность всего набора данных, необходимо перекодировать все пропущенные значения с помощью меток «Н/Д» (сокращение от «не применимо»).
4.Преобразование данных
Данные масштабируются с помощью функции или другого математического
операции над каждым наблюдением во время преобразования. Мы
время от времени изменяйте данные, чтобы их было легче моделировать
очень существенно искажен (положительно или отрицательно).
Другими словами, следует попробовать преобразовать данные в соответствии с предположением о применении параметрического статистического теста, если
переменная(и) не соответствует нормальному распределению. Самым популярным преобразованием данных является логарифмическое (или естественное логарифмическое) преобразование, которое часто используется, когда все наблюдения положительны, и большинство значений данных группируются вокруг нуля относительно более значимых значений в наборе данных.
Иллюстрация диаграммы
Техники визуализации в EDA
Методы визуализации играют важную роль в EDA, позволяя нам визуально исследовать и понимать сложные структуры и взаимосвязи данных. Некоторые распространенные методы визуализации, используемые в EDA:
1.Гистограммы:
Гистограммы — это графические представления, показывающие распределение числовых переменных. Они помогают понять основную тенденцию и распространение данных, визуализируя частотное распределение.
2.Boxplots: Boxplots — это график, показывающий распределение числовой переменной. Этот метод визуализации помогает выявить любые выбросы и понять распространение данных путем визуализации их квартилей.
3.Тепловые карты: Это графическое представление данных, в котором цвета обозначают значения. Они часто используются для отображения сложных наборов данных, обеспечивая быстрый и простой способ визуализации закономерностей и тенденций в больших объемах данных.
4.Гистограммы: Гистограмма — это график, показывающий распределение категориальной переменной. Он используется для визуализации частотного распределения данных, что помогает понять относительную частоту каждой категории.
5.Линейные диаграммы: Линейная диаграмма — это график, показывающий тенденцию изменения числовой переменной с течением времени. Он используется для визуализации изменений данных с течением времени и выявления закономерностей или тенденций.
5.Круговые диаграммы: Круговые диаграммы — это график, показывающий долю категориальной переменной. Он используется для визуализации относительной доли каждой категории и понимания распределения данных.
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3