"Si un ouvrier veut bien faire son travail, il doit d'abord affûter ses outils." - Confucius, "Les Entretiens de Confucius. Lu Linggong"
Page de garde > La programmation > COMPRENDRE VOS DONNÉES : L'ESSENTIEL DE L'ANALYSE EXPLORATOIRE DES DONNÉES.

COMPRENDRE VOS DONNÉES : L'ESSENTIEL DE L'ANALYSE EXPLORATOIRE DES DONNÉES.

Publié le 2024-08-16
Parcourir:982

Introduction
Sur la base de l'objectif final que vous avez concernant vos données grâce à un modèle d'apprentissage automatique, au développement de visualisations et à l'incorporation d'applications conviviales, le développement de la maîtrise des données au début du projet renforcera le succès final.
Les essentiels de l'EDA
C'est là que nous apprenons comment la nécessité du prétraitement des données est bénéfique pour les analystes de données.
En raison de l'immensité et de la diversité des sources, les données actuelles sont plus susceptibles d'être anormales. Le prétraitement des données est devenu l'étape fondamentale dans le domaine de la science des données, car des données de haute qualité permettent d'obtenir des modèles et des prédictions plus robustes.
L'analyse exploratoire des données est un outil utilisé par un data scientist pour voir quelles données peuvent être exposées en dehors de la tâche formelle de modélisation ou de test d'hypothèses.
Le data scientist doit toujours effectuer une EDA pour garantir des résultats fiables et applicables à tous les résultats et objectifs concernés. Il aide également les scientifiques et les analystes à confirmer qu'ils sont sur la bonne voie pour atteindre les résultats souhaités.
Voici quelques exemples de questions de recherche qui guident l’étude :
1.Y a-t-il un effet significatif du prétraitement des données
approches d'analyse - valeurs manquantes, agrégation de valeurs, filtrage des données, valeurs aberrantes, transformation de variables et réduction de variables - sur des résultats d'analyse de données précis ?
2. À quel niveau significatif l’analyse des données de prétraitement est-elle nécessaire dans les études de recherche ?
Mesures d'analyse exploratoire des données et leur importance
1. Filtrage des données
Il s'agit de la pratique consistant à sélectionner une section plus petite d'un ensemble de données et à utiliser ce sous-ensemble à des fins de visualisation ou d'analyse. L'ensemble complet des données est conservé, mais seul un sous-ensemble est utilisé pour le calcul ; le filtrage est généralement une procédure temporaire. La découverte d'observations inexactes, incorrectes ou médiocres de l'étude, l'extraction de données pour un groupe d'intérêt spécifique ou la recherche d'informations sur une période spécifique peuvent toutes être résumées à l'aide de filtres. Le data scientist doit spécifier une règle ou une logique lors du filtrage pour extraire les cas pour l'étude.

2.Agrégation de données
L'agrégation des données nécessite de rassembler les données non traitées en un seul endroit et de les résumer pour analyse. L'agrégation des données augmente la valeur informationnelle, pratique et utilisable des données. Le point de vue d’un utilisateur technique est souvent utilisé pour définir l’expression. L'agrégation de données est le processus d'intégration de données non traitées provenant de nombreuses bases de données ou sources de données dans une base de données centralisée dans le cas d'un analyste ou d'un ingénieur. Les nombres agrégés sont ensuite créés en combinant les données brutes. Une somme ou une moyenne est une illustration simple d’une valeur globale. Les données agrégées sont utilisées dans l'analyse, le reporting, les tableaux de bord et d'autres produits de données. L'agrégation de données peut augmenter la productivité, la prise de décision et le temps d'obtention d'informations.

3.Données manquantes
Dans l'analyse des données, les valeurs manquantes sont un autre nom pour les valeurs manquantes
données. Cela se produit lorsque des variables ou des répondants spécifiques sont omis ou ignorés. Des omissions peuvent survenir en raison d'une saisie de données incorrecte, de fichiers perdus ou d'une technologie défectueuse. Les données manquantes peuvent entraîner par intermittence un biais du modèle, selon leur type, ce qui les rend problématiques. Les données manquantes impliquent que, étant donné que les données peuvent parfois provenir d'un échantillon trompeur, les résultats ne peuvent être généralisés que dans le cadre des paramètres de l'étude. Pour garantir la cohérence sur l'ensemble de l'ensemble de données, il est nécessaire de recoder toutes les valeurs manquantes avec les étiquettes « N/A » (abréviation de « non applicable »).

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
4.Transformation des données
Les données sont redimensionnées à l'aide d'une fonction ou d'autres mathématiques
opération sur chaque observation lors d’une transformation. Nous
modifier occasionnellement les données pour faciliter la modélisation lorsqu'elles
est très significativement asymétrique (soit positivement, soit négativement).
En d'autres termes, il faut essayer une transformation de données pour répondre à l'hypothèse d'application d'un test statistique paramétrique si
la ou les variables ne correspondent pas à une distribution normale. La transformation de données la plus populaire est le journal (ou journal naturel), qui est fréquemment utilisé lorsque toutes les observations sont positives et que la plupart des valeurs de données se regroupent autour de zéro concernant les valeurs les plus significatives de l'ensemble de données.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
Illustration du diagramme

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

Techniques de visualisation en EDA
Les techniques de visualisation jouent un rôle essentiel dans l'EDA, nous permettant d'explorer et de comprendre visuellement des structures et des relations de données complexes. Certaines techniques de visualisation courantes utilisées dans EDA sont :
1.Histogrammes :
Les histogrammes sont des représentations graphiques qui montrent la distribution de variables numériques. Ils aident à comprendre la tendance centrale et la répartition des données en visualisant la distribution de fréquence.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
2.Boxplots : Un boxplot est un graphique montrant la distribution d'une variable numérique. Cette technique de visualisation permet d'identifier les valeurs aberrantes et de comprendre la répartition des données en visualisant leurs quartiles.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
3.Heatmaps : Ce sont des représentations graphiques de données dans lesquelles les couleurs représentent des valeurs. Ils sont souvent utilisés pour afficher des ensembles de données complexes, offrant ainsi un moyen rapide et simple de visualiser des modèles et des tendances dans de grandes quantités de données.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

4.Graphiques à barres : Un diagramme à barres est un graphique qui montre la distribution d'une variable catégorielle. Il est utilisé pour visualiser la distribution de fréquence des données, ce qui permet de comprendre la fréquence relative de chaque catégorie.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
5.Graphiques linéaires : Un graphique linéaire est un graphique qui montre la tendance d'une variable numérique au fil du temps. Il est utilisé pour visualiser les changements dans les données au fil du temps et pour identifier tout modèle ou tendance.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
5.Graphiques à secteurs : Les diagrammes à secteurs sont un graphique qui présente la proportion d'une variable catégorielle. Il est utilisé pour visualiser la proportion relative de chaque catégorie et comprendre la distribution des données.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

Déclaration de sortie Cet article est reproduit sur : https://dev.to/kiplimo_patrick_24/understanding-your-datathe-essentials-of-exploratory-data-analysis-4mhd?1 En cas de violation, veuillez contacter [email protected] pour supprimer il
Dernier tutoriel Plus>

Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.

Copyright© 2022 湘ICP备2022001581号-3