"Se um trabalhador quiser fazer bem o seu trabalho, ele deve primeiro afiar suas ferramentas." - Confúcio, "Os Analectos de Confúcio. Lu Linggong"
Primeira página > Programação > Compreendendo seus dados: Os fundamentos da análise exploratória de dados (EDA).

Compreendendo seus dados: Os fundamentos da análise exploratória de dados (EDA).

Publicado em 2024-08-27
Navegar:103

Understanding your data: The Essentials of Exploratory Data Analysis (EDA).

Uma vez que os dados foram coletados e armazenados, há necessidade de sua análise para obter uma compreensão significativa deles. É por esta razão que a análise exploratória de dados (EDA) entra em jogo. Como o nome sugere, estamos 'explorando' os dados, ou seja, obtendo uma visão geral deles.

Os dados coletados podem ser textos, vídeos ou imagens e geralmente serão armazenados de forma não estruturada. Raramente você encontrará dados 100% limpos, ou seja, sem anomalias. Além disso, os dados podem estar em vários formatos como Excel, CSV (valores separados por vírgula), Json, Parquet etc.

No mundo dos dados, EDA também pode ser referido como manipulação de dados ou limpeza de dados. Os profissionais do setor enfatizam a importância de limpar os dados para remover 'lixo', pois isso pode impactar negativamente os resultados, bem como as previsões. Dados estruturados, geralmente em formato tabular, podem ser analisados ​​usando diversas técnicas e ferramentas (como Excel, Power BI, SQL), mas vamos nos concentrar em Python para esta ilustração.

EDA usando Python
A linguagem de programação Python é uma das ferramentas mais utilizadas em EDA devido à sua versatilidade que permite sua utilização em diversos setores, seja financeiro, educação, saúde, mineração, hotelaria entre outros. Bibliotecas integradas, nomeadamente Pandas e NumPy, são altamente eficazes nesse aspecto e funcionam de maneira geral (seja usando
Anaconda/Jupyter Notebook, Google Collab ou um IDE como o Visual Studio)

Abaixo estão as etapas comuns e linhas de código executáveis ​​ao executar EDA:

Primeiro, você importará as bibliotecas python necessárias para manipulação/análise:

importar pandas como pd importar numpy como np

Em segundo lugar, carregue o conjunto de dados


df = pd.read_excel('Caminho do arquivo')

Nota: df é a função padrão para converter dados tabulares em um quadro de dados.

Depois de carregados, você pode visualizar os dados usando o código:


df.head()

Isso mostrará as primeiras 5 linhas do conjunto de dados

Alternativamente, você pode simplesmente executar
df que mostrará algumas linhas selecionadas (superior e inferior) de todo o conjunto de dados, bem como todas as colunas nele contidas.

Em terceiro lugar, entenda todos os tipos de dados usando:


df.info()

Nota: os tipos de dados incluem inteiros (números inteiros), flutuantes (decimais) ou objetos (dados qualitativos/palavras descritivas).

Nesta etapa, é aconselhável obter estatísticas resumidas dos dados usando:


df.describe()

Isso fornecerá estatísticas como

Média, Modo, Desvio Padrão, valores máximos/mínimos e quartis.

Em quarto lugar, identifique se existem valores nulos no conjunto de dados usando:


df.isnull()

Isso pode ser seguido pela verificação de duplicatas (entradas repetitivas)


df.duplicado()

Outros aspectos importantes da EDA são verificar como as diversas variáveis ​​em um conjunto de dados se relacionam entre si (

Correlação) e sua distribuição. A correlação pode ser positiva ou negativa e varia de -1 a 1. Seu código é:

df.corr()

Nota: um valor de correlação próximo de 1 indica uma correlação positiva forte, enquanto um valor próximo de -1 indica um correlação negativa forte.

Distribuição verifica quão

simétrico ou assimétrico os dados são, bem como a assimetria dos dados e pode ser normal, binomial, Bernoulli ou Poisson.

Em resumo, a análise exploratória de dados é um processo importante para obter uma melhor compreensão dos dados. Permite melhores visualizações e construção de modelos.

Declaração de lançamento Este artigo foi reproduzido em: https://dev.to/s_ndichu/understanding-your-data-the-essentials-of-exploratory-data-análise-eda-1hh7?1 Se houver alguma violação, entre em contato com study_golang@163 .com para excluí-lo
Tutorial mais recente Mais>

Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.

Copyright© 2022 湘ICP备2022001581号-3