Uma vez que os dados foram coletados e armazenados, há necessidade de sua análise para obter uma compreensão significativa deles. É por esta razão que a análise exploratória de dados (EDA) entra em jogo. Como o nome sugere, estamos 'explorando' os dados, ou seja, obtendo uma visão geral deles.
Os dados coletados podem ser textos, vídeos ou imagens e geralmente serão armazenados de forma não estruturada. Raramente você encontrará dados 100% limpos, ou seja, sem anomalias. Além disso, os dados podem estar em vários formatos como Excel, CSV (valores separados por vírgula), Json, Parquet etc.
No mundo dos dados, EDA também pode ser referido como manipulação de dados ou limpeza de dados. Os profissionais do setor enfatizam a importância de limpar os dados para remover 'lixo', pois isso pode impactar negativamente os resultados, bem como as previsões. Dados estruturados, geralmente em formato tabular, podem ser analisados usando diversas técnicas e ferramentas (como Excel, Power BI, SQL), mas vamos nos concentrar em Python para esta ilustração.
EDA usando Python
A linguagem de programação Python é uma das ferramentas mais utilizadas em EDA devido à sua versatilidade que permite sua utilização em diversos setores, seja financeiro, educação, saúde, mineração, hotelaria entre outros.
Bibliotecas integradas, nomeadamente Pandas e NumPy, são altamente eficazes nesse aspecto e funcionam de maneira geral (seja usando
Anaconda/Jupyter Notebook, Google Collab ou um IDE como o Visual Studio)
Primeiro, você importará as bibliotecas python necessárias para manipulação/análise:
importar pandas como pd
importar numpy como np
df = pd.read_excel('Caminho do arquivo')
Nota: df é a função padrão para converter dados tabulares em um quadro de dados.
Depois de carregados, você pode visualizar os dados usando o código:
df.head()
Alternativamente, você pode simplesmente executar
df que mostrará algumas linhas selecionadas (superior e inferior) de todo o conjunto de dados, bem como todas as colunas nele contidas.
df.info()
Nota: os tipos de dados incluem inteiros (números inteiros), flutuantes (decimais) ou objetos (dados qualitativos/palavras descritivas).
Nesta etapa, é aconselhável obter estatísticas resumidas dos dados usando:
df.describe()
Média, Modo, Desvio Padrão, valores máximos/mínimos e quartis.
Em quarto lugar, identifique se existem valores nulos no conjunto de dados usando:
df.isnull()
df.duplicado()
Correlação) e sua distribuição.
A correlação pode ser positiva ou negativa e varia de -1 a 1. Seu código é:
df.corr()
Nota: um valor de correlação próximo de 1 indica uma correlação positiva forte, enquanto um valor próximo de -1 indica um correlação negativa forte.
Distribuição verifica quãosimétrico ou assimétrico os dados são, bem como a assimetria dos dados e pode ser normal, binomial, Bernoulli ou Poisson.
Em resumo, a análise exploratória de dados é um processo importante para obter uma melhor compreensão dos dados. Permite melhores visualizações e construção de modelos.
Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3