Compreendendo seus dados: Os fundamentos da análise exploratória de dados (EDA).

Primeira página > Programação > Compreendendo seus dados: Os fundamentos da análise exploratória de dados (EDA).

Compreendendo seus dados: Os fundamentos da análise exploratória de dados (EDA).

Publicado em 2024-08-27

Navegar:103

Understanding your data: The Essentials of Exploratory Data Analysis (EDA).

Uma vez que os dados foram coletados e armazenados, há necessidade de sua análise para obter uma compreensão significativa deles. É por esta razão que a análise exploratória de dados (EDA) entra em jogo. Como o nome sugere, estamos 'explorando' os dados, ou seja, obtendo uma visão geral deles.

Os dados coletados podem ser textos, vídeos ou imagens e geralmente serão armazenados de forma não estruturada. Raramente você encontrará dados 100% limpos, ou seja, sem anomalias. Além disso, os dados podem estar em vários formatos como Excel, CSV (valores separados por vírgula), Json, Parquet etc.

No mundo dos dados, EDA também pode ser referido como manipulação de dados ou limpeza de dados. Os profissionais do setor enfatizam a importância de limpar os dados para remover 'lixo', pois isso pode impactar negativamente os resultados, bem como as previsões. Dados estruturados, geralmente em formato tabular, podem ser analisados usando diversas técnicas e ferramentas (como Excel, Power BI, SQL), mas vamos nos concentrar em Python para esta ilustração.

EDA usando Python
A linguagem de programação Python é uma das ferramentas mais utilizadas em EDA devido à sua versatilidade que permite sua utilização em diversos setores, seja financeiro, educação, saúde, mineração, hotelaria entre outros. Bibliotecas integradas, nomeadamente Pandas e NumPy, são altamente eficazes nesse aspecto e funcionam de maneira geral (seja usando
Anaconda/Jupyter Notebook, Google Collab ou um IDE como o Visual Studio)

Abaixo estão as etapas comuns e linhas de código executáveis ao executar EDA:

Primeiro, você importará as bibliotecas python necessárias para manipulação/análise:

importar pandas como pd importar numpy como np

Em segundo lugar, carregue o conjunto de dados

df = pd.read_excel('Caminho do arquivo')

Nota: df é a função padrão para converter dados tabulares em um quadro de dados.

Depois de carregados, você pode visualizar os dados usando o código:

df.head()

Isso mostrará as primeiras 5 linhas do conjunto de dados

Alternativamente, você pode simplesmente executar
df que mostrará algumas linhas selecionadas (superior e inferior) de todo o conjunto de dados, bem como todas as colunas nele contidas.

Em terceiro lugar, entenda todos os tipos de dados usando:

df.info()

Nota: os tipos de dados incluem inteiros (números inteiros), flutuantes (decimais) ou objetos (dados qualitativos/palavras descritivas).

Nesta etapa, é aconselhável obter estatísticas resumidas dos dados usando:

df.describe()

Isso fornecerá estatísticas como

Média, Modo, Desvio Padrão, valores máximos/mínimos e quartis.

Em quarto lugar, identifique se existem valores nulos no conjunto de dados usando:

df.isnull()

Isso pode ser seguido pela verificação de duplicatas (entradas repetitivas)

df.duplicado()

Outros aspectos importantes da EDA são verificar como as diversas variáveis em um conjunto de dados se relacionam entre si (

Correlação) e sua distribuição. A correlação pode ser positiva ou negativa e varia de -1 a 1. Seu código é:

df.corr()

Nota: um valor de correlação próximo de 1 indica uma correlação positiva forte, enquanto um valor próximo de -1 indica um correlação negativa forte.

Distribuição verifica quão

simétrico ou assimétrico os dados são, bem como a assimetria dos dados e pode ser normal, binomial, Bernoulli ou Poisson.

Em resumo, a análise exploratória de dados é um processo importante para obter uma melhor compreensão dos dados. Permite melhores visualizações e construção de modelos.

Declaração de lançamento Este artigo foi reproduzido em: https://dev.to/s_ndichu/understanding-your-data-the-essentials-of-exploratory-data-análise-eda-1hh7?1 Se houver alguma violação, entre em contato com study_golang@163 .com para excluí-lo

Tutorial mais recente Mais>

Como posso criar com eficiência dicionários usando a compreensão do Python?
Python Dictionary Compreension Em Python, as compreensões do dicionário oferecem uma maneira concisa de gerar novos dicionários. Embora sejam se...

Programação Postado em 2025-04-23
Como modificar efetivamente o atributo CSS do pseudo-elemento ": depois" usando jQuery?
Entendendo as limitações dos pseudo-elementos no jQuery: acessar o ": depois" seletor no desenvolvimento da web, pseudo-elementos co...

Programação Postado em 2025-04-23
Causas e soluções para falha na detecção de rosto: erro -215
manipulação de erros: resolvendo "error: (-215)! Vazio () na função detectmultisCale" em OpenCV ao tentar utilizar o metrô de detecç...

Programação Postado em 2025-04-23
Como acessar dinamicamente variáveis globais em JavaScript?
acessando variáveis globais dinamicamente pelo nome em javascript obtendo acesso a variáveis globais durante o tempo de execução pode ser um...

Programação Postado em 2025-04-23
Como você extrai um elemento aleatório de uma matriz no PHP?
seleção aleatória de uma matriz em php, a obtenção de um item aleatório de uma matriz pode ser realizado com ease. Considere a seguinte matriz: ...

Programação Postado em 2025-04-23
Razões para o Codeigniter se conectar ao banco de dados MySQL depois de mudar para MySqli
Unable to Connect to MySQL Database: Troubleshooting Error MessageWhen attempting to switch from the MySQL driver to the MySQLi driver in CodeIgniter,...

Programação Postado em 2025-04-23
Como resolver discrepâncias do caminho do módulo no Go Mod usando a diretiva substituição?
superando a discrepância do caminho do módulo em Go Mod Ao utilizar Go Mod, é possível encontrar um conflito em que um pacote de terceiros imp...

Programação Postado em 2025-04-23
Como implementar uma função de hash genérico para tuplas em coleções não ordenadas?
função de hash genérico para tuplas em coleções não ordenadas o std :: não -ordered_map e std :: uncomered_set contêineres fornecem pesquisa e...

Programação Postado em 2025-04-23
Razões pelas quais Python não relata erros para o fatiamento da substring hiperescópica
Substring Flicing With Index Out of Range: Dualidade e sequências vazias em Python, acessando elementos de uma sequência usando o operador de ...

Programação Postado em 2025-04-23
Por que a execução do JavaScript cessa ao usar o botão Back Firefox?
Problema do histórico de navegação: JavaScript deixa de executar após o uso do botão de volta ao Firefox usuários do Firefox podem encontrar u...

Programação Postado em 2025-04-23
Tags de formatação HTML
Elementos de formatação HTML **HTML Formatting is a process of formatting text for better look and feel. HTML provides us ability to form...

Programação Postado em 2025-04-23
Como converter com eficiência fusos horários em PHP?
Conversão eficiente do fuso horário em php No PHP, o manuseio dos fusos horários pode ser uma tarefa direta. Este guia fornecerá um método fácil...

Programação Postado em 2025-04-23
Variedade
Os métodos são FNs que podem ser chamados em objetos Matrizes são objetos, portanto, eles também têm métodos no JS. Flice (Begin): Extra...

Programação Postado em 2025-04-23
Por que o DateTime :: Modify do PHP ('+1 mês') produz resultados inesperados?
Modificando meses com php dateTime: descobrindo o comportamento pretendido Ao trabalhar com a classe DateTime do PHP, adicionar ou subtrair me...

Programação Postado em 2025-04-23
Como passar ponteiros exclusivos como parâmetros de função ou construtor no C ++?
gerenciando ponteiros exclusivos como parâmetros nos construtores e funções ponteiros exclusivos ( exclusivo_ptr ) defende o princípio da propri...

Programação Postado em 2025-04-23

Classificação Mais>

Aprenda japonês Aprender coreano Aprenda chinês Aprender língua estrangeira Jogo Problema comum Periféricos de tecnologia IA Tutorial de software Programação Artigo