"Se um trabalhador quiser fazer bem o seu trabalho, ele deve primeiro afiar suas ferramentas." - Confúcio, "Os Analectos de Confúcio. Lu Linggong"
Primeira página > Programação > ENTENDENDO SEUS DADOS: OS ESSENCIAIS DA ANÁLISE EXPLORATÓRIA DE DADOS.

ENTENDENDO SEUS DADOS: OS ESSENCIAIS DA ANÁLISE EXPLORATÓRIA DE DADOS.

Publicado em 16/08/2024
Navegar:335

Introdução
Com base no objetivo final que você tem sobre seus dados como resultado de um modelo de aprendizado de máquina, desenvolvimento de visualizações e incorporação de aplicativos amigáveis, desenvolver fluência nos dados no início do projeto irá reforçar o sucesso final.
Fundamentos da EDA
É aqui que aprendemos como a necessidade de pré-processamento de dados é benéfica para os analistas de dados.
Devido à vastidão e às diversas fontes, é mais provável que os dados de hoje sejam anormais. O pré-processamento de dados tornou-se a etapa fundamental no campo da ciência de dados, uma vez que dados de alta qualidade resultam em modelos e previsões mais robustos.
A análise exploratória de dados é uma ferramenta do cientista de dados para ver quais dados podem expor fora da modelagem formal ou da tarefa de teste de suposições.
O cientista de dados deve sempre realizar EDA para garantir resultados confiáveis ​​e aplicáveis ​​a quaisquer resultados e objetivos afetados. Também auxilia cientistas e analistas a confirmar que estão no caminho certo para alcançar os resultados desejados.
Alguns dos exemplos de questões de pesquisa que norteiam o estudo são:
1.Existe algum efeito significativo do pré-processamento de dados
abordagens de análise - valores ausentes, agregação de valores, filtragem de dados, valores discrepantes, transformação de variáveis ​​e redução de variáveis ​​- em resultados precisos de análise de dados?
2. Em que nível significativo o pré-processamento da análise de dados é necessário em estudos de pesquisa?
Métricas de análise exploratória de dados e sua importância
1. Filtragem de dados
Esta é a prática de escolher uma seção menor de um conjunto de dados e usar esse subconjunto para visualização ou análise. O conjunto completo de dados é mantido, mas apenas um subconjunto dele é usado para cálculo; a filtragem normalmente é um procedimento temporário. A descoberta de observações imprecisas, incorretas ou abaixo da média do estudo, a extração de dados para um grupo de interesse específico ou a busca de informações para um período específico podem ser resumidas por meio de filtros. O cientista de dados deve especificar uma regra ou lógica durante a filtragem para extrair casos para o estudo.

2.Agregação de dados
A agregação de dados requer a coleta de dados não processados ​​em um único local e sua soma para análise. A agregação de dados aumenta o valor informativo, prático e utilizável dos dados. A perspectiva de um usuário técnico é frequentemente usada para definir a frase. A agregação de dados é o processo de integração de dados não processados ​​de muitos bancos de dados ou fontes de dados em um banco de dados centralizado na instância de um analista ou engenheiro. Os números agregados são então criados combinando os dados brutos. Uma soma ou média é uma ilustração direta de um valor agregado. Os dados agregados são usados ​​em análises, relatórios, painéis e outros produtos de dados. A agregação de dados pode aumentar a produtividade, a tomada de decisões e o tempo para obtenção de insights.

3.Dados ausentes
Na análise de dados, valores ausentes são outro nome para valores ausentes
dados. Ocorre quando variáveis ​​ou respondentes específicos são deixados de fora ou ignorados. As omissões podem ocorrer devido à entrada incorreta de dados, perda de arquivos ou tecnologia quebrada. A falta de dados pode resultar intermitentemente em vieses do modelo, dependendo do seu tipo, o que os torna problemáticos. A falta de dados implica que, uma vez que os dados podem, por vezes, ter vindo de amostras enganosas, os resultados só podem ser generalizáveis ​​dentro dos parâmetros do estudo. Para garantir a consistência em todo o conjunto de dados, é necessário recodificar todos os valores ausentes com rótulos de "N/A" (abreviação de "não aplicável").

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
4.Transformação de dados
Os dados são redimensionados usando uma função ou outro método matemático
operação em cada observação durante uma transformação. Nós
ocasionalmente altere os dados para facilitar a modelagem quando
é significativamente distorcido (positiva ou negativamente).
Em outras palavras, deve-se tentar uma transformação de dados para se adequar à suposição de aplicação de um teste estatístico paramétrico se
a(s) variável(ões) não se ajusta(m) a uma distribuição normal. A transformação de dados mais popular é o log (ou log natural), que é frequentemente usado quando todas as observações são positivas e a maioria dos valores dos dados se agrupa em torno de zero em relação aos valores mais significativos no conjunto de dados.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
Ilustração do diagrama

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

Técnicas de visualização em EDA
As técnicas de visualização desempenham um papel essencial na EDA, permitindo-nos explorar e compreender visualmente estruturas e relacionamentos de dados complexos. Algumas técnicas de visualização comuns usadas em EDA são:
1.Histogramas:
Histogramas são representações gráficas que mostram a distribuição de variáveis ​​numéricas. Eles ajudam a compreender a tendência central e a propagação dos dados, visualizando a distribuição de frequência.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
2.Boxplots: Um boxplot é um gráfico que mostra a distribuição de uma variável numérica. Essa técnica de visualização ajuda a identificar quaisquer valores discrepantes e a compreender a distribuição dos dados, visualizando seus quartis.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
3.Heatmaps: São representações gráficas de dados em que as cores representam valores. Eles são frequentemente usados ​​para exibir conjuntos de dados complexos, fornecendo uma maneira rápida e fácil de visualizar padrões e tendências em grandes quantidades de dados.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

4.Gráficos de barras: Um gráfico de barras é um gráfico que mostra a distribuição de uma variável categórica. É utilizado para visualizar a distribuição de frequência dos dados, o que ajuda a entender a frequência relativa de cada categoria.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
5.Gráficos de linhas: Um gráfico de linhas é um gráfico que mostra a tendência de uma variável numérica ao longo do tempo. É usado para visualizar as mudanças nos dados ao longo do tempo e para identificar quaisquer padrões ou tendências.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
5.Gráficos de pizza: Os gráficos de pizza são um gráfico que mostra a proporção de uma variável categórica. É usado para visualizar a proporção relativa de cada categoria e entender a distribuição dos dados.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

Declaração de lançamento Este artigo foi reproduzido em: https://dev.to/kiplimo_patrick_24/understanding-your-datathe-essentials-of-exploratory-data-análise-4mhd?1 Se houver alguma violação, entre em contato com [email protected] para excluir isto
Tutorial mais recente Mais>

Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.

Copyright© 2022 湘ICP备2022001581号-3