Introducción
Según el objetivo final que tenga sobre sus datos como resultado de un modelo de aprendizaje automático, el desarrollo de visualizaciones y la incorporación de aplicaciones fáciles de usar, desarrollar fluidez en los datos al comienzo del proyecto reforzará el éxito final.
Fundamentos de EDA
Aquí es donde aprendemos cómo la necesidad del preprocesamiento de datos beneficia a los analistas de datos.
Debido a la inmensidad y a las diversas fuentes, es más probable que los datos de hoy sean anormales. El preprocesamiento de datos se ha convertido en la etapa fundamental en el campo de la ciencia de datos, ya que los datos de alta calidad dan como resultado modelos y predicciones más sólidos.
El análisis de datos exploratorio es una herramienta que utilizan los científicos de datos para ver qué datos pueden exponer fuera del modelado formal o de la tarea de prueba de suposiciones.
El científico de datos siempre debe realizar EDA para garantizar resultados confiables y aplicables a cualquier resultado y objetivo afectado. También ayuda a los científicos y analistas a confirmar que están en el camino correcto para lograr los resultados deseados.
Algunos de los ejemplos de preguntas de investigación que guían el estudio son:
1. ¿Existe algún efecto significativo del preprocesamiento de datos?
¿Enfoques de análisis (valores faltantes, agregado de valores, filtrado de datos, valores atípicos, transformación de variables y reducción de variables) sobre resultados precisos del análisis de datos?
2. ¿A qué nivel significativo es necesario el análisis de datos de preprocesamiento en los estudios de investigación?
Métricas de análisis de datos exploratorios y su importancia
1.Filtrado de datos
Esta es la práctica de seleccionar una sección más pequeña de un conjunto de datos y utilizar ese subconjunto para visualización o análisis. Se conserva el conjunto de datos completo, pero sólo se utiliza un subconjunto para el cálculo; El filtrado suele ser un procedimiento temporal. Descubrir observaciones inexactas, incorrectas o deficientes del estudio, extraer datos para un grupo de interés específico o buscar información para un período específico se pueden resumir mediante filtros. El científico de datos debe especificar una regla o lógica durante el filtrado para extraer casos para el estudio.
2.Agregación de datos
La agregación de datos requiere reunir datos no procesados en una única ubicación y resumirlos para su análisis. La agregación de datos aumenta el valor informativo, práctico y utilizable de los datos. La perspectiva de un usuario técnico se utiliza a menudo para definir la frase. La agregación de datos es el proceso de integrar datos no procesados de muchas bases de datos o fuentes de datos en una base de datos centralizada en el caso de un analista o ingeniero. Luego, los números agregados se crean combinando los datos sin procesar. Una suma o promedio es una ilustración sencilla de un valor agregado. Los datos agregados se utilizan en análisis, informes, paneles y otros productos de datos. La agregación de datos puede aumentar la productividad, la toma de decisiones y el tiempo para obtener información.
3.Datos faltantes
En análisis de datos, los valores faltantes son otro nombre para faltar
datos. Ocurre cuando variables o encuestados específicos se omiten o se omiten. Pueden ocurrir omisiones debido a una entrada de datos incorrecta, archivos perdidos o tecnología rota. Los datos faltantes pueden provocar de forma intermitente un sesgo en el modelo, según su tipo, lo que los hace problemáticos. Los datos faltantes implican que, dado que los datos pueden provenir a veces de muestras engañosas, los resultados solo pueden generalizarse dentro de los parámetros del estudio. Para garantizar la coherencia en todo el conjunto de datos, es necesario recodificar todos los valores faltantes con etiquetas "N/A" (abreviatura de "no aplicable").
4.Transformación de datos
Los datos se reescalan usando una función u otro método matemático
operación en cada observación durante una transformación. Nosotros
ocasionalmente modifique los datos para que sea más fácil modelar cuando
está muy sesgado (ya sea positiva o negativamente).
En otras palabras, se debería intentar una transformación de datos que se ajuste al supuesto de aplicar una prueba estadística paramétrica si
la(s) variable(s) no se ajusta(n) a una distribución normal. La transformación de datos más popular es log (o registro natural), que se utiliza con frecuencia cuando todas las observaciones son positivas y la mayoría de los valores de los datos se agrupan alrededor de cero en relación con los valores más significativos del conjunto de datos.
Ilustración del diagrama
Técnicas de visualización en EDA
Las técnicas de visualización desempeñan un papel esencial en EDA, ya que nos permiten explorar y comprender visualmente estructuras y relaciones de datos complejas. Algunas técnicas de visualización comunes utilizadas en EDA son:
1.Histogramas:
Los histogramas son representaciones gráficas que muestran la distribución de variables numéricas. Ayudan a comprender la tendencia central y la dispersión de los datos al visualizar la distribución de frecuencia.
2.Gráficos de caja: Un diagrama de caja es un gráfico que muestra la distribución de una variable numérica. Esta técnica de visualización ayuda a identificar valores atípicos y comprender la dispersión de los datos mediante la visualización de sus cuartiles.
3.Heatmaps: Son representaciones gráficas de datos en los que los colores representan valores. A menudo se utilizan para mostrar conjuntos de datos complejos, lo que proporciona una forma rápida y sencilla de visualizar patrones y tendencias en grandes cantidades de datos.
4.Gráficos de barras: Un gráfico de barras es un gráfico que muestra la distribución de una variable categórica. Se utiliza para visualizar la distribución de frecuencia de los datos, lo que ayuda a comprender la frecuencia relativa de cada categoría.
5.Gráficos de líneas: Un gráfico de líneas es un gráfico que muestra la tendencia de una variable numérica a lo largo del tiempo. Se utiliza para visualizar los cambios en los datos a lo largo del tiempo e identificar patrones o tendencias.
5.Gráficos circulares: Los gráficos circulares son gráficos que muestran la proporción de una variable categórica. Se utiliza para visualizar la proporción relativa de cada categoría y comprender la distribución de los datos.
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3