了解您的数据：探索性数据分析 (EDA) 的要点。

首页 > 编程 > 了解您的数据：探索性数据分析 (EDA) 的要点。

了解您的数据：探索性数据分析 (EDA) 的要点。

发布于2024-08-27

Understanding your data: The Essentials of Exploratory Data Analysis (EDA).

收集并存储数据后，需要对其进行分析以得出对其有意义的理解。正是由于这个原因，探索性数据分析（EDA）发挥了作用。顾名思义，我们正在“探索”数据，即获得数据的总体概述。

收集的数据可以是文本、视频或图像，通常以非结构化方式存储。您很少会找到 100% 干净的数据，即没有任何异常情况。此外，数据可能采用各种格式，例如 Excel、CSV（逗号分隔值）、Json、Parquet 等。

在数据世界中，EDA 也可以称为数据操作或数据清理。行业从业者强调清理数据以删除“垃圾”的重要性，因为这可能会对结果和预测产生负面影响。结构化数据通常采用表格格式，可以使用多种技术和工具（如 Excel、Power BI、SQL）进行分析，但我们将重点关注 Python 来进行说明。

使用 Python 进行 EDA
Python 编程语言是 EDA 中最广泛的工具之一，因为它具有多功能性，可以跨多个行业使用，包括金融、教育、医疗保健、采矿、酒店等。
内置库，即 Pandas 和 NumPy 在这方面非常有效，并且可以跨领域工作（无论是使用 Anaconda/Jupyter Notebook、Google Collab 还是 Visual Studio 等 IDE）

以下是执行 EDA 时可执行的常见步骤和代码行：

首先，您将导入操作/分析所需的 python 库：

将 pandas 导入为 pd
将 numpy 导入为 np

其次，加载数据集
df = pd.read_excel('文件路径')

注：df是将表格数据转换为数据框的标准函数。

加载后，您可以使用以下代码预览数据：
df.head()

这将显示数据集的前 5 行
或者，您可以简单地运行 df ，它将显示整个数据集的选定几行（顶部和底部）以及其中的所有列。

第三，使用以下方式了解所有数据类型：
df.info()

注：数据类型包括整数（整数）、浮点（小数）或对象（定性数据/描述性文字）。

在这一步，建议使用以下方式获取数据的汇总统计：
df.describe()

这将为您提供平均值、众数、标准差、最大/最小值和四分位数等统计数据。

第四，判断数据集中是否存在空值：
df.isnull()