收集并存储数据后,需要对其进行分析以得出对其有意义的理解。正是由于这个原因,探索性数据分析(EDA)发挥了作用。顾名思义,我们正在“探索”数据,即获得数据的总体概述。
收集的数据可以是文本、视频或图像,通常以非结构化方式存储。您很少会找到 100% 干净的数据,即没有任何异常情况。此外,数据可能采用各种格式,例如 Excel、CSV(逗号分隔值)、Json、Parquet 等。
在数据世界中,EDA 也可以称为数据操作或数据清理。行业从业者强调清理数据以删除“垃圾”的重要性,因为这可能会对结果和预测产生负面影响。结构化数据通常采用表格格式,可以使用多种技术和工具(如 Excel、Power BI、SQL)进行分析,但我们将重点关注 Python 来进行说明。
使用 Python 进行 EDA
Python 编程语言是 EDA 中最广泛的工具之一,因为它具有多功能性,可以跨多个行业使用,包括金融、教育、医疗保健、采矿、酒店等。
内置库,即 Pandas 和 NumPy 在这方面非常有效,并且可以跨领域工作(无论是使用 Anaconda/Jupyter Notebook、Google Collab 还是 Visual Studio 等 IDE)
以下是执行 EDA 时可执行的常见步骤和代码行:
首先,您将导入操作/分析所需的 python 库:
将 pandas 导入为 pd
将 numpy 导入为 np
其次,加载数据集
df = pd.read_excel('文件路径')
注:df是将表格数据转换为数据框的标准函数。
加载后,您可以使用以下代码预览数据:
df.head()
这将显示数据集的前 5 行
或者,您可以简单地运行 df ,它将显示整个数据集的选定几行(顶部和底部)以及其中的所有列。
第三,使用以下方式了解所有数据类型:
df.info()
注:数据类型包括整数(整数)、浮点(小数)或对象(定性数据/描述性文字)。
在这一步,建议使用以下方式获取数据的汇总统计:
df.describe()
这将为您提供平均值、众数、标准差、最大/最小值和四分位数等统计数据。
第四,判断数据集中是否存在空值:
df.isnull()
然后可以检查重复项(重复条目)
df.duplicate()
EDA 的其他关键方面是检查数据集中的各个变量如何相互关联(相关性)及其分布。
相关性可以为正,也可以为负,范围为-1到1。其代码为:
df.corr()
注:相关性接近1表示强正相关,接近-1表示强负相关。
分布检查对称或不对称数据,以及数据的偏度,它可以是正态、二项式、伯努利或泊松。
总之,探索性数据分析是更好地理解数据的重要过程。它可以实现更好的可视化和模型构建。
免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。
Copyright© 2022 湘ICP备2022001581号-3