”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 了解您的数据:探索性数据分析的要点。

了解您的数据:探索性数据分析的要点。

发布于2024-08-16
浏览:840

介绍
根据您通过机器学习模型获得的数据的最终目标、可视化的开发和用户友好的应用程序的合并,在项目开始时培养数据的流畅性将有助于最终的成功。
EDA 精要
这是我们了解数据预处理的必要性如何对数据分析师有益的地方。
由于数量庞大且来源多样,今天的数据更有可能出现异常。数据预处理已成为数据科学领域的基础阶段,因为高质量的数据可以带来更稳健的模型和预测。
探索性数据分析是数据科学家的工具,用于查看哪些数据可以在正式建模或假设测试任务之外公开。
数据科学家必须始终执行 EDA 以确保结果可靠并适用于任何受影响的结果和目标。它还帮助科学家和分析师确认他们正走在实现预期结果的正确轨道上。
指导研究的一些研究问题示例是:
1.数据预处理是否有显着效果
分析方法——缺失值、聚合值、数据过滤、离群值、变量变换、变量约简——准确的数据分析结果?
2。研究中预处理数据分析的必要性达到什么程度?
探索性数据分析指标及其重要性
1.数据过滤
这是选择数据集的较小部分并使用该子集进行查看或分析的做法。保留完整的数据集,但仅使用其中的一个子集进行计算;过滤通常是一个临时过程。从研究中发现不准确、不正确或低于标准的观察结果,提取特定兴趣群体的数据,或寻找特定时期的信息都可以使用过滤器进行总结。数据科学家必须在过滤过程中指定规则或逻辑以提取研究案例。

2.数据聚合
数据聚合需要将未处理的数据收集到一个位置并将其汇总以进行分析。数据聚合增加了数据的信息价值、实用价值和可用价值。技术用户的观点经常被用来定义这个短语。数据聚合是分析师或工程师将来自多个数据库或数据源的未处理数据集成到集中式数据库中的过程。然后通过组合原始数据来创建汇总数字。总和或平均值是总值的直接说明。聚合数据用于分析、报告、仪表板和其他数据产品。数据聚合可以提高生产力、决策制定和洞察时间。

3.缺失数据
在数据分析中,缺失值是缺失
的另一个名称 数据。当特定变量或受访者被遗漏或跳过时,就会发生这种情况。由于数据输入不正确、文件丢失或技术损坏,可能会发生遗漏。缺失数据可能会间歇性地导致模型偏差,具体取决于数据的类型,这使得它们出现问题。缺失数据意味着,由于数据有时可能来自误导性样本,因此结果可能只能在研究参数范围内推​​广。为了确保整个数据集的一致性,有必要使用标签“N/A”(“不适用”的缩写)重新编码所有缺失值。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
4.数据转换
使用函数或其他数学方法重新调整数据
转换过程中对每个观察值的操作。我们
偶尔更改数据以使其更容易建模
非常明显地偏斜(正向或负向)。
换句话说,应该尝试进行数据转换以适应应用参数统计检验的假设 if
变量不符合正态分布。最流行的数据转换是对数(或自然对数),当所有观察结果均为正值并且大多数数据值集中在零附近(涉及数据集中更重要的值)时,经常使用它。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
示意图

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

EDA 中的可视化技术
可视化技术在 EDA 中发挥着至关重要的作用,使我们能够直观地探索和理解复杂的数据结构和关系。 EDA 中使用的一些常见可视化技术有:
1.直方图:
直方图是显示数值变量分布的图形表示。它们通过可视化频率分布来帮助理解数据的集中趋势和传播。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
2.箱线图:箱线图是显示数值变量分布的图表。这种可视化技术有助于识别任何异常值并通过可视化其四分位数来了解数据的分布。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
3.热图:它们是数据的图形表示,其中颜色代表值。它们通常用于显示复杂的数据集,提供一种快速、简单的方法来可视化大量数据的模式和趋势。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

4.条形图:条形图是显示分类变量分布的图形。用于可视化数据的频率分布,有助于了解各个类别的相对频率。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
5.折线图:折线图是显示数值变量随时间变化趋势的图表。它用于可视化数据随时间的变化并识别任何模式或趋势。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
5.饼图:饼图是展示分类变量所占比例的图表。用于可视化每个类别的相对比例并了解数据分布。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

版本声明 本文转载于:https://dev.to/kiplimo_patrick_24/understanding-your-datathe-essentials-of-exploratory-data-analysis-4mhd?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 大批
    大批
    [2 数组是对象,因此它们在JS中也具有方法。 切片(开始):在新数组中提取部分数组,而无需突变原始数组。 令ARR = ['a','b','c','d','e']; // USECASE:提取直到索引作...
    编程 发布于2025-03-09
  • 如何从Python中的字符串中删除表情符号:固定常见错误的初学者指南?
    如何从Python中的字符串中删除表情符号:固定常见错误的初学者指南?
    从python import codecs import codecs import codecs 导入 text = codecs.decode('这狗\ u0001f602'.encode('utf-8'),'utf-8') 印刷(文字)#带有...
    编程 发布于2025-03-09
  • \“(1)vs.(;;):编译器优化是否消除了性能差异?\”
    \“(1)vs.(;;):编译器优化是否消除了性能差异?\”
    答案: 在大多数现代编译器中,while(1)和(1)和(;;)之间没有性能差异。编译器: perl: 1 输入 - > 2 2 NextState(Main 2 -E:1)V-> 3 9 Leaveloop VK/2-> A 3 toterloop(next-> 8 last-> 9 ...
    编程 发布于2025-03-09
  • 如何在Java字符串中有效替换多个子字符串?
    如何在Java字符串中有效替换多个子字符串?
    在java 中有效地替换多个substring,需要在需要替换一个字符串中的多个substring的情况下,很容易求助于重复应用字符串的刺激力量。 However, this can be inefficient for large strings or when working with nu...
    编程 发布于2025-03-09
  • 如何为PostgreSQL中的每个唯一标识符有效地检索最后一行?
    如何为PostgreSQL中的每个唯一标识符有效地检索最后一行?
    postgresql:为每个唯一标识符提取最后一行,在Postgresql中,您可能需要遇到与在数据库中的每个不同标识相关的信息中提取信息的情况。考虑以下数据:[ 1 2014-02-01 kjkj 在数据集中的每个唯一ID中检索最后一行的信息,您可以在操作员上使用Postgres的有效效率: ...
    编程 发布于2025-03-09
  • 如何从PHP中的数组中提取随机元素?
    如何从PHP中的数组中提取随机元素?
    从阵列中的随机选择,可以轻松从数组中获取随机项目。考虑以下数组:; 从此数组中检索一个随机项目,利用array_rand( array_rand()函数从数组返回一个随机键。通过将$项目数组索引使用此键,我们可以从数组中访问一个随机元素。这种方法为选择随机项目提供了一种直接且可靠的方法。
    编程 发布于2025-03-09
  • HTML格式标签
    HTML格式标签
    HTML 格式化元素 **HTML Formatting is a process of formatting text for better look and feel. HTML provides us ability to format text without us...
    编程 发布于2025-03-09
  • 可以在纯CS中将多个粘性元素彼此堆叠在一起吗?
    可以在纯CS中将多个粘性元素彼此堆叠在一起吗?
    [2这里: https://webthemez.com/demo/sticky-multi-header-scroll/index.html </main> <section> { display:grid; grid-template-...
    编程 发布于2025-03-09
  • 为什么PYTZ最初显示出意外的时区偏移?
    为什么PYTZ最初显示出意外的时区偏移?
    与pytz 最初从pytz获得特定的偏移。例如,亚洲/hong_kong最初显示一个七个小时37分钟的偏移: 差异源利用本地化将时区分配给日期,使用了适当的时区名称和偏移量。但是,直接使用DateTime构造器分配时区不允许进行正确的调整。 example pytz.timezone(...
    编程 发布于2025-03-09
  • 对象拟合:IE和Edge中的封面失败,如何修复?
    对象拟合:IE和Edge中的封面失败,如何修复?
    解决此问题,我们采用了一个巧妙的CSS解决方案来解决问题:左:50%; 高度:auto; 宽度:100%; //对于水平块 ,使用绝对定位将图像定位在中心,以object-fit:object-fit:cover in IE和edge消除了问题。现在,图像将按比例扩展,保持所需的效果而不会失真。...
    编程 发布于2025-03-09
  • 为什么我的CSS背景图像出现?
    为什么我的CSS背景图像出现?
    故障排除:CSS背景图像未出现 ,您的背景图像尽管遵循教程说明,但您的背景图像仍未加载。图像和样式表位于相同的目录中,但背景仍然是空白的白色帆布。而不是不弃用的,您已经使用了CSS样式: bockent {背景:封闭图像文件名:背景图:url(nickcage.jpg); 如果您的html,css...
    编程 发布于2025-03-09
  • 如何修复\“常规错误:2006 MySQL Server在插入数据时已经消失\”?
    如何修复\“常规错误:2006 MySQL Server在插入数据时已经消失\”?
    How to Resolve "General error: 2006 MySQL server has gone away" While Inserting RecordsIntroduction:Inserting data into a MySQL database can...
    编程 发布于2025-03-09
  • 如何使用替换指令在GO MOD中解析模块路径差异?
    如何使用替换指令在GO MOD中解析模块路径差异?
    在使用GO MOD时,在GO MOD 中克服模块路径差异时,可能会遇到冲突,其中可能会遇到一个冲突,其中3派对软件包将另一个带有导入套件的path package the Imptioned package the Imptioned package the Imported tocted pac...
    编程 发布于2025-03-09
  • 为什么不使用CSS`content'属性显示图像?
    为什么不使用CSS`content'属性显示图像?
    在Firefox extemers属性为某些图像很大,&& && && &&华倍华倍[华氏华倍华氏度]很少见,却是某些浏览属性很少,尤其是特定于Firefox的某些浏览器未能在使用内容属性引用时未能显示图像的情况。这可以在提供的CSS类中看到:。googlepic { 内容:url(&#...
    编程 发布于2025-03-09
  • 我可以将加密从McRypt迁移到OpenSSL,并使用OpenSSL迁移MCRYPT加密数据?
    我可以将加密从McRypt迁移到OpenSSL,并使用OpenSSL迁移MCRYPT加密数据?
    将我的加密库从mcrypt升级到openssl 问题:是否可以将我的加密库从McRypt升级到OpenSSL?如果是这样,如何?答案:是的,可以将您的Encryption库从McRypt升级到OpenSSL。可以使用openssl。附加说明: [openssl_decrypt()函数要求iv参...
    编程 发布于2025-03-09

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3