”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?

在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?

发布于2024-08-18
浏览:289

两者都提供了广泛的工具和优势,这可能会让我们在某些时候怀疑选择两者中的哪一个。这并不是要改变公司的所有流程,以便他们开始使用 Polars 或 Pandas“死亡”(这不会在不久的将来发生)。这是关于了解其他可以帮助我们降低流程成本和时间、获得相同或更好结果的工具。

当我们使用云服务时,我们会优先考虑某些因素,包括它们的成本。我用于此过程的服务是带有 Python 3.10 运行时的 AWS Lambda 和用于存储原始文件和 parquet 转换文件的 S3。

目的是获取 CSV 文件作为原始数据,并使用 pandas 和 Polar 对其进行处理,以验证这两个库中的哪一个可以为我们提供更好的资源优化,例如内存和结果文件的重量。

熊猫
它是一个专门用于数据操作和分析的 Python 库,用 C 语言编写,首次发布于 2008 年。

*极地*
它是一个专门从事数据操作和分析的 Python 和 Rust 库,允许并行处理,主要用 Rust 编写,于 2022 年发布。

流程架构:

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?

该项目有点简单,如架构所示:用户将 CSV 文件存入 work/pandas 或 work/porlas 中,并自动启动 s3 触发器来处理该文件,将其转换为 parquet 并将其存入 Processed。

在这个小项目中使用两个具有以下配置的 lambda:
内存:2 GB
临时内存:2 GB
续航时间:600秒

要求
Lambda 与 pandas:Pandas、Numpy 和 Pyarrow
带有极坐标的 Lambda:极坐标

用于比较的数据集可以在 kaggle 上以“Rotten Tomatoes Movie Reviews – 1.44M rows”的名称找到,或者可以从此处下载。

完整的存储库可在 GitHub 上找到,并且可以在此处克隆。

尺寸或重量
Pandas 使用的 lambda 需要另外两个插件来创建 parquet 文件,在本例中是 PyArrow 和我使用的 Pandas 版本的特定版本的 numpy。结果,我们获得了一个权重或大小为 74.4 MB 的 lambda,非常接近 AWS 允许的 lambda 权重限制。

带有 Polars 的 lambda 不需要像 PyArrow 这样的其他插件,这使生活变得更简单,并将 lambda 的大小减少到一半以下。因此,与第一个 lambda 相比,我们的 lambda 的权重或大小为 30.6 MB,为我们提供了安装转换过程可能需要的其他依赖项的空间。

表现

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
在第一个版本之后,带有 Pandas 的 lambda 被优化为使用压缩,但是,还分析了其行为。
熊猫
与其他版本相比,处理数据集花费了 18 秒,并使用了 1894 MB 内存来处理 CSV 文件并生成 Parquet 文件,这是使用最多时间和资源的版本。

Pandas 压缩
添加一行代码使我们比之前的版本(Pandas)有了一点改进,处理数据集花了 17 秒,使用了 1837 MB,这并不代表处理和计算时间的显着改进,而是大小的显着改进。生成的文件。

极地
处理相同的数据集花了 12 秒,我只使用了 1462 MB,与前两者相比,它节省了 44.44% 的时间并降低了内存消耗。

输出文件大小

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
熊猫
未建立压缩过程的 lambda 生成了 177.4 MB 的 parquet 文件。

Pandas 压缩
在 lambda 中配置压缩时,我不会生成 121.1 MB 的 parquet 文件。一小行或一个选项帮助我们将文件大小减少了 31.74%。考虑到这不是一个重大的代码更改,这是一个非常好的选择。

极地
Polars 生成了一个 105.8 MB 的文件,与 Pandas 第一个版本一起购买时,与经过压缩的 Pandas 版本相比,该文件分别节省了 40.36% 和 12.63%。

结论
没有必要改变所有使用 Pandas 的内部流程,以便它们现在使用 Polars,但是,重要的是要考虑到,如果我们谈论数千或数百万个 lambda 执行,使用 Polars 不仅会帮助我们进行部署时间,但由于 AWS 为 Lambda 等无服务器服务提供基于时间的收费,因此也将帮助我们降低成本。
同样,当我们将 40.36% 转换为数百万个文件时,我们谈论的是 GB 或 TB,这会对 Datalake 或 Dataware house 甚至冷文件存储产生重大影响。

Polars 的减少不仅限于这两个因素,因为它会极大地影响 AWS 的数据和/或对象的输出,因为它是一项确实有成本的服务。

版本声明 本文转载于:https://dev.to/edsantoshn/que-es-mas-rapido-y-economico-para-convertir-archivos-en-aws-polar-o-pandas-594p?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 哪种在JavaScript中声明多个变量的方法更可维护?
    哪种在JavaScript中声明多个变量的方法更可维护?
    在JavaScript中声明多个变量:探索两个方法在JavaScript中,开发人员经常遇到需要声明多个变量的需要。对此的两种常见方法是:在单独的行上声明每个变量: 当涉及性能时,这两种方法本质上都是等效的。但是,可维护性可能会有所不同。 第一个方法被认为更易于维护。每个声明都是其自己的语句,使其...
    编程 发布于2025-04-06
  • 为什么不````''{margin:0; }`始终删除CSS中的最高边距?
    为什么不````''{margin:0; }`始终删除CSS中的最高边距?
    在CSS 问题:不正确的代码: 全球范围将所有余量重置为零,如提供的代码所建议的,可能会导致意外的副作用。解决特定的保证金问题是更建议的。 例如,在提供的示例中,将以下代码添加到CSS中,将解决余量问题: body H1 { 保证金顶:-40px; } 此方法更精确,避免了由全局保证金重置引...
    编程 发布于2025-04-06
  • 如何限制动态大小的父元素中元素的滚动范围?
    如何限制动态大小的父元素中元素的滚动范围?
    在交互式接口中实现垂直滚动元素的CSS高度限制问题: 考虑一个布局,其中我们具有可滚动的映射div,该图像div与用户的垂直滚动一起移动,同时维持固定的固定sidebar。但是,地图的滚动无限期扩展,超过了视口的高度,阻止用户访问页面页脚。 映射{} 因此。我们不使用jQuery的“ .aim...
    编程 发布于2025-04-06
  • HTML格式标签
    HTML格式标签
    HTML 格式化元素 **HTML Formatting is a process of formatting text for better look and feel. HTML provides us ability to format text without us...
    编程 发布于2025-04-06
  • 如何在Java中正确显示“ DD/MM/YYYY HH:MM:SS.SS”格式的当前日期和时间?
    如何在Java中正确显示“ DD/MM/YYYY HH:MM:SS.SS”格式的当前日期和时间?
    如何在“ dd/mm/yyyy hh:mm:mm:ss.ss”格式“ gormat 解决方案: args)抛出异常{ 日历cal = calendar.getInstance(); SimpleDateFormat SDF =新的SimpleDateFormat(“...
    编程 发布于2025-04-06
  • 在细胞编辑后,如何维护自定义的JTable细胞渲染?
    在细胞编辑后,如何维护自定义的JTable细胞渲染?
    在JTable中维护jtable单元格渲染后,在JTable中,在JTable中实现自定义单元格渲染和编辑功能可以增强用户体验。但是,至关重要的是要确保即使在编辑操作后也保留所需的格式。在设置用于格式化“价格”列的“价格”列,用户遇到的数字格式丢失的“价格”列的“价格”之后,问题在设置自定义单元格...
    编程 发布于2025-04-06
  • 如何在Java字符串中有效替换多个子字符串?
    如何在Java字符串中有效替换多个子字符串?
    在java 中有效地替换多个substring,需要在需要替换一个字符串中的多个substring的情况下,很容易求助于重复应用字符串的刺激力量。 However, this can be inefficient for large strings or when working with nu...
    编程 发布于2025-04-06
  • 如何解决由于Android的内容安全策略而拒绝加载脚本... \”错误?
    如何解决由于Android的内容安全策略而拒绝加载脚本... \”错误?
    Unveiling the Mystery: Content Security Policy Directive ErrorsEncountering the enigmatic error "Refused to load the script..." when deployi...
    编程 发布于2025-04-06
  • 如何检查对象是否具有Python中的特定属性?
    如何检查对象是否具有Python中的特定属性?
    方法来确定对象属性存在寻求一种方法来验证对象中特定属性的存在。考虑以下示例,其中尝试访问不确定属性会引起错误: >>> a = someClass() >>> A.property Trackback(最近的最新电话): 文件“ ”,第1行, attributeError:SomeClass实...
    编程 发布于2025-04-06
  • 如何使用Java.net.urlConnection和Multipart/form-data编码使用其他参数上传文件?
    如何使用Java.net.urlConnection和Multipart/form-data编码使用其他参数上传文件?
    使用http request 上传文件上传到http server,同时也提交其他参数,java.net.net.urlconnection and Multipart/form-data Encoding是普遍的。 Here's a breakdown of the process:Mu...
    编程 发布于2025-04-06
  • 为什么使用Firefox后退按钮时JavaScript执行停止?
    为什么使用Firefox后退按钮时JavaScript执行停止?
    导航历史记录问题:JavaScript使用Firefox Back Back 此行为是由浏览器缓存JavaScript资源引起的。要解决此问题并确保在后续页面访问中执行脚本,Firefox用户应设置一个空功能。 警报'); }; alert('inline Alert'...
    编程 发布于2025-04-06
  • 如何使用PHP从XML文件中有效地检索属性值?
    如何使用PHP从XML文件中有效地检索属性值?
    从php PHP陷入困境。使用simplexmlelement :: attributes()函数提供了简单的解决方案。此函数可访问对XML元素作为关联数组的属性: - > attributes()为$ attributeName => $ attributeValue){ echo ...
    编程 发布于2025-04-06
  • PHP阵列键值异常:了解07和08的好奇情况
    PHP阵列键值异常:了解07和08的好奇情况
    PHP数组键值问题,使用07&08 在给定数月的数组中,键值07和08呈现令人困惑的行为时,就会出现一个不寻常的问题。运行print_r($月)返回意外结果:键“ 07”丢失,而键“ 08”分配给了9月的值。此问题源于PHP对领先零的解释。当一个数字带有0(例如07或08)的前缀时,PHP将其...
    编程 发布于2025-04-06
  • 如何在其容器中为DIV创建平滑的左右CSS动画?
    如何在其容器中为DIV创建平滑的左右CSS动画?
    通用CSS动画,用于左右运动 ,我们将探索创建一个通用的CSS动画,以向左和右移动DIV,从而到达其容器的边缘。该动画可以应用于具有绝对定位的任何div,无论其未知长度如何。问题:使用左直接导致瞬时消失 更加流畅的解决方案:混合转换和左 [并实现平稳的,线性的运动,我们介绍了线性的转换。这...
    编程 发布于2025-04-06
  • 对象拟合:IE和Edge中的封面失败,如何修复?
    对象拟合:IE和Edge中的封面失败,如何修复?
    To resolve this issue, we employ a clever CSS solution that solves the problem:position: absolute;top: 50%;left: 50%;transform: translate(-50%, -50%)...
    编程 发布于2025-04-06

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3