”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?

在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?

发布于2024-08-18
浏览:640

两者都提供了广泛的工具和优势,这可能会让我们在某些时候怀疑选择两者中的哪一个。这并不是要改变公司的所有流程,以便他们开始使用 Polars 或 Pandas“死亡”(这不会在不久的将来发生)。这是关于了解其他可以帮助我们降低流程成本和时间、获得相同或更好结果的工具。

当我们使用云服务时,我们会优先考虑某些因素,包括它们的成本。我用于此过程的服务是带有 Python 3.10 运行时的 AWS Lambda 和用于存储原始文件和 parquet 转换文件的 S3。

目的是获取 CSV 文件作为原始数据,并使用 pandas 和 Polar 对其进行处理,以验证这两个库中的哪一个可以为我们提供更好的资源优化,例如内存和结果文件的重量。

熊猫
它是一个专门用于数据操作和分析的 Python 库,用 C 语言编写,首次发布于 2008 年。

*极地*
它是一个专门从事数据操作和分析的 Python 和 Rust 库,允许并行处理,主要用 Rust 编写,于 2022 年发布。

流程架构:

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?

该项目有点简单,如架构所示:用户将 CSV 文件存入 work/pandas 或 work/porlas 中,并自动启动 s3 触发器来处理该文件,将其转换为 parquet 并将其存入 Processed。

在这个小项目中使用两个具有以下配置的 lambda:
内存:2 GB
临时内存:2 GB
续航时间:600秒

要求
Lambda 与 pandas:Pandas、Numpy 和 Pyarrow
带有极坐标的 Lambda:极坐标

用于比较的数据集可以在 kaggle 上以“Rotten Tomatoes Movie Reviews – 1.44M rows”的名称找到,或者可以从此处下载。

完整的存储库可在 GitHub 上找到,并且可以在此处克隆。

尺寸或重量
Pandas 使用的 lambda 需要另外两个插件来创建 parquet 文件,在本例中是 PyArrow 和我使用的 Pandas 版本的特定版本的 numpy。结果,我们获得了一个权重或大小为 74.4 MB 的 lambda,非常接近 AWS 允许的 lambda 权重限制。

带有 Polars 的 lambda 不需要像 PyArrow 这样的其他插件,这使生活变得更简单,并将 lambda 的大小减少到一半以下。因此,与第一个 lambda 相比,我们的 lambda 的权重或大小为 30.6 MB,为我们提供了安装转换过程可能需要的其他依赖项的空间。

表现

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
在第一个版本之后,带有 Pandas 的 lambda 被优化为使用压缩,但是,还分析了其行为。
熊猫
与其他版本相比,处理数据集花费了 18 秒,并使用了 1894 MB 内存来处理 CSV 文件并生成 Parquet 文件,这是使用最多时间和资源的版本。

Pandas 压缩
添加一行代码使我们比之前的版本(Pandas)有了一点改进,处理数据集花了 17 秒,使用了 1837 MB,这并不代表处理和计算时间的显着改进,而是大小的显着改进。生成的文件。

极地
处理相同的数据集花了 12 秒,我只使用了 1462 MB,与前两者相比,它节省了 44.44% 的时间并降低了内存消耗。

输出文件大小

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
熊猫
未建立压缩过程的 lambda 生成了 177.4 MB 的 parquet 文件。

Pandas 压缩
在 lambda 中配置压缩时,我不会生成 121.1 MB 的 parquet 文件。一小行或一个选项帮助我们将文件大小减少了 31.74%。考虑到这不是一个重大的代码更改,这是一个非常好的选择。

极地
Polars 生成了一个 105.8 MB 的文件,与 Pandas 第一个版本一起购买时,与经过压缩的 Pandas 版本相比,该文件分别节省了 40.36% 和 12.63%。

结论
没有必要改变所有使用 Pandas 的内部流程,以便它们现在使用 Polars,但是,重要的是要考虑到,如果我们谈论数千或数百万个 lambda 执行,使用 Polars 不仅会帮助我们进行部署时间,但由于 AWS 为 Lambda 等无服务器服务提供基于时间的收费,因此也将帮助我们降低成本。
同样,当我们将 40.36% 转换为数百万个文件时,我们谈论的是 GB 或 TB,这会对 Datalake 或 Dataware house 甚至冷文件存储产生重大影响。

Polars 的减少不仅限于这两个因素,因为它会极大地影响 AWS 的数据和/或对象的输出,因为它是一项确实有成本的服务。

版本声明 本文转载于:https://dev.to/edsantoshn/que-es-mas-rapido-y-economico-para-convertir-archivos-en-aws-polar-o-pandas-594p?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 同实例无需转储复制MySQL数据库方法
    同实例无需转储复制MySQL数据库方法
    在同一实例上复制一个MySQL数据库而无需转储在同一mySQL实例上复制数据库,而无需创建InterMediate sqql script。以下方法为传统的转储和IMPORT过程提供了更简单的替代方法。 直接管道数据 MySQL手动概述了一种允许将mysqldump直接输出到MySQL clie...
    编程 发布于2025-07-13
  • 在JavaScript中如何并发运行异步操作并正确处理错误?
    在JavaScript中如何并发运行异步操作并正确处理错误?
    同意操作execution 在执行asynchronous操作时,相关的代码段落会遇到一个问题,当执行asynchronous操作:此实现在启动下一个操作之前依次等待每个操作的完成。要启用并发执行,需要进行修改的方法。 第一个解决方案试图通过获得每个操作的承诺来解决此问题,然后单独等待它们: co...
    编程 发布于2025-07-13
  • 如何使用组在MySQL中旋转数据?
    如何使用组在MySQL中旋转数据?
    在关系数据库中使用mySQL组使用mySQL组进行查询结果,在关系数据库中使用MySQL组,转移数据的数据是指重新排列的行和列的重排以增强数据可视化。在这里,我们面对一个共同的挑战:使用组的组将数据从基于行的基于列的转换为基于列。 Let's consider the following ...
    编程 发布于2025-07-13
  • 如何从PHP中的数组中提取随机元素?
    如何从PHP中的数组中提取随机元素?
    从阵列中的随机选择,可以轻松从数组中获取随机项目。考虑以下数组:; 从此数组中检索一个随机项目,利用array_rand( array_rand()函数从数组返回一个随机键。通过将$项目数组索引使用此键,我们可以从数组中访问一个随机元素。这种方法为选择随机项目提供了一种直接且可靠的方法。
    编程 发布于2025-07-13
  • 编译器报错“usr/bin/ld: cannot find -l”解决方法
    编译器报错“usr/bin/ld: cannot find -l”解决方法
    错误:“ usr/bin/ld:找不到-l “ 此错误表明链接器在链接您的可执行文件时无法找到指定的库。为了解决此问题,我们将深入研究如何指定库路径并将链接引导到正确位置的详细信息。添加库搜索路径的一个可能的原因是,此错误是您的makefile中缺少库搜索路径。要解决它,您可以在链接器命令中添加...
    编程 发布于2025-07-13
  • 如何使用PHP从XML文件中有效地检索属性值?
    如何使用PHP从XML文件中有效地检索属性值?
    从php PHP陷入困境。使用simplexmlelement :: attributes()函数提供了简单的解决方案。此函数可访问对XML元素作为关联数组的属性: - > attributes()为$ attributeName => $ attributeValue){ echo ...
    编程 发布于2025-07-13
  • 左连接为何在右表WHERE子句过滤时像内连接?
    左连接为何在右表WHERE子句过滤时像内连接?
    左JOIN CONUNDRUM:WITCHING小时在数据库Wizard的领域中变成内在的加入很有趣,当将c.foobar条件放置在上面的Where子句中时,据说左联接似乎会转换为内部连接。仅当满足A.Foo和C.Foobar标准时,才会返回结果。为什么要变形?关键在于其中的子句。当左联接的右侧值...
    编程 发布于2025-07-13
  • 如何使用Python的请求和假用户代理绕过网站块?
    如何使用Python的请求和假用户代理绕过网站块?
    如何使用Python的请求模拟浏览器行为,以及伪造的用户代理提供了一个用户 - 代理标头一个有效方法是提供有效的用户式header,以提供有效的用户 - 设置,该标题可以通过browser和Acterner Systems the equestersystermery和操作系统。通过模仿像Chro...
    编程 发布于2025-07-13
  • 如何简化PHP中的JSON解析以获取多维阵列?
    如何简化PHP中的JSON解析以获取多维阵列?
    php 试图在PHP中解析JSON数据的JSON可能具有挑战性,尤其是在处理多维数组时。 To simplify the process, it's recommended to parse the JSON as an array rather than an object.To do...
    编程 发布于2025-07-13
  • 如何从PHP中的Unicode字符串中有效地产生对URL友好的sl。
    如何从PHP中的Unicode字符串中有效地产生对URL友好的sl。
    为有效的slug生成首先,该函数用指定的分隔符替换所有非字母或数字字符。此步骤可确保slug遵守URL惯例。随后,它采用ICONV函数将文本简化为us-ascii兼容格式,从而允许更广泛的字符集合兼容性。接下来,该函数使用正则表达式删除了不需要的字符,例如特殊字符和空格。此步骤可确保slug仅包含...
    编程 发布于2025-07-13
  • JavaScript计算两个日期之间天数的方法
    JavaScript计算两个日期之间天数的方法
    How to Calculate the Difference Between Dates in JavascriptAs you attempt to determine the difference between two dates in Javascript, consider this s...
    编程 发布于2025-07-13
  • 如何将来自三个MySQL表的数据组合到新表中?
    如何将来自三个MySQL表的数据组合到新表中?
    mysql:从三个表和列的新表创建新表 答案:为了实现这一目标,您可以利用一个3-way Join。 选择p。*,d.content作为年龄 来自人为p的人 加入d.person_id = p.id上的d的详细信息 加入T.Id = d.detail_id的分类法 其中t.taxonomy =...
    编程 发布于2025-07-13
  • 如何在其容器中为DIV创建平滑的左右CSS动画?
    如何在其容器中为DIV创建平滑的左右CSS动画?
    通用CSS动画,用于左右运动 ,我们将探索创建一个通用的CSS动画,以向左和右移动DIV,从而到达其容器的边缘。该动画可以应用于具有绝对定位的任何div,无论其未知长度如何。问题:使用左直接导致瞬时消失 更加流畅的解决方案:混合转换和左 [并实现平稳的,线性的运动,我们介绍了线性的转换。这...
    编程 发布于2025-07-13
  • 如何限制动态大小的父元素中元素的滚动范围?
    如何限制动态大小的父元素中元素的滚动范围?
    在交互式接口中实现垂直滚动元素的CSS高度限制问题:考虑一个布局,其中我们具有与用户垂直滚动一起移动的可滚动地图div,同时与固定的固定sidebar保持一致。但是,地图的滚动无限期扩展,超过了视口的高度,阻止用户访问页面页脚。$("#map").css({ marginT...
    编程 发布于2025-07-13
  • 如何使用不同数量列的联合数据库表?
    如何使用不同数量列的联合数据库表?
    合并列数不同的表 当尝试合并列数不同的数据库表时,可能会遇到挑战。一种直接的方法是在列数较少的表中,为缺失的列追加空值。 例如,考虑两个表,表 A 和表 B,其中表 A 的列数多于表 B。为了合并这些表,同时处理表 B 中缺失的列,请按照以下步骤操作: 确定表 B 中缺失的列,并将它们添加到表的末...
    编程 发布于2025-07-13

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3