”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?

在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?

发布于2024-08-18
浏览:157

两者都提供了广泛的工具和优势,这可能会让我们在某些时候怀疑选择两者中的哪一个。这并不是要改变公司的所有流程,以便他们开始使用 Polars 或 Pandas“死亡”(这不会在不久的将来发生)。这是关于了解其他可以帮助我们降低流程成本和时间、获得相同或更好结果的工具。

当我们使用云服务时,我们会优先考虑某些因素,包括它们的成本。我用于此过程的服务是带有 Python 3.10 运行时的 AWS Lambda 和用于存储原始文件和 parquet 转换文件的 S3。

目的是获取 CSV 文件作为原始数据,并使用 pandas 和 Polar 对其进行处理,以验证这两个库中的哪一个可以为我们提供更好的资源优化,例如内存和结果文件的重量。

熊猫
它是一个专门用于数据操作和分析的 Python 库,用 C 语言编写,首次发布于 2008 年。

*极地*
它是一个专门从事数据操作和分析的 Python 和 Rust 库,允许并行处理,主要用 Rust 编写,于 2022 年发布。

流程架构:

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?

该项目有点简单,如架构所示:用户将 CSV 文件存入 work/pandas 或 work/porlas 中,并自动启动 s3 触发器来处理该文件,将其转换为 parquet 并将其存入 Processed。

在这个小项目中使用两个具有以下配置的 lambda:
内存:2 GB
临时内存:2 GB
续航时间:600秒

要求
Lambda 与 pandas:Pandas、Numpy 和 Pyarrow
带有极坐标的 Lambda:极坐标

用于比较的数据集可以在 kaggle 上以“Rotten Tomatoes Movie Reviews – 1.44M rows”的名称找到,或者可以从此处下载。

完整的存储库可在 GitHub 上找到,并且可以在此处克隆。

尺寸或重量
Pandas 使用的 lambda 需要另外两个插件来创建 parquet 文件,在本例中是 PyArrow 和我使用的 Pandas 版本的特定版本的 numpy。结果,我们获得了一个权重或大小为 74.4 MB 的 lambda,非常接近 AWS 允许的 lambda 权重限制。

带有 Polars 的 lambda 不需要像 PyArrow 这样的其他插件,这使生活变得更简单,并将 lambda 的大小减少到一半以下。因此,与第一个 lambda 相比,我们的 lambda 的权重或大小为 30.6 MB,为我们提供了安装转换过程可能需要的其他依赖项的空间。

表现

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
在第一个版本之后,带有 Pandas 的 lambda 被优化为使用压缩,但是,还分析了其行为。
熊猫
与其他版本相比,处理数据集花费了 18 秒,并使用了 1894 MB 内存来处理 CSV 文件并生成 Parquet 文件,这是使用最多时间和资源的版本。

Pandas 压缩
添加一行代码使我们比之前的版本(Pandas)有了一点改进,处理数据集花了 17 秒,使用了 1837 MB,这并不代表处理和计算时间的显着改进,而是大小的显着改进。生成的文件。

极地
处理相同的数据集花了 12 秒,我只使用了 1462 MB,与前两者相比,它节省了 44.44% 的时间并降低了内存消耗。

输出文件大小

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
熊猫
未建立压缩过程的 lambda 生成了 177.4 MB 的 parquet 文件。

Pandas 压缩
在 lambda 中配置压缩时,我不会生成 121.1 MB 的 parquet 文件。一小行或一个选项帮助我们将文件大小减少了 31.74%。考虑到这不是一个重大的代码更改,这是一个非常好的选择。

极地
Polars 生成了一个 105.8 MB 的文件,与 Pandas 第一个版本一起购买时,与经过压缩的 Pandas 版本相比,该文件分别节省了 40.36% 和 12.63%。

结论
没有必要改变所有使用 Pandas 的内部流程,以便它们现在使用 Polars,但是,重要的是要考虑到,如果我们谈论数千或数百万个 lambda 执行,使用 Polars 不仅会帮助我们进行部署时间,但由于 AWS 为 Lambda 等无服务器服务提供基于时间的收费,因此也将帮助我们降低成本。
同样,当我们将 40.36% 转换为数百万个文件时,我们谈论的是 GB 或 TB,这会对 Datalake 或 Dataware house 甚至冷文件存储产生重大影响。

Polars 的减少不仅限于这两个因素,因为它会极大地影响 AWS 的数据和/或对象的输出,因为它是一项确实有成本的服务。

版本声明 本文转载于:https://dev.to/edsantoshn/que-es-mas-rapido-y-economico-para-convertir-archivos-en-aws-polar-o-pandas-594p?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 使用 React 构建的排序算法可视化工具
    使用 React 构建的排序算法可视化工具
    大家好!我刚刚完成了我的第一个真正的宠物项目 - 一个使用 React 构建的排序算法可视化工具。 ? GitHub 仓库:https://github.com/Fedorse/Sorting-Algorithm-Visualizer 现场演示:https://algorithms-virid.ve...
    编程 发布于2024-11-06
  • 为 Angular 18 创建基本框架
    为 Angular 18 创建基本框架
    Ранее рассматривалось создание и настройка нового проекта Angular. В данной статье разберем базовую структуру. Напомню, что цикл посвящен разработке ...
    编程 发布于2024-11-06
  • 如何访问Go的CGo中的联合字段?
    如何访问Go的CGo中的联合字段?
    在 Golang CGo 中将 Union 字段转换为 Go 类型在 Golang CGo 中使用 C 结构时,访问 union 字段可能是一个挑战。常见场景涉及访问 C 结构内值联合中的 ui32v 字段,如下例所示:struct _GNetSnmpVarBind { guint32 ...
    编程 发布于2024-11-06
  • 在 JavaScript 中使用最小和最大堆管理流数据:数字运动员健康技术视角
    在 JavaScript 中使用最小和最大堆管理流数据:数字运动员健康技术视角
    数据管理在健康技术中至关重要。无论是跟踪运动员的表现指标还是监控运动员的恢复时间,有效地组织数据都可以对洞察的获取方式产生重大影响。在这种情况下管理数据的一种强大工具是堆,特别是最小堆和最大堆。在这篇文章中,我们将使用与运动员数据管理相关的实际示例,探讨如何在 JavaScript 中实现和使用最小...
    编程 发布于2024-11-06
  • 使用 Matplotlib 绘图时,为什么性能会受到影响以及可以采取什么措施?
    使用 Matplotlib 绘图时,为什么性能会受到影响以及可以采取什么措施?
    Matplotlib 绘图的性能注意事项在评估不同的 Python 绘图库时,使用 Matplotlib 时可能会遇到性能问题。本文探讨了 Matplotlib 绘图速度缓慢的原因,并提供了提高其速度的解决方案。速度缓慢的原因Matplotlib 性能缓慢主要源于两个因素:频繁重绘: 每次调用 Fi...
    编程 发布于2024-11-06
  • S - 单一职责原则(SRP)
    S - 单一职责原则(SRP)
    Single Responsibility Principle(SRP) The Single Responsibility Principle(SRP) is the first of the SOLID principles, which plays an important ...
    编程 发布于2024-11-06
  • 如何修复 PHP 通过 SSH 连接 MySQL 时的 mysqli_connect() 参数问题?
    如何修复 PHP 通过 SSH 连接 MySQL 时的 mysqli_connect() 参数问题?
    在 PHP 中通过 SSH 连接到 MySQL 服务器使用 PHP 函数通过 SSH 建立与远程 Linux 计算机上托管的 MySQL 数据库的连接可能具有挑战性。使用提供的代码时,可能会出现错误“mysqli_connect()期望参数6为字符串,给定资源”。理解问题代码尝试使用mysqli_c...
    编程 发布于2024-11-06
  • 微服务项目
    微服务项目
    ⚙️微服务项目的灵感来自@sqshq“Alexander Lukyanchikov”的piggymetrics,但是这个实现使用了PostgreSQL和更简单的业务逻辑,这个项目的主要目标是展示微服务架构的示例。 TechStack:PostgreSQL、Spring、Docker 我正在考虑可以添...
    编程 发布于2024-11-06
  • 优化 AWS ECS 的 Java 堆设置
    优化 AWS ECS 的 Java 堆设置
    我们在 AWS Elastic Container Service(ECS) Fargate 上运行多个 Java 服务 (Corretto JDK21)。每个服务都有自己的容器,我们希望使用为每个进程支付的所有可能的资源。但这些步骤可以应用于 EC2 和其他云。 服务正在运行批处理作业,延迟并不重...
    编程 发布于2024-11-06
  • PHP 初学者必备知识:释放网站的全部潜力
    PHP 初学者必备知识:释放网站的全部潜力
    PHP基础知识:释放网站潜能简介PHP是一种强大的服务器端脚本语言,广泛用于创建动态网站。对于初学者来说,掌握PHP基础知识至关重要。本文将提供一个全面的指南,涵盖PHP编程的基本要素,并通过实战案例巩固理解。安装并配置PHP要开始使用PHP,您需要安装PHP解释器和相关的软件。遵循以下步骤:- 下...
    编程 发布于2024-11-06
  • 如何确定 PHP 标头的正确图像内容类型?
    如何确定 PHP 标头的正确图像内容类型?
    确定 PHP 标头的图像内容类型使用 Header() 函数从 Web 根目录之外显示图像时,用户可能会遇到困惑关于指定的内容类型:image/png。然而,尽管内容类型固定,但具有各种扩展名的图像(例如, JPG、GIF)仍然可以成功显示。要解决这种差异,动态确定正确的扩展名至关重要基于文件扩展名...
    编程 发布于2024-11-05
  • ByteBuddies:使用 Python 和 Tkinter 创建交互式动画宠物
    ByteBuddies:使用 Python 和 Tkinter 创建交互式动画宠物
    大家好! 我很高兴向大家介绍 ByteBuddies,这是一个用 Python 和 Tkinter 创建的个人项目,展示了交互式动画虚拟宠物。 ByteBuddies 将引人入胜的动画与用户交互相结合,提供了展示 GUI 编程强大功能的独特体验。该项目旨在通过提供交互式虚拟宠物来让您的屏幕充满活力...
    编程 发布于2024-11-05
  • 如何解决“TypeError:\'str\'对象不支持项目分配”错误?
    如何解决“TypeError:\'str\'对象不支持项目分配”错误?
    'str'对象项分配错误疑难解答尝试在 Python 中修改字符串中的特定字符时,您可能会遇到错误“类型错误:“str”对象不支持项目分配。”发生这种情况是因为 Python 中的字符串是不可变的,这意味着它们无法就地更改。解决此问题的一种常见方法是将字符串转换为可变列表,进行必要的...
    编程 发布于2024-11-05
  • 如何缓解 GenAI 代码和 LLM 集成中的安全问题
    如何缓解 GenAI 代码和 LLM 集成中的安全问题
    GitHub Copilot and other AI coding tools have transformed how we write code and promise a leap in developer productivity. But they also introduce new ...
    编程 发布于2024-11-05
  • Spring 中的 ContextLoaderListener:必要的邪恶还是不必要的复杂?
    Spring 中的 ContextLoaderListener:必要的邪恶还是不必要的复杂?
    ContextLoaderListener:必要的邪恶还是不必要的复杂?开发人员经常遇到在 Spring Web 应用程序中使用 ContextLoaderListener 和 DispatcherServlet。然而,一个令人烦恼的问题出现了:为什么不简单地使用 DispatcherServlet...
    编程 发布于2024-11-05

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3