”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > Polars 与 Pandas Python 数据帧的新时代?

Polars 与 Pandas Python 数据帧的新时代?

发布于2024-09-27
浏览:748

Polars vs. Pandas A New Era of Dataframes in Python ?

北极熊与熊猫:有什么区别?

如果您一直关注 Python 的最新发展,您可能听说过 Polars,一个用于处理数据的新库。虽然 pandas 长期以来一直是首选库,但 Polars 正在掀起波澜,尤其是在处理大型数据集方面。那么,Polars 有什么大不了的呢?它和熊猫有什么不同?让我们来分解一下。


什么是极地?

Polars 是一个使用 Rust(一种快速的现代编程语言)构建的免费开源库。它旨在帮助 Python 开发人员以更快、更高效的方式处理数据。将其视为 pandas 的替代方案,当您处理 pandas 可能难以处理的非常大的数据集时,它会表现出色。


为什么要创建极地?

Pandas 已经存在很多年了,许多人仍然喜欢使用它。但随着数据变得越来越大、越来越复杂,pandas 开始表现出一些弱点。 Polars 的创建者 Ritchie Vink 注意到了这些问题,并决定创造一些更快、更高效的东西。甚至 Wes McKinney,pandas 的创建者,也在一篇题为 “我讨厌 pandas 的 10 件事” 的博客文章中承认,pandas 可以进行一些改进,特别是对于大型数据集。

这就是 Polars 的用武之地,它的设计速度快且内存效率高,这是 pandas 在处理大数据时遇到的两个问题。


主要区别:北极熊与熊猫

1. 速度

Polars 速度非常快。事实上,一些基准测试表明,在执行过滤或分组数据等常见操作时,Polars 的速度比 pandas 快 5-10 倍。当您处理大型数据集时,这种速度差异尤其明显。

2. 内存使用情况

Polars 在记忆方面效率更高。它使用的内存比 pandas 少 5 到 10 倍,这意味着您可以处理更大的数据集而不会遇到内存问题。

3. 延迟执行

Polars 使用称为延迟执行的东西,这意味着它不会在您编写操作时立即运行每个操作。相反,它会等到您编写了一系列操作,然后立即运行它们。这有助于它优化并更快地运行。另一方面,Pandas 会立即运行每个操作,这对于大型任务来说可能会更慢。

4. 多线程

Polars 可以同时使用多个 CPU 核心来处理数据,这使得处理大数据集的速度更快。 Pandas 大多是单线程的,这意味着它一次只能使用一个 CPU 核心,这会减慢速度,尤其是在处理大型数据集时。


为什么 Polar 如此快?

Polars 速度快有几个原因:

  • 它内置于 Rust,这是一种以其速度和安全性而闻名的编程语言,使其超级高效。
  • 它使用Apache Arrow,这是一种在内存中存储数据的特殊方式,可以更轻松、更快速地跨不同编程语言使用。

Rust 和 Apache Arrow 的这种组合使 Polars 在速度和内存使用方面比 pandas 更具优势。


Pandas 的优点和局限性

虽然 Polars 非常适合大数据,但 pandas 仍然占有一席之地。 Pandas 非常适合中小型数据集,并且已经存在很长时间了,它拥有大量的功能和庞大的社区。因此,如果您不使用庞大的数据集,pandas 可能仍然是您的最佳选择。

但是,随着数据集变大,pandas 往往会使用更多内存并且速度变慢,这使得 Polars 在这些情况下成为更好的选择。


什么时候应该使用 Polar?

如果出现以下情况,您应该考虑使用 Polars:

  • 您正在使用大型数据集(数百万或数十亿行)。
  • 您需要速度和性能才能快速完成任务。
  • 您有内存限制并且需要节省您正在使用的 RAM 量。

结论

北极熊和熊猫都有各自的优点。如果您正在处理中小型数据集,pandas 仍然是一个很棒的工具。但如果您正在处理大型数据集并且需要更快、更高效的内存效率,Polars 绝对值得尝试。得益于 Rust 和 Apache Arrow,其性能得到提升,使其成为数据密集型任务的绝佳选择。

随着 Python 的不断发展,Polars 可能会成为处理大数据的新的首选工具。

编码愉快? ?

版本声明 本文转载于:https://dev.to/aashwinkumar/polars-vs-pandas-a-new-era-of-dataframes-in-python--1654?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 如何使用 BeautifulSoup 从 Python 中的 HTML 表中提取数据?
    如何使用 BeautifulSoup 从 Python 中的 HTML 表中提取数据?
    BeautifulSoup解析表在Python中,BeautifulSoup提供了强大的解析HTML文档的方法。当遇到这样的场景,您需要从表中检索特定数据时,BeautifulSoup 就派上用场了。要提取目标行项目表,请使用 soup.find(),在表中指定适当的属性括号。在这种情况下,您需要:...
    编程 发布于2024-11-07
  • 如何在react中使用PKCE实现oAuth以进行第三方集成
    如何在react中使用PKCE实现oAuth以进行第三方集成
    在为第三方集成实现oAuth时,我偶然发现了一些很长一段时间没有更新的信息。在这里,我试图记录我的经验及其运作方式 注意:本文不会详细讨论oAuth及其工作原理。主要关注如何在 React 应用程序中配置和实现它们。如果您想了解 oAuth,请阅读此处。提供清晰的信息。 流程: 大...
    编程 发布于2024-11-07
  • 为什么我在 POST Jersey 请求中收到不支持的媒体类型错误?
    为什么我在 POST Jersey 请求中收到不支持的媒体类型错误?
    POST Jersey 请求中不支持的媒体类型错误遇到 HTTP 状态代码 415 - 对 Jersey 的 POST 请求中不支持的媒体类型REST 服务,问题通常在于 Jersey 发行版中缺少 JSON/POJO 支持。要解决此错误,需要在项目中添加必要的 JAR 依赖项。具体来说,需要以下依...
    编程 发布于2024-11-07
  • 针对 XSS 的常见防御措施有哪些?
    针对 XSS 的常见防御措施有哪些?
    针对 XSS 的常见防御输入和输出清理是防止跨站脚本 (XSS) 攻击的关键技术。本文探讨了行业和个人网站广泛采用的减轻这种威胁的方法。1。 HTML 转义:在将所有用户输入显示为 HTML 代码之前彻底转义它们。这涉及将“”、“&”和“等字符替换为其相应的 HTML 实体(例如,“”、“&”、“”...
    编程 发布于2024-11-07
  • Python垃圾收集器如何自动管理内存?
    Python垃圾收集器如何自动管理内存?
    Python 垃圾收集器文档Python 垃圾收集器是一个内存管理系统,可以自动释放程序不再使用的内存。这有助于通过防止内存泄漏并确保程序不会耗尽内存来提高性能。垃圾收集器的工作过程分为两步:引用计数: 解释器跟踪每个对象的引用数量。当引用计数达到零时,该对象被认为不可达,并被添加到要删除的对象列表...
    编程 发布于2024-11-07
  • PHP 如何高效处理大整数?
    PHP 如何高效处理大整数?
    PHP 可以处理大整数吗?PHP 可能没有显式的“BigInteger”类,但它提供了几种处理大整数的方法使用 BC 数学函数PHP 提供 BC 数学函数,如 bcadd() 和 bcsub() 进行整数运算。然而,这种方法对于大量计算来说可能会很慢。使用 GMP 扩展GMP(GNU 多精度算术)是...
    编程 发布于2024-11-07
  • 如何使用 Python 字符串匹配验证 IP 地址输入?
    如何使用 Python 字符串匹配验证 IP 地址输入?
    使用 Python 验证 IP 地址输入验证用户输入的 IP 地址在各种应用中至关重要。本文将探讨验证以字符串形式提供的 IP 地址合法性的最有效方法。首选方法偏离解析,而是利用 Python 标准库的套接字模块。通过利用 inet_aton(),我们可以确定输入字符串是否代表有效的 IP 地址:i...
    编程 发布于2024-11-07
  • 那么 Pull 请求如何再次发挥作用呢?屏显#3
    那么 Pull 请求如何再次发挥作用呢?屏显#3
    在我之前的文章中,我谈到了启动一个基于开源 GenAI 的终端应用程序。本周的任务是为另一个用户的项目贡献一个新功能。由于我们必须与新人合作,所以我与 Lily 合作,她开发了一款应用程序,其代码改进功能与我的类似,只是她的角色是老鼠! 有时间的话可以去看看她的项目老鼠助手。 她的代码是用 Type...
    编程 发布于2024-11-07
  • 为什么 Go 中不能直接将 []string 转换为 []interface{}?
    为什么 Go 中不能直接将 []string 转换为 []interface{}?
    为什么将 []string 转换为 []interface{} 会在 Go 中引发编译错误转换字符串切片 ([]string)考虑到它们共享切片特征以及 []string 的每个元素都可以被视为一个接口,Go 中的接口切片 ([]interface{}) 似乎很简单。然而,尝试这种转换时会出现编译错...
    编程 发布于2024-11-07
  • 理解 Shadow DOM:封装 Web 组件的关键
    理解 Shadow DOM:封装 Web 组件的关键
    在现代 Web 开发中,创建可重用和可维护的组件至关重要。 Shadow DOM 是 Web 组件标准的一部分,在实现这一目标方面发挥着至关重要的作用。本文深入探讨了 Shadow DOM 的概念、它的优点以及如何在您的项目中有效地使用它。 什么是 Shadow DOM? Shado...
    编程 发布于2024-11-07
  • 如何使用 Java 运行时解决输出重定向问题?
    如何使用 Java 运行时解决输出重定向问题?
    使用 Runtime 的 exec() 方法解决输出重定向问题在 Java 中,利用 Runtime.getRuntime().exec() 运行命令可以捕获进程的输出和错误流。但是,在需要输出重定向的情况下,单独使用此方法可能无效。问题:输出未重定向当使用 Runtime.getRuntime()...
    编程 发布于2024-11-07
  • 如何使用 CSS 悬停效果从左到右填充背景颜色?
    如何使用 CSS 悬停效果从左到右填充背景颜色?
    使用 CSS 从左到右填充背景颜色在 CSS 中,您可以通过利用线性渐变和动画背景定位来创建迷人的悬停效果。这种方法使您能够在悬停时从左到右用新颜色填充元素的背景。线性渐变和背景大小关键是使用由两种颜色组成的线性渐变背景,并将背景大小设置为元素宽度的两倍。这允许您在两种颜色之间创建无缝过渡。背景定位...
    编程 发布于2024-11-07
  • GraalVM 本机映像中的内存管理
    GraalVM 本机映像中的内存管理
    内存管理是计算机软件开发的重要组成部分,负责应用程序中内存的有效分配、利用和释放。其重要性在于增强软件性能,保证系统稳定性。 垃圾收集 垃圾收集 (GC) 在 Java 和 Go 等当代编程语言中至关重要。它自动检测并回收未使用的内存,从而减轻开发人员手动管理内存的需要。 GC 的概...
    编程 发布于2024-11-07
  • ## 在 C++ 中什么时候应该使用引用作为函数参数?
    ## 在 C++ 中什么时候应该使用引用作为函数参数?
    在 C 中传递参数:理解引用在 C 中,函数参数的行为由其类型决定。一个重要的区别是“按值传递”和“按引用传递”。为什么在函数参数中使用引用?引用在函数参数中用于两种情况主要原因:修改参数: 引用允许函数修改传递的参数的值。这意味着该函数可以进行调用者可见的更改。避免对象复制: 通过引用传递大对象可...
    编程 发布于2024-11-07
  • 如何在单个命令行中运行多行命令?
    如何在单个命令行中运行多行命令?
    如何在一行命令行中执行多行语句使用Python的-c选项执行单行循环时,在循环之前导入模块会导致语法错误。这是因为Python解释器将代码块视为单个语句。要解决此问题,可以采用以下几种方法:使用管道要克服语法错误,请使用 echo 命令将代码块作为一系列输入行重定向到 Python:echo -e ...
    编程 发布于2024-11-07

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3