」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 在 AWS 中轉換檔案更快、更便宜:Polar 或 Pandas?

在 AWS 中轉換檔案更快、更便宜:Polar 或 Pandas?

發佈於2024-08-18
瀏覽:506

兩者都提供了廣泛的工具和優勢,這可能會讓我們在某些​​時候懷疑選擇兩者中的哪一個。這並不是要改變公司的所有流程,以便他們開始使用 Polars 或 Pandas「死亡」(這不會在不久的將來發生)。這是關於了解其他可以幫助我們降低流程成本和時間、獲得相同或更好結果的工具。

當我們使用雲端服務時,我們會優先考慮某些因素,包括它們的成本。我用於此過程的服務是帶有 Python 3.10 運行時的 AWS Lambda 和用於儲存原始檔案和 parquet 轉換檔案的 S3。

目的是獲取 CSV 文件作為原始數據,並使用 pandas 和 Polar 對其進行處理,以驗證這兩個庫中的哪一個可以為我們提供更好的資源優化,例如內存和結果文件的重量。

貓熊
它是一個專門用於資料操作和分析的 Python 函式庫,以 C 語言編寫,首次發佈於 2008 年。

*極地*
它是一個專門從事資料操作和分析的 Python 和 Rust 函式庫,允許並行處理,主要用 Rust 編寫,於 2022 年發布。

流程架構:

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?

這個專案有點簡單,如架構所示:使用者將CSV 檔案存入work/pandas 或work/porlas 中,並自動啟動s3 觸發器來處理該文件,將其轉換為parquet 並將其存入Processed 。

在這個小專案中使用兩個具有以下配置的 lambda:
記憶體:2 GB
臨時記憶體:2 GB
續航時間:600秒

要求
Lambda 與 pandas:Pandas、Numpy 與 Pyarrow
帶有極座標的 Lambda:極座標

用於比較的資料集可以在 kaggle 上以「Rotten Tomatoes Movie Reviews – 1.44M rows」的名稱找到,或者可以從此處下載。

完整的儲存庫可在 GitHub 上找到,並且可以在此處複製。

尺寸或重量
Pandas 使用的 lambda 需要另外兩個外掛程式來建立 parquet 文件,在本例中是 PyArrow 和我使用的 Pandas 版本的特定版本的 numpy。結果,我們獲得了一個權重或大小為 74.4 MB 的 lambda,非常接近 AWS 允許的 lambda 權重限制。

帶有 Polars 的 lambda 不需要像 PyArrow 這樣的其他插件,這使生活變得更簡單,並將 lambda 的大小減少到一半以下。因此,與第一個 lambda 相比,我們的 lambda 的權重或大小為 30.6 MB,為我們提供了安裝轉換過程可能需要的其他依賴項的空間。

表現

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
在第一個版本之後,帶有 Pandas 的 lambda 被優化為使用壓縮,但是,也分析了其行為。
貓熊
與其他版本相比,處理資料集花費了 18 秒,並使用了 1894 MB 記憶體來處理 CSV 文件並產生 Parquet 文件,這是使用最多時間和資源的版本。

Pandas 壓縮
添加一行程式碼使我們比之前的版本(Pandas)有了一點改進,處理資料集花了17 秒,使用了1837 MB,這並不代表處理和計算時間的顯著改進,而是大小的顯著改進。產生的文件。

極地
處理相同的資料集花了 12 秒,我只使用了 1462 MB,與前兩者相比,它節省了 44.44% 的時間並降低了記憶體消耗。

輸出檔案大小

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
貓熊
未建立壓縮過程的 lambda 產生了 177.4 MB 的 parquet 檔案。

Pandas 壓縮
在 lambda 中配置壓縮時,我不會產生 121.1 MB 的 parquet 檔案。一小行或一個選項幫助我們將檔案大小減少了 31.74%。考慮到這不是一個重大的程式碼更改,這是一個非常好的選擇。

極地
Polars 產生了一個 105.8 MB 的文件,與 Pandas 第一版一起購買時,與經過壓縮的 Pandas 版本相比,該文件分別節省了 40.36% 和 12.63%。

結論
沒有必要改變所有使用Pandas 的內部流程,以便它們現在使用Polars,但是,重要的是要考慮到,如果我們談論數千或數百萬個lambda 執行,使用Polars 不僅會幫助我們進行部署時間,但由於AWS 為Lambda 等無伺服器服務提供基於時間的收費,因此也將幫助我們降低成本。
同樣,當我們將 40.36% 轉換為數百萬個檔案時,我們談論的是 GB 或 TB,這會對 Datalake 或 Dataware house 甚至冷檔案儲存產生重大影響。

Polars 的減少不僅限於這兩個因素,因為它會極大地影響 AWS 的資料和/或物件的輸出,因為它是一項確實有成本的服務。

版本聲明 本文轉載於:https://dev.to/edsantoshn/que-es-mas-rapido-y-economico-para-convertir-archivos-en-aws-polar-o-pandas-594p?1如有侵犯,請聯絡[email protected]刪除
最新教學 更多>
  • 答:C++中如何產生隨機數?
    答:C++中如何產生隨機數?
    這是一個很好的答案! 回覆回覆:如何在C中產生隨機數? 2012 年 11 月 18 日 ...
    程式設計 發佈於2024-11-06
  • 如何在 JavaScript 中對 HTML 實體進行編碼以便在 CMS 中正確顯示?
    如何在 JavaScript 中對 HTML 實體進行編碼以便在 CMS 中正確顯示?
    在JavaScript 中編碼HTML 實體將內容輸入內容管理系統(CMS) 時,處理® 等特殊字元至關重要確保跨瀏覽器正確顯示。為了解決這個問題,可以使用 JavaScript 來定位這些符號並將其轉換為適當的 HTML 實體。 使用正規表示式,可以透過將特定字元範圍替換為對應的 HTML 實體來...
    程式設計 發佈於2024-11-06
  • 為什麼「float: right」會顛倒 HTML 中的 Span 順序?
    為什麼「float: right」會顛倒 HTML 中的 Span 順序?
    Float:跨度的右反轉順序給定 HTML 標記:<div> <span class="label"><a href="/index/1">Bookmix Offline</a></span>...
    程式設計 發佈於2024-11-06
  • Python 字典如何保持程式碼乾淨、乾燥
    Python 字典如何保持程式碼乾淨、乾燥
    Python 字典和 DRY 原则:初学者快速指南 嘿! ?如果您正在深入研究 Python 编程,您可能偶然发现了字典,并且可能想知道“Python 中的字典到底是什么?它如何帮助我更智能地编写代码?”不用担心,让我们用一种超级简单的方式来分解它。 Python ...
    程式設計 發佈於2024-11-06
  • 使用 Django、Twilio 和 Pinata 建立安全的匿名回饋系統
    使用 Django、Twilio 和 Pinata 建立安全的匿名回饋系統
    在本指南中,我将引导您使用 Django、用于短信通知的 Twilio、用于安全媒体上传的 Pinata 以及用于响应式样式的 TailwindCSS 构建安全匿名反馈系统。在本教程结束时,您将拥有一个功能齐全的反馈系统,用户可以在其中提交反馈、选择上传媒体以及接收短信通知 - 所有这些都考虑到安全...
    程式設計 發佈於2024-11-06
  • 為什麼 Tkinter Entry 的 get 函數不回傳任何內容?
    為什麼 Tkinter Entry 的 get 函數不回傳任何內容?
    Tkinter Entry 的get 函數沒有產生任何結果:綜合解釋當嘗試使用get() 從Tkinter Entry 小部件檢索用戶輸入時函數時,您可能會遇到空返回值。這個看似令人困惑的問題源自於 Tkinter 的非同步特性和函數執行的順序。 在提供的程式碼片段中,您嘗試在建立 Entry 後立...
    程式設計 發佈於2024-11-06
  • 使用 NodeJs 開始使用 RabbitMq
    使用 NodeJs 開始使用 RabbitMq
    RabbitMq簡介 RabbitMq 是一個訊息代理,允許在不同服務之間發送和接收訊息。它是一個實作高階訊息佇列協定(AMQP)的訊息代理程式。用 Erlang 程式語言寫成。 安裝 RabbitMq RabbitMq 可以使用各自的套件管理器安裝在不同的作業系統上。 Rabbi...
    程式設計 發佈於2024-11-06
  • 讓網路更加互聯
    讓網路更加互聯
    讓網路更互聯 - Infometka 如何解決「隱形網站」問題 身為 Web 開發人員和 ???️??????️ 的創建者,我一直熱衷於解決現實世界的問題。今天,我想分享我開發的一個解決方案,我相信它可以為無數網站所有者帶來重大改變,並在某種程度上使互聯網成為一個更加互聯的地方。 ...
    程式設計 發佈於2024-11-06
  • 使用 React 建置 Loop Studio
    使用 React 建置 Loop Studio
    介绍 Loop Studio 是一个沉浸式网站,旨在展示各种虚拟现实 (VR) 项目。使用 React,我们可以有效地管理和渲染不同的组件,以构建有凝聚力和交互式的用户体验。该项目采用简洁的设计,带有导航标题、详细的 VR 部分、创作画廊以及带有社交媒体链接的页脚。 ...
    程式設計 發佈於2024-11-06
  • 如何解決用PHP在CURL中傳送多維數組時出現「陣列到字串轉換」錯誤?
    如何解決用PHP在CURL中傳送多維數組時出現「陣列到字串轉換」錯誤?
    透過CURL 和PHP 發送多維數組使用CURL 發布包含多維數組的表單資料時,遇到「數組到字串轉換」錯誤是一個常見問題。當嘗試使用包含陣列的陣列設定 CURLOPT_POSTFIELDS 時會發生這種情況。 由於 Content-Type 標頭必須是 multipart/form-data 以方便...
    程式設計 發佈於2024-11-06
  • 如何在 Selenium 中使用 \"span:contains(\'String\')\" 解決 InvalidSelectorException?
    如何在 Selenium 中使用 \"span:contains(\'String\')\" 解決 InvalidSelectorException?
    Selenium 中的Invalid SelectorException with "span:contains('String')"在Firefox 中使用Python 中的Selenium 時,嘗試使用CSS 選擇器「span:contains('Co...
    程式設計 發佈於2024-11-06
  • 如何將 HTML 附加到容器元素而不出現 InnerHTML 陷阱?
    如何將 HTML 附加到容器元素而不出現 InnerHTML 陷阱?
    在沒有innerHTML的情況下將HTML附加到容器元素重新訪問當前的問題是如何將HTML附加到容器元素,同時避免限制以及使用innerHTML屬性的陷阱。正如OP正確指出的那樣,innerHTML由於其替換現有內容的行為,可能會破壞嵌入媒體等動態元素。 幸運的是,有一個替代方案可以克服這些問題:i...
    程式設計 發佈於2024-11-06
  • 持續測試:確保 DevOps 管道的質量
    持續測試:確保 DevOps 管道的質量
    持续测试是现代软件开发中的关键实践,尤其是在 DevOps 框架内。它涉及在整个软件交付管道中自动执行测试,以确保对代码库所做的每项更改都得到彻底验证。通过将测试集成到开发过程的每个阶段,持续测试旨在尽早发现和解决缺陷,从而显着降低生产故障的风险。 什么是持续测试? 持续测试是作为软件交付管道的一...
    程式設計 發佈於2024-11-06
  • 背景顏色改變視頻
    背景顏色改變視頻
    在 Instagram 上關注我們 在本影片教學中,我將指導您使用 HTML、CSS 和 JavaScript 建立令人驚嘆的 Instagram 卡片。這張卡片具有充滿活力的變色邊框、圓形個人資料圖片和「關注我們」按鈕,為您的線上形象增添了吸引力。該專案非常適合增強您的作品集或社交媒體頁面,展示了...
    程式設計 發佈於2024-11-06
  • 如何使用 PHP 清除瀏覽器快取?
    如何使用 PHP 清除瀏覽器快取?
    使用 PHP 清除瀏覽器快取瀏覽器快取將經常存取的檔案儲存在本地,從而縮短網站載入時間。但是,如果快取的檔案已過時,它也會幹擾測試和開發。本文說明如何使用 PHP 清除瀏覽器快取。 清除瀏覽器快取的PHP 碼以下PHP 代碼將標頭髮送到客戶端瀏覽器,指示其清除其快取:header("Cac...
    程式設計 發佈於2024-11-06

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3