」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 在 AWS 中轉換檔案更快、更便宜:Polar 或 Pandas?

在 AWS 中轉換檔案更快、更便宜:Polar 或 Pandas?

發佈於2024-08-18
瀏覽:998

兩者都提供了廣泛的工具和優勢,這可能會讓我們在某些​​時候懷疑選擇兩者中的哪一個。這並不是要改變公司的所有流程,以便他們開始使用 Polars 或 Pandas「死亡」(這不會在不久的將來發生)。這是關於了解其他可以幫助我們降低流程成本和時間、獲得相同或更好結果的工具。

當我們使用雲端服務時,我們會優先考慮某些因素,包括它們的成本。我用於此過程的服務是帶有 Python 3.10 運行時的 AWS Lambda 和用於儲存原始檔案和 parquet 轉換檔案的 S3。

目的是獲取 CSV 文件作為原始數據,並使用 pandas 和 Polar 對其進行處理,以驗證這兩個庫中的哪一個可以為我們提供更好的資源優化,例如內存和結果文件的重量。

貓熊
它是一個專門用於資料操作和分析的 Python 函式庫,以 C 語言編寫,首次發佈於 2008 年。

*極地*
它是一個專門從事資料操作和分析的 Python 和 Rust 函式庫,允許並行處理,主要用 Rust 編寫,於 2022 年發布。

流程架構:

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?

這個專案有點簡單,如架構所示:使用者將CSV 檔案存入work/pandas 或work/porlas 中,並自動啟動s3 觸發器來處理該文件,將其轉換為parquet 並將其存入Processed 。

在這個小專案中使用兩個具有以下配置的 lambda:
記憶體:2 GB
臨時記憶體:2 GB
續航時間:600秒

要求
Lambda 與 pandas:Pandas、Numpy 與 Pyarrow
帶有極座標的 Lambda:極座標

用於比較的資料集可以在 kaggle 上以「Rotten Tomatoes Movie Reviews – 1.44M rows」的名稱找到,或者可以從此處下載。

完整的儲存庫可在 GitHub 上找到,並且可以在此處複製。

尺寸或重量
Pandas 使用的 lambda 需要另外兩個外掛程式來建立 parquet 文件,在本例中是 PyArrow 和我使用的 Pandas 版本的特定版本的 numpy。結果,我們獲得了一個權重或大小為 74.4 MB 的 lambda,非常接近 AWS 允許的 lambda 權重限制。

帶有 Polars 的 lambda 不需要像 PyArrow 這樣的其他插件,這使生活變得更簡單,並將 lambda 的大小減少到一半以下。因此,與第一個 lambda 相比,我們的 lambda 的權重或大小為 30.6 MB,為我們提供了安裝轉換過程可能需要的其他依賴項的空間。

表現

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
在第一個版本之後,帶有 Pandas 的 lambda 被優化為使用壓縮,但是,也分析了其行為。
貓熊
與其他版本相比,處理資料集花費了 18 秒,並使用了 1894 MB 記憶體來處理 CSV 文件並產生 Parquet 文件,這是使用最多時間和資源的版本。

Pandas 壓縮
添加一行程式碼使我們比之前的版本(Pandas)有了一點改進,處理資料集花了17 秒,使用了1837 MB,這並不代表處理和計算時間的顯著改進,而是大小的顯著改進。產生的文件。

極地
處理相同的資料集花了 12 秒,我只使用了 1462 MB,與前兩者相比,它節省了 44.44% 的時間並降低了記憶體消耗。

輸出檔案大小

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
貓熊
未建立壓縮過程的 lambda 產生了 177.4 MB 的 parquet 檔案。

Pandas 壓縮
在 lambda 中配置壓縮時,我不會產生 121.1 MB 的 parquet 檔案。一小行或一個選項幫助我們將檔案大小減少了 31.74%。考慮到這不是一個重大的程式碼更改,這是一個非常好的選擇。

極地
Polars 產生了一個 105.8 MB 的文件,與 Pandas 第一版一起購買時,與經過壓縮的 Pandas 版本相比,該文件分別節省了 40.36% 和 12.63%。

結論
沒有必要改變所有使用Pandas 的內部流程,以便它們現在使用Polars,但是,重要的是要考慮到,如果我們談論數千或數百萬個lambda 執行,使用Polars 不僅會幫助我們進行部署時間,但由於AWS 為Lambda 等無伺服器服務提供基於時間的收費,因此也將幫助我們降低成本。
同樣,當我們將 40.36% 轉換為數百萬個檔案時,我們談論的是 GB 或 TB,這會對 Datalake 或 Dataware house 甚至冷檔案儲存產生重大影響。

Polars 的減少不僅限於這兩個因素,因為它會極大地影響 AWS 的資料和/或物件的輸出,因為它是一項確實有成本的服務。

版本聲明 本文轉載於:https://dev.to/edsantoshn/que-es-mas-rapido-y-economico-para-convertir-archivos-en-aws-polar-o-pandas-594p?1如有侵犯,請聯絡[email protected]刪除
最新教學 更多>
  • 網頁抓取 - 有趣!
    網頁抓取 - 有趣!
    一個很酷的術語: CRON = 依指定時間間隔自動安排任務的程式設計技術 網路什麼? 在研究專案等時,我們通常會從各個網站編寫資訊 - 無論是日記/Excel/文件等。 我們正在抓取網路並手動提取資料。 網路抓取正在自動化這個過程。 例子 當在網路上搜尋運動鞋時...
    程式設計 發佈於2024-11-06
  • 感言網格部分
    感言網格部分
    ?在學習 CSS 網格時剛剛完成了這個推薦網格部分的建立! ?網格非常適合建立結構化佈局。 ?現場示範:https://courageous-chebakia-b55f43.netlify.app/ ? GitHub:https://github.com/khanimran17/Testimoni...
    程式設計 發佈於2024-11-06
  • 為什麼 REGISTER_GLOBALS 被認為是 PHP 中的主要安全風險?
    為什麼 REGISTER_GLOBALS 被認為是 PHP 中的主要安全風險?
    REGISTER_GLOBALS 的危險REGISTER_GLOBALS 是一個 PHP 設定,它允許所有 GET 和 POST 變數在 PHP 腳本中用作全域變數。此功能可能看起來很方便,但由於潛在的安全漏洞和編碼實踐,強烈建議不要使用它。 為什麼 REGISTER_GLOBALS 不好? REG...
    程式設計 發佈於2024-11-06
  • Nodemailer 概述:在 Node.js 中輕鬆發送電子郵件
    Nodemailer 概述:在 Node.js 中輕鬆發送電子郵件
    Nodemailer 是用於發送電子郵件的 Node.js 模組。以下是快速概述: Transporter:定義電子郵件的傳送方式(透過 Gmail、自訂 SMTP 等)。 const transporter = nodemailer.createTransport({ ... }); 訊息物...
    程式設計 發佈於2024-11-06
  • JavaScript 中的輕鬆錯誤處理:安全賦值運算子如何簡化您的程式碼
    JavaScript 中的輕鬆錯誤處理:安全賦值運算子如何簡化您的程式碼
    JavaScript 中的錯誤處理可能很混亂。將大塊程式碼包裝在 try/catch 語句中是可行的,但隨著專案的成長,調試就變成了一場噩夢。幸運的是,有更好的方法。輸入 安全賦值運算子 (?=) - 一種更乾淨、更有效的錯誤處理方法,可將程式碼保持可讀性並簡化偵錯。 什麼是安全賦...
    程式設計 發佈於2024-11-06
  • Javascript 很難(有悲傷)
    Javascript 很難(有悲傷)
    这将是一个很长的阅读,但让我再说一遍。 JAVASCRIPT很难。上次我们见面时,我正在踏入 Javascript 的世界,一个眼睛明亮、充满希望的程序员踏入野生丛林,说“这能有多难?”。我错得有多离谱??事情变得更难了,我(勉强)活了下来,这是关于我的旅程的一个小混乱的故事。 变量:疯狂的开始 ...
    程式設計 發佈於2024-11-06
  • ## 您可以在不使用 JavaScript 的情況下使用 CSS 建立餅圖分段嗎?
    ## 您可以在不使用 JavaScript 的情況下使用 CSS 建立餅圖分段嗎?
    使用 CSS 在圓中分段使用 border-radius 在 CSS 中建立圓是一種常見的做法。但是,我們可以透過分段(類似餅圖)來實現類似的效果嗎?本文深入研究了僅透過 HTML 和 CSS 實現此目的的方法,不包括使用 JavaScript。 產生相等大小的段相等大小段的一種方法涉及產生以下內容...
    程式設計 發佈於2024-11-06
  • 從頭開始建立一個小型向量存儲
    從頭開始建立一個小型向量存儲
    With the evolving landscape of generative AI, vector databases are playing crucial role in powering generative AI applications. There are so many vect...
    程式設計 發佈於2024-11-06
  • 如何在Chrome使用AI實驗API
    如何在Chrome使用AI實驗API
    要在 Chrome 中使用實驗性 AI API,請依照下列步驟操作: 硬體需求 4GB 記憶體 GPU可用 至少 22GB 空間 Windows 10.11 或 macOS Ventura 或更新版本(無 Linux 規格) 尚不支持: Chrome作業系統 Chrome iOS C...
    程式設計 發佈於2024-11-06
  • 評論:Adam Johnson 的《Boost Your Django DX》
    評論:Adam Johnson 的《Boost Your Django DX》
    書評很微妙。您不想破壞它,但您也想讓潛在讀者體驗所期待的內容。這是提供背景和保持興趣之間的巧妙平衡。我試圖在這篇評論中達到這種平衡,為您提供足夠的內容來吸引您,而不透露太多。 一個小背景故事:我第一次從 Djangonaut Space 的好朋友 Tim 那裡聽說這本書,並將其添加到我的閱讀清單中...
    程式設計 發佈於2024-11-06
  • 如何將陣列元素分組並組合多維數組中另一列的值?
    如何將陣列元素分組並組合多維數組中另一列的值?
    按列將數組元素分組並組合另一列中的值給定一個包含兩列嵌套數組的數組,任務是將基於特定列的子數組,並將每個組中另一列的值連接起來,產生以逗號分隔的清單。 考慮以下範例陣列:$array = [ ["444", "0081"], ["44...
    程式設計 發佈於2024-11-06
  • 三個新加入的例外功能
    三個新加入的例外功能
    從 JDK 7 開始,異常處理已擴展為三個新功能:自動資源管理、多重捕獲和更準確的重新拋出。 多重catch可讓您使用同一個catch子句擷取多個異常,避免程式碼重複。 要使用多重捕獲,請指定由 | 分隔的異常清單。在 catch 子句中。每個參數都是隱式最終參數。 用法範例:catch(f...
    程式設計 發佈於2024-11-06
  • 如何修復執行 ES6 程式碼時出現「意外的令牌匯出」錯誤?
    如何修復執行 ES6 程式碼時出現「意外的令牌匯出」錯誤?
    「排除意外的令牌匯出錯誤」嘗試在專案中執行ES6 程式碼時,可能會出現「意外的令牌導出”錯誤。此錯誤表示所使用的環境不支援 ES6 模組中使用的匯出關鍵字語法。 錯誤詳細資料以下程式碼片段舉例說明了錯誤的來源: export class MyClass { constructor() { ...
    程式設計 發佈於2024-11-06
  • 即使卸載後,VSCode 擴充功能也不會從檔案系統中刪除,我建立了一個解決方案!
    即使卸載後,VSCode 擴充功能也不會從檔案系統中刪除,我建立了一個解決方案!
    所以這是基於 vscode 的編輯器的問題。即使您卸載了擴充功能,它也會保留在檔案系統中,並隨著時間的推移堵塞您的系統。我創建了一個簡單的解決方案。執行此 python 腳本將刪除 vscode 上未安裝的擴充功能。 它適用於 VS Code、VS Code Insiders,也適用於 VSCod...
    程式設計 發佈於2024-11-06
  • 透過 GitHub Actions 按計畫更新網站內容
    透過 GitHub Actions 按計畫更新網站內容
    我想分享我建立一個自我永續的內容管理系統的旅程,該系統不需要傳統意義上的內容資料庫。 問題 該網站的內容(部落格文章和書籤)儲存在 Notion 資料庫中: 附書籤的資料庫 –  Notion UI 我試圖解決的問題是不必在添加每個書籤後手動部署網站。最重要的是 - 保持託管盡可能...
    程式設計 發佈於2024-11-06

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3