」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 效能追求第二部分:Perl 與 Python

效能追求第二部分:Perl 與 Python

發佈於2024-08-01
瀏覽:419

The Quest for Performance Part II : Perl vs Python


運行了一個玩具性能示例後,我們現在將稍微偏離主題並將性能與
進行對比 一些 Python 實作。首先讓我們設定計算階段,並提供命令列
Python 腳本的功能。

import argparse
import time
import math
import numpy as np
import os
from numba import njit
from joblib import Parallel, delayed

parser = argparse.ArgumentParser()
parser.add_argument("--workers", type=int, default=8)
parser.add_argument("--arraysize", type=int, default=100_000_000)
args = parser.parse_args()
# Set the number of threads to 1 for different libraries
print("=" * 80)
print(
    f"\nStarting the benchmark for {args.arraysize} elements "
    f"using {args.workers} threads/workers\n"
)

# Generate the data structures for the benchmark
array0 = [np.random.rand() for _ in range(args.arraysize)]
array1 = array0.copy()
array2 = array0.copy()
array_in_np = np.array(array1)
array_in_np_copy = array_in_np.copy()

這是我們的參賽者:

  • 基礎Python
  for i in range(len(array0)):
    array0[i] = math.cos(math.sin(math.sqrt(array0[i])))
  • Numpy(單線程)
np.sqrt(array_in_np, out=array_in_np)
np.sin(array_in_np, out=array_in_np)
np.cos(array_in_np, out=array_in_np)
  • Joblib(請注意,這個範例不是真正的就地範例,但我無法使用 out 參數使其運行)
def compute_inplace_with_joblib(chunk):
    return np.cos(np.sin(np.sqrt(chunk))) #parallel function for joblib

chunks = np.array_split(array1, args.workers)  # Split the array into chunks
numresults = Parallel(n_jobs=args.workers)(
        delayed(compute_inplace_with_joblib)(chunk) for chunk in chunks
    )# Process each chunk in a separate thread
array1 = np.concatenate(numresults)  # Concatenate the results
  • 努巴
@njit
def compute_inplace_with_numba(array):
    np.sqrt(array,array)
    np.sin(array,array)
    np.cos(array,array)
    ## njit will compile this function to machine code
compute_inplace_with_numba(array_in_np_copy)

以下是計時結果:

In place in (  base Python): 11.42 seconds
In place in (Python Joblib): 4.59 seconds
In place in ( Python Numba): 2.62 seconds
In place in ( Python Numpy): 0.92 seconds

numba 出奇的慢! ?這是否是由於 mohawk2 在 IRC 交流中關於此問題所指出的編譯開銷所致?
為了測試這一點,我們應該在執行基準測試之前呼叫compute_inplace_with_numba一次。這樣做表明 Numba 現在比 Numpy 更快。

到位(基本Python):11.89秒 到位(Python Joblib):4.42秒 到位(Python Numpy):0.93 秒 到位(Python Numba):0.49 秒
In place in (  base Python): 11.89 seconds
In place in (Python Joblib): 4.42 seconds
In place in ( Python Numpy): 0.93 seconds
In place in ( Python Numba): 0.49 seconds
最後,我決定在同一個例子中使用基礎 R 進行騎行:


nIn place in ( base Python): 11.89 seconds In place in (Python Joblib): 4.42 seconds In place in ( Python Numpy): 0.93 seconds In place in ( Python Numba): 0.49 seconds 產生以下計時結果:


R基地時間:1.30秒
In place in (  base Python): 11.89 seconds
In place in (Python Joblib): 4.42 seconds
In place in ( Python Numpy): 0.93 seconds
In place in ( Python Numba): 0.49 seconds
與 Perl 結果相比,我們注意到此範例的以下內容:

    基礎 Python 中的就地操作比 Perl
  • 慢約 3.5 單線程 PDL 和 numpy 給出了幾乎相同的結果,緊隨其後的是基礎 R
  • 未能考慮 Numba 的編譯開銷會產生
  • 錯誤
  • 它比 Numpy 慢的印象。考慮到編譯開銷時,Numba 比 Numpy 快 2 倍 Joblib 的平行化確實改進了基礎 Python,但仍然不如單線程 Perl 實現
  • 多執行緒 PDL(和 OpenMP)碾壓(不是崩潰!)所有語言中的所有其他實作。 希望這個帖子 提供了一些值得思考的東西 用於下一次資料/計算密集型操作的語言。 本系列的下一部分將研究在 C 中使用陣列的相同範例。最後一部分將(希望)提供有關記憶體局部性的影響以及使用動態類型語言所產生的開銷的一些見解。
版本聲明 本文轉載於:https://dev.to/chrisarg/the-quest-for-performance-part-ii-perl-vs-python-5gdg?1如有侵犯,請聯絡[email protected]刪除
最新教學 更多>

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3