當嘗試處理超大資料幀時,常見的障礙是可怕的記憶體錯誤。一種有效的解決方案是將資料幀劃分為更小的、可管理的區塊。這種策略不僅減少了記憶體消耗,而且有利於高效處理。
要實現這一點,我們可以利用列表理解或 NumPy array_split 函數。
n = 200000 # Chunk row size
list_df = [df[i:i n] for i in range(0, df.shape[0], n)]
list_df = np.array_split(df, math.ceil(len(df) / n))
list_df = np.array_split(df , math.ceil(len(df) / n))
list_df[0]
list_df[1]
...
list_df[0] 列表_df[1] ...
# Example: Concatenating by chunks
rejoined_df = pd.concat(list_df)
按 AcctName 切片
list_df = []
for n, g in df.groupby('AcctName'):
list_df.append(g)
list_df = [] 對於 df.groupby('AcctName') 中的 n、g: list_df.append(g)
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3