"إذا أراد العامل أن يؤدي عمله بشكل جيد، فعليه أولاً أن يشحذ أدواته." - كونفوشيوس، "مختارات كونفوشيوس. لو لينجونج"
الصفحة الأمامية > برمجة > كيفية معالجة إطارات البيانات الكبيرة بكفاءة في Pandas: قم بتقطيعها!

كيفية معالجة إطارات البيانات الكبيرة بكفاءة في Pandas: قم بتقطيعها!

تم النشر بتاريخ 2024-11-08
تصفح:917

How to Efficiently Process Large DataFrames in Pandas: Chunk It Up!

الباندا - تقطيع إطارات البيانات الكبيرة إلى قطع

عند محاولة معالجة إطارات البيانات كبيرة الحجم، هناك عقبة شائعة تتمثل في خطأ الذاكرة المخيف. أحد الحلول الفعالة هو تقسيم إطار البيانات إلى أجزاء أصغر يمكن التحكم فيها. لا تقلل هذه الإستراتيجية من استهلاك الذاكرة فحسب، بل تسهل أيضًا المعالجة الفعالة.

ولتحقيق ذلك، يمكننا الاستفادة من فهم القائمة أو وظيفة NumPy array_split.

فهم القائمة

n = 200000  # Chunk row size
list_df = [df[i:i n] for i in range(0, df.shape[0], n)]

NumPy array_split

list_df = np.array_split(df, math.ceil(len(df) / n))

يمكن بعد ذلك استرجاع القطع الفردية باستخدام:

list_df[0]
list_df[1]
...

لإعادة تجميع القطع في إطار بيانات واحد، استخدم pd.concat:

# Example: Concatenating by chunks
rejoined_df = pd.concat(list_df)

التقطيع حسب AcctName

لتقسيم إطار البيانات حسب قيم AcctName، استخدم طريقة التجميع:

list_df = []

for n, g in df.groupby('AcctName'):
    list_df.append(g)
أحدث البرنامج التعليمي أكثر>

تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.

Copyright© 2022 湘ICP备2022001581号-3