عند محاولة معالجة إطارات البيانات كبيرة الحجم، هناك عقبة شائعة تتمثل في خطأ الذاكرة المخيف. أحد الحلول الفعالة هو تقسيم إطار البيانات إلى أجزاء أصغر يمكن التحكم فيها. لا تقلل هذه الإستراتيجية من استهلاك الذاكرة فحسب، بل تسهل أيضًا المعالجة الفعالة.
ولتحقيق ذلك، يمكننا الاستفادة من فهم القائمة أو وظيفة NumPy array_split.
n = 200000 # Chunk row size
list_df = [df[i:i n] for i in range(0, df.shape[0], n)]
list_df = np.array_split(df, math.ceil(len(df) / n))
يمكن بعد ذلك استرجاع القطع الفردية باستخدام:
list_df[0]
list_df[1]
...
لإعادة تجميع القطع في إطار بيانات واحد، استخدم pd.concat:
# Example: Concatenating by chunks
rejoined_df = pd.concat(list_df)
لتقسيم إطار البيانات حسب قيم AcctName، استخدم طريقة التجميع:
list_df = []
for n, g in df.groupby('AcctName'):
list_df.append(g)
تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3