बड़े डेटाफ़्रेम को संसाधित करने का प्रयास करते समय, एक आम बाधा खतरनाक मेमोरी त्रुटि है। एक प्रभावी समाधान डेटाफ़्रेम को छोटे, प्रबंधनीय भागों में विभाजित करना है। यह रणनीति न केवल मेमोरी खपत को कम करती है बल्कि कुशल प्रसंस्करण की सुविधा भी देती है।
इसे प्राप्त करने के लिए, हम या तो सूची समझ या NumPy array_split फ़ंक्शन का लाभ उठा सकते हैं।
n = 200000 # Chunk row size
list_df = [df[i:i n] for i in range(0, df.shape[0], n)]
list_df = np.array_split(df, math.ceil(len(df) / n))
व्यक्तिगत खंड तब हो सकते हैं इसका उपयोग करके पुनर्प्राप्त किया गया:
list_df[0]
list_df[1]
...
खंडों को एक डेटाफ़्रेम में पुन: एकत्रित करने के लिए, pd.concat का उपयोग करें:
# Example: Concatenating by chunks
rejoined_df = pd.concat(list_df)
डेटाफ्रेम को AcctName मानों द्वारा विभाजित करने के लिए, ग्रुपबाय विधि का उपयोग करें:
list_df = []
for n, g in df.groupby('AcctName'):
list_df.append(g)
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3