डेटाफ़्रेम की तुलना करना: एक में मौजूद पंक्तियों को ढूंढना, लेकिन दूसरे में नहीं
अंतरों की पहचान करने के लिए डेटाफ़्रेम की तुलना करना डेटा गुणवत्ता आश्वासन और विलय के लिए महत्वपूर्ण है परिचालन. इस मामले में, हमारे पास एक विशिष्ट संरचना के साथ दो डेटाफ्रेम (df1 और df2) हैं और df2 में मौजूद पंक्तियों को निर्धारित करने की आवश्यकता है, लेकिन df1 में नहीं।
प्रारंभ में, df1 का उपयोग करके डेटाफ्रेम की तुलना करने का प्रयास किया गया! एक गलती। यह दृष्टिकोण केवल समान पंक्तियों और स्तंभों वाले डेटाफ़्रेम के लिए काम करता है। सममित अंतर खोजने के लिए, हमें एक अलग दृष्टिकोण की आवश्यकता है।
एक विधि में डेटाफ्रेम को जोड़ना शामिल है:
df = pd.concat([df1, df2]) df = df.reset_index(drop=True)
फिर, सभी कॉलमों द्वारा संयोजित डेटाफ्रेम को समूहीकृत करना:
df_gpby = df.groupby(list(df.columns))
इसके बाद, हम सूचकांक मान प्राप्त करके अद्वितीय रिकॉर्ड की पहचान करते हैं जहां केवल एक पंक्ति मौजूद है:
idx = [x[0] for x in df_gpby.groups.values() if len(x) == 1]
इन सूचकांकों का उपयोग करके, हम वांछित परिणाम प्राप्त करने के लिए डेटाफ्रेम को फ़िल्टर कर सकते हैं:
df.reindex(idx)
यह दृष्टिकोण df2 में मौजूद लेकिन अनुपस्थित पंक्तियों को प्रदान करता है दिनांक सूचकांक और फल स्तंभ की तुलना के आधार पर df1 में।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3