पांडा में रिक्त मान (व्हाइटस्पेस) को NaN से बदलना
डेटा विश्लेषण में डेटा सफाई एक महत्वपूर्ण कदम है। एक सामान्य कार्य रिक्त मानों (व्हाइटस्पेस) को NaN से बदलना है। इसे पांडा का उपयोग करके कुशलतापूर्वक किया जा सकता है।
इसे प्राप्त करने के लिए, df.replace() फ़ंक्शन का उपयोग करें। यह फ़ंक्शन डेटाफ़्रेम मानों पर नियमित अभिव्यक्ति-आधारित खोज और प्रतिस्थापन ऑपरेशन की अनुमति देता है। यहां बताया गया है कि आप इसे कैसे कार्यान्वित कर सकते हैं:
import numpy as np
import pandas as pd
df = pd.DataFrame([
[-0.532681, 'foo', 0],
[1.490752, 'bar', 1],
[-1.387326, 'foo', 2],
[0.814772, 'baz', ' '],
[-0.222552, ' ', 4],
[-1.176781, 'qux', ' '],
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))
# Replace fields that contain only whitespace (or are empty) with NaN
print(df.replace(r'^\s*$', np.nan, regex=True))
# Output:
# A B C
# 2000-01-01 -0.532681 foo 0
# 2000-01-02 1.490752 bar 1
# 2000-01-03 -1.387326 foo 2
# 2000-01-04 0.814772 baz NaN
# 2000-01-05 -0.222552 NaN 4
# 2000-01-06 -1.176781 qux NaN
ध्यान दें कि यह कोड उन फ़ील्ड को प्रतिस्थापित करता है जिनमें केवल व्हाइटस्पेस होता है या खाली होते हैं (यानी, नियमित अभिव्यक्ति से मेल खाते हैं r'^\s*$'**) . यदि आपके वैध डेटा में सफेद रिक्त स्थान हैं, तो रेगेक्स को तदनुसार समायोजित करें (उदाहरण के लिए, r'^\s ' के लिए अंत से **$ हटा दें)।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3