डेटा विश्लेषण डेटा विज्ञान के केंद्र में है, और पायथन की पांडा लाइब्रेरी एक शक्तिशाली उपकरण है जो इस कार्य को आसान और अधिक कुशल बनाती है। चाहे आप साधारण स्प्रेडशीट या बड़े डेटासेट के साथ काम कर रहे हों, पांडा आपको एक पेशेवर की तरह आपके डेटा में हेरफेर करने, विश्लेषण करने और कल्पना करने की सुविधा प्रदान करता है। इस लेख में, हम डेटा हेरफेर से लेकर उन्नत विश्लेषणात्मक तकनीकों तक सब कुछ कवर करते हुए, पांडा की अनिवार्यताओं के बारे में जानेंगे। आइए पांडा के साथ डेटा विश्लेषण में महारत हासिल करने की अपनी यात्रा शुरू करें!
डेटा विश्लेषण में उतरने से पहले, आपको पांडा स्थापित करना होगा। यदि आपने इसे अभी तक इंस्टॉल नहीं किया है, तो आप पाइप का उपयोग करके ऐसा कर सकते हैं:
pip install pandas
एक बार इंस्टॉल हो जाने पर, आप पांडा को अपनी पायथन लिपि में आयात कर सकते हैं:
import pandas as pd
किसी भी डेटा विश्लेषण कार्य में पहला कदम अपना डेटा लोड करना है। पांडा अपने read_csv() फ़ंक्शन के साथ इसे आसान बनाता है:
data = pd.read_csv('data.csv')
अपना डेटा लोड करने के बाद, इसकी संरचना को समझना महत्वपूर्ण है। हेड() फ़ंक्शन आपको आपके डेटासेट की पहली कुछ पंक्तियों पर एक त्वरित नज़र देता है:
print(data.head())
कच्चा डेटा शायद ही कभी सही होता है। पांडा आपके डेटा को साफ़ करने और विश्लेषण के लिए तैयार करने के लिए शक्तिशाली उपकरण प्रदान करता है।
अनुपलब्ध डेटा आपके विश्लेषण को ख़राब कर सकता है। गुम मानों का पता लगाने के लिए isnull() का उपयोग करें और उन्हें संभालने के लिए fillna() याdropna() का उपयोग करें:
# Detecting missing values print(data.isnull().sum()) # Filling missing values with the mean data.fillna(data.mean(), inplace=True) # Dropping rows with missing values data.dropna(inplace=True)
बेहतर पठनीयता के लिए, आप शायद अपने कॉलम का नाम बदलना चाहेंगे:
data.rename(columns={'OldName': 'NewName'}, inplace=True)
पांडा डेटा में हेरफेर करने में माहिर हैं, जिससे आप अपने डेटा को विभिन्न तरीकों से दोबारा आकार दे सकते हैं और पुनर्व्यवस्थित कर सकते हैं।
आप विशिष्ट स्थितियों के आधार पर अपना डेटा फ़िल्टर कर सकते हैं:
filtered_data = data[data['Column'] > 50]
अपने डेटा को सारांशित करने के लिए, ग्रुपबी() और एजीजी() का उपयोग करें:
grouped_data = data.groupby('Category').agg({'Value': 'sum'})
एक बार जब आपका डेटा साफ़ और व्यवस्थित हो जाए, तो आप उन्नत विश्लेषण कर सकते हैं।
पिवोट टेबल डेटा को सारांशित करने के लिए बहुत अच्छे हैं। पांडा के साथ, पिवट टेबल बनाना सीधा है:
pivot_table = data.pivot_table(index='Category', columns='SubCategory', values='Value', aggfunc='sum')
पांडा समय श्रृंखला डेटा का भी समर्थन करता है, जिससे समय के साथ रुझानों का विश्लेषण करना आसान हो जाता है:
data['Date'] = pd.to_datetime(data['Date']) time_series = data.set_index('Date').resample('M').mean()
पांडा मैटप्लोटलिब के साथ सहजता से एकीकृत होता है, जिससे आप अपने डेटा को विज़ुअलाइज़ कर सकते हैं:
import matplotlib.pyplot as plt data['Value'].plot(kind='line') plt.show()
पांडा के साथ डेटा विश्लेषण में महारत हासिल करने से आपके डेटा से अंतर्दृष्टि प्राप्त करने के लिए संभावनाओं की एक दुनिया खुल जाती है। डेटा सफाई से लेकर उन्नत विश्लेषणात्मक तकनीकों तक, पांडा आपको डेटा विश्लेषण विशेषज्ञ बनने में मदद करने के लिए उपकरणों का एक व्यापक सूट प्रदान करता है। खोज और अभ्यास करते रहें, और जल्द ही आप अपने डेटा विज्ञान परियोजनाओं में पांडा की पूरी शक्ति का लाभ उठाएंगे!
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3