परिचय
मशीन लर्निंग मॉडल, विज़ुअलाइज़ेशन के विकास और उपयोगकर्ता के अनुकूल अनुप्रयोगों के समावेश के परिणामस्वरूप आपके डेटा के बारे में आपके अंतिम लक्ष्य के आधार पर, प्रोजेक्ट की शुरुआत में डेटा में प्रवाह विकसित करने से अंतिम सफलता मिलेगी।
ईडीए की अनिवार्यताएं
यहीं पर हमें यह सीखने को मिलता है कि डेटा प्रीप्रोसेसिंग की आवश्यकता डेटा विश्लेषकों के लिए कैसे फायदेमंद है।
विशालता और विभिन्न स्रोतों के कारण आज का डेटा असामान्य होने की अधिक संभावना है। डेटा की प्रीप्रोसेसिंग डेटा विज्ञान के क्षेत्र में आधारभूत चरण बन गई है क्योंकि उच्च गुणवत्ता वाले डेटा के परिणामस्वरूप अधिक मजबूत मॉडल और भविष्यवाणियां होती हैं।
खोजपूर्ण डेटा विश्लेषण एक डेटा वैज्ञानिक का उपकरण है जो यह देखता है कि डेटा औपचारिक मॉडलिंग या धारणा परीक्षण कार्य के बाहर क्या उजागर कर सकता है।
विश्वसनीय परिणाम सुनिश्चित करने और किसी भी प्रभावी परिणाम और उद्देश्यों पर लागू होने के लिए डेटा वैज्ञानिक को हमेशा ईडीए निष्पादित करना चाहिए। यह वैज्ञानिकों और विश्लेषकों को यह पुष्टि करने में भी सहायता करता है कि वे वांछित परिणाम प्राप्त करने के लिए उचित रास्ते पर हैं।
शोध प्रश्नों के कुछ उदाहरण जो अध्ययन का मार्गदर्शन करते हैं वे हैं:
1.क्या डेटा की प्रीप्रोसेसिंग का कोई महत्वपूर्ण प्रभाव है
विश्लेषण दृष्टिकोण - सटीक डेटा विश्लेषण परिणामों पर लापता मान, मूल्यों का समुच्चय, डेटा फ़िल्टरिंग, आउटलेयर, परिवर्तनीय परिवर्तन और परिवर्तनीय कमी?
2। अनुसंधान अध्ययनों में प्रीप्रोसेसिंग डेटा विश्लेषण किस महत्वपूर्ण स्तर पर आवश्यक है?
खोजपूर्ण डेटा विश्लेषण मेट्रिक्स और उनका महत्व
1.डेटा फ़िल्टरिंग
यह डेटासेट के एक छोटे हिस्से को चुनने और देखने या विश्लेषण के लिए उस सबसेट का उपयोग करने की प्रथा है। पूरा डेटा सेट रखा जाता है, लेकिन गणना के लिए इसका केवल एक सबसेट उपयोग किया जाता है; फ़िल्टरिंग आमतौर पर एक अस्थायी प्रक्रिया है. अध्ययन से ग़लत, गलत, या घटिया टिप्पणियों की खोज करना, किसी विशिष्ट रुचि समूह के लिए डेटा निकालना, या किसी विशिष्ट अवधि के लिए जानकारी की तलाश करना, सभी को फ़िल्टर का उपयोग करके सारांशित किया जा सकता है। अध्ययन के लिए मामले निकालने के लिए डेटा वैज्ञानिक को फ़िल्टरिंग के दौरान एक नियम या तर्क निर्दिष्ट करना होगा।
2.डेटा एकत्रीकरण
डेटा एकत्रीकरण के लिए असंसाधित डेटा को एक ही स्थान पर एकत्र करना और उसे विश्लेषण के लिए सारांशित करना आवश्यक है। डेटा एकत्रीकरण डेटा के सूचनात्मक, व्यावहारिक और उपयोग योग्य मूल्य को बढ़ाता है। वाक्यांश को परिभाषित करने के लिए अक्सर तकनीकी उपयोगकर्ता के दृष्टिकोण का उपयोग किया जाता है। डेटा एकत्रीकरण एक विश्लेषक या इंजीनियर के उदाहरण में कई डेटाबेस या डेटा स्रोतों से असंसाधित डेटा को एक केंद्रीकृत डेटाबेस में एकीकृत करने की प्रक्रिया है। फिर कच्चे डेटा को मिलाकर समग्र संख्याएँ बनाई जाती हैं। योग या औसत कुल मूल्य का सीधा-सीधा चित्रण है। एकत्रित डेटा का उपयोग विश्लेषण, रिपोर्टिंग, डैशबोर्डिंग और अन्य डेटा उत्पादों में किया जाता है। डेटा एकत्रीकरण उत्पादकता, निर्णय लेने और अंतर्दृष्टि के लिए समय बढ़ा सकता है।
3.अनुपलब्ध डेटा
डेटा एनालिटिक्स में, गायब मान गायब होने का दूसरा नाम है
डेटा। यह तब होता है जब विशिष्ट चर या उत्तरदाताओं को छोड़ दिया जाता है या छोड़ दिया जाता है। गलत डेटा प्रविष्टि, खोई हुई फ़ाइलें, या टूटी हुई तकनीक के कारण चूक हो सकती है। डेटा गुम होने से उनके प्रकार के आधार पर रुक-रुक कर मॉडल पूर्वाग्रह हो सकता है, जो उन्हें समस्याग्रस्त बना देता है। गुम डेटा का तात्पर्य यह है कि चूंकि डेटा कभी-कभी भ्रामक नमूने से आया हो सकता है, परिणाम केवल अध्ययन के मापदंडों के भीतर सामान्यीकरण योग्य हो सकते हैं। संपूर्ण डेटासेट में एकरूपता सुनिश्चित करने के लिए, सभी लापता मानों को "एन/ए" ("लागू नहीं" का संक्षिप्त रूप) के लेबल के साथ फिर से कोड करना आवश्यक है।
4.डेटा परिवर्तन
डेटा को किसी फ़ंक्शन या अन्य गणितीय का उपयोग करके पुन: स्केल किया जाता है
परिवर्तन के दौरान प्रत्येक अवलोकन पर संचालन। हम
जब यह
हो तो इसे मॉडल करना आसान बनाने के लिए कभी-कभी डेटा को बदल दें
बहुत महत्वपूर्ण रूप से तिरछा है (या तो सकारात्मक या नकारात्मक)।
दूसरे शब्दों में, किसी को पैरामीट्रिक सांख्यिकीय परीक्षण लागू करने की धारणा के अनुरूप डेटा परिवर्तन का प्रयास करना चाहिए यदि
चर(वेरिएबल्स) सामान्य वितरण में फिट नहीं होते हैं। सबसे लोकप्रिय डेटा परिवर्तन लॉग (या प्राकृतिक लॉग) है, जिसका उपयोग अक्सर तब किया जाता है जब सभी अवलोकन सकारात्मक होते हैं, और डेटा सेट में अधिक महत्वपूर्ण मानों के संबंध में अधिकांश डेटा मान शून्य के आसपास क्लस्टर होते हैं।
आरेख चित्रण
ईडीए में विज़ुअलाइज़ेशन तकनीक
विज़ुअलाइज़ेशन तकनीक ईडीए में एक आवश्यक भूमिका निभाती है, जो हमें जटिल डेटा संरचनाओं और संबंधों को दृष्टिगत रूप से तलाशने और समझने में सक्षम बनाती है। ईडीए में उपयोग की जाने वाली कुछ सामान्य विज़ुअलाइज़ेशन तकनीकें हैं:
1.हिस्टोग्राम:
हिस्टोग्राम ग्राफिकल निरूपण हैं जो संख्यात्मक चर के वितरण को दर्शाते हैं। वे आवृत्ति वितरण की कल्पना करके डेटा की केंद्रीय प्रवृत्ति और प्रसार को समझने में मदद करते हैं।
2.बॉक्सप्लॉट: बॉक्सप्लॉट एक ग्राफ़ है जो संख्यात्मक चर का वितरण दिखाता है। यह विज़ुअलाइज़ेशन तकनीक किसी भी आउटलेर की पहचान करने और उसके चतुर्थक को विज़ुअलाइज़ करके डेटा के प्रसार को समझने में मदद करती है।
3.हीटमैप्स: वे डेटा का ग्राफिकल प्रतिनिधित्व हैं जिसमें रंग मूल्यों का प्रतिनिधित्व करते हैं। इनका उपयोग अक्सर जटिल डेटा सेट प्रदर्शित करने के लिए किया जाता है, जो बड़ी मात्रा में डेटा में पैटर्न और रुझानों को देखने का त्वरित और आसान तरीका प्रदान करता है।
4.बार चार्ट: एक बार चार्ट एक ग्राफ है जो एक श्रेणीबद्ध चर का वितरण दिखाता है। इसका उपयोग डेटा के आवृत्ति वितरण को देखने के लिए किया जाता है, जो प्रत्येक श्रेणी की सापेक्ष आवृत्ति को समझने में मदद करता है।
5.लाइन चार्ट: एक लाइन चार्ट एक ग्राफ है जो समय के साथ एक संख्यात्मक चर की प्रवृत्ति को दर्शाता है। इसका उपयोग समय के साथ डेटा में होने वाले परिवर्तनों को देखने और किसी पैटर्न या रुझान की पहचान करने के लिए किया जाता है।
5.पाई चार्ट: पाई चार्ट एक ग्राफ है जो एक श्रेणीगत चर के अनुपात को दर्शाता है। इसका उपयोग प्रत्येक श्रेणी के सापेक्ष अनुपात को देखने और डेटा वितरण को समझने के लिए किया जाता है।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3