मैं विभिन्न मॉडलों के बीच चयन कैसे करूं?
मशीन लर्निंग के मूल्यांकन की प्रक्रिया यह निर्धारित करने में मदद करती है कि मॉडल अपने अनुप्रयोग के लिए कितना विश्वसनीय और प्रभावी है। इसमें विभिन्न कारकों का आकलन करना शामिल है जैसे कि इसके प्रदर्शन, मैट्रिक्स और भविष्यवाणियों या निर्णय लेने की सटीकता।
इससे कोई फर्क नहीं पड़ता कि आप किस मॉडल का उपयोग करना चुनते हैं, आपको मॉडलों के बीच चयन करने का एक तरीका चाहिए: विभिन्न मॉडल प्रकार, ट्यूनिंग पैरामीटर और सुविधाएं। इसके अलावा आपको यह अनुमान लगाने के लिए एक मॉडल मूल्यांकन प्रक्रिया की आवश्यकता है कि कोई मॉडल अनदेखे डेटा को कितनी अच्छी तरह सामान्यीकृत करेगा। अंततः आपको अपने मॉडल के प्रदर्शन को मापने के लिए अपनी प्रक्रिया के साथ जुड़ने के लिए एक मूल्यांकन प्रक्रिया की आवश्यकता है।
आगे बढ़ने से पहले, आइए कुछ अलग-अलग मॉडल मूल्यांकन प्रक्रियाओं की समीक्षा करें और वे कैसे काम करते हैं।
ऊपर से, हम यह निष्कर्ष निकाल सकते हैं:
एक ही डेटा पर प्रशिक्षण और परीक्षण ओवरफिटिंग का एक क्लासिक कारण है जिसमें आप एक अत्यधिक जटिल मॉडल बनाते हैं जो नए डेटा को सामान्यीकृत नहीं करेगा और जो वास्तव में उपयोगी नहीं है।
Train_Test_Split आउट-ऑफ़-सैंपल प्रदर्शन का बेहतर अनुमान प्रदान करता है।
के-फोल्ड क्रॉस-वैलिडेशन व्यवस्थित रूप से के ट्रेन परीक्षण विभाजन और परिणामों को एक साथ औसत करके बेहतर होता है।
संक्षेप में, ट्रेन_टेस्ट्स_स्प्लिट अपनी गति और सरलता के कारण सत्यापन को पार करने में अभी भी लाभदायक है, और यही हम इस ट्यूटोरियल गाइड में उपयोग करेंगे।
आपको अपनी चुनी हुई प्रक्रिया के साथ चलने के लिए हमेशा एक मूल्यांकन मीट्रिक की आवश्यकता होगी, और मीट्रिक की आपकी पसंद उस समस्या पर निर्भर करती है जिसे आप संबोधित कर रहे हैं। वर्गीकरण समस्याओं के लिए, आप वर्गीकरण सटीकता का उपयोग कर सकते हैं। लेकिन हम इस गाइड में अन्य महत्वपूर्ण वर्गीकरण मूल्यांकन मेट्रिक्स पर ध्यान केंद्रित करेंगे।
किसी भी नए मूल्यांकन मेट्रिक्स को सीखने से पहले आइए वर्गीकरण सटीकता की समीक्षा करें, और इसकी ताकत और कमजोरियों के बारे में बात करें।
हमने इस ट्यूटोरियल के लिए पिमा इंडियंस डायबिटीज डेटासेट को चुना है, जिसमें 768 रोगियों का स्वास्थ्य डेटा और मधुमेह की स्थिति शामिल है।
आइए डेटा पढ़ें और डेटा की पहली 5 पंक्तियाँ प्रिंट करें। यदि मरीज को मधुमेह है तो लेबल कॉलम 1 इंगित करता है और यदि रोगी को मधुमेह नहीं है तो 0 इंगित करता है, और हम इस प्रश्न का उत्तर देना चाहते हैं:
प्रश्न: क्या हम किसी मरीज के स्वास्थ्य माप को देखते हुए उसकी मधुमेह की स्थिति का अनुमान लगा सकते हैं?
हम अपनी सुविधाओं मेट्रिक्स एक्स और प्रतिक्रिया वेक्टर वाई को परिभाषित करते हैं। हम एक्स और वाई को प्रशिक्षण और परीक्षण सेट में विभाजित करने के लिए ट्रेन_टेस्ट_स्प्लिट का उपयोग करते हैं।
इसके बाद, हम प्रशिक्षण सेट पर एक लॉजिस्टिक रिग्रेशन मॉडल को प्रशिक्षित करते हैं। फ़िट चरण के दौरान, लॉगरेग मॉडल ऑब्जेक्ट X_train और Y_train के बीच संबंध सीख रहा है। अंत में हम परीक्षण सेटों के लिए एक वर्ग पूर्वानुमान बनाते हैं।
अब, हमने परीक्षण सेट के लिए भविष्यवाणी कर दी है, हम वर्गीकरण सटीकता की गणना कर सकते हैं, जो कि सही भविष्यवाणियों का प्रतिशत है।
हालाँकि, जब भी आप अपने मूल्यांकन मेट्रिक्स के रूप में वर्गीकरण सटीकता का उपयोग करते हैं, तो इसकी तुलना शून्य सटीकता से करना महत्वपूर्ण है, जो वह सटीकता है जिसे हमेशा सबसे लगातार वर्ग की भविष्यवाणी करके प्राप्त किया जा सकता है।
शून्य सटीकता प्रश्न का उत्तर देता है; यदि मेरा मॉडल 100 प्रतिशत समय में प्रमुख वर्ग की भविष्यवाणी करता है, तो यह कितनी बार सही होगा? उपरोक्त परिदृश्य में, y_test के 32% 1 (एक) हैं। दूसरे शब्दों में, एक मूर्ख मॉडल जो भविष्यवाणी करता है कि रोगियों को मधुमेह है, वह सही होगा 68% समय (जो शून्य है)। यह एक आधार रेखा प्रदान करता है जिसके विरुद्ध हम अपने लॉजिस्टिक रिग्रेशन को मापना चाहते हैं नमूना।
जब हम 68% की शून्य सटीकता और 69% की मॉडल सटीकता की तुलना करते हैं, तो हमारा मॉडल बहुत अच्छा नहीं दिखता है। यह मॉडल मूल्यांकन मीट्रिक के रूप में वर्गीकरण सटीकता की एक कमजोरी को प्रदर्शित करता है। वर्गीकरण सटीकता हमें परीक्षण परीक्षण के अंतर्निहित वितरण के बारे में कुछ नहीं बताती है।
सारांश:
आइए अब भ्रम की स्थिति को देखें।
कन्फ्यूजन मैट्रिक्स एक तालिका है जो वर्गीकरण मॉडल के प्रदर्शन का वर्णन करती है।
यह आपके क्लासिफायरियर के प्रदर्शन को समझने में आपकी मदद करने के लिए उपयोगी है, लेकिन यह एक मॉडल मूल्यांकन मीट्रिक नहीं है; इसलिए आप यह नहीं कह सकते कि सर्वोत्तम भ्रम मैट्रिक्स वाला मॉडल चुनना सीखें। हालाँकि, ऐसे कई मेट्रिक्स हैं जिनकी गणना कन्फ्यूजन मैट्रिक्स से की जा सकती है और उनका उपयोग सीधे मॉडलों के बीच चयन करने के लिए किया जा सकता है।
आइए इसकी कुछ बुनियादी शब्दावली समझाएं।
आइए देखें कि हम मैट्रिक्स की गणना कैसे कर सकते हैं
निष्कर्ष के तौर पर:
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3