मैंने चाय-चखना विकसित किया है, जो ए/बी परीक्षणों के सांख्यिकीय विश्लेषण के लिए एक पायथन पैकेज है:
इस ब्लॉग पोस्ट में, मैं प्रयोगों के विश्लेषण में चाय-चखने का उपयोग करने के इन लाभों में से प्रत्येक का पता लगाता हूं।
यदि आप इसे आज़माने के लिए उत्सुक हैं, तो दस्तावेज़ की जाँच करें।
चाय-चखना में सांख्यिकीय विधियां और तकनीकें शामिल हैं जो प्रयोगों के विश्लेषण में आपकी अधिकांश आवश्यकताओं को कवर करती हैं।
छात्र के टी-टेस्ट और जेड-टेस्ट के साथ मीट्रिक औसत और अनुपात का विश्लेषण करें। या अपनी पसंद के किसी अन्य आँकड़े का विश्लेषण करने के लिए बूटस्ट्रैप का उपयोग करें। और बूटस्ट्रैप का उपयोग करके मात्राओं के विश्लेषण के लिए एक पूर्वनिर्धारित विधि है। चाय-चखना ए/बी परीक्षण के विभिन्न प्रकारों के नमूना अनुपात में बेमेल का भी पता लगाता है।
चाय-चखना औसत के अनुपात के विश्लेषण के लिए डेल्टा विधि लागू करता है। उदाहरण के लिए, प्रति सत्र की औसत संख्या पर ऑर्डर की औसत संख्या, यह मानते हुए कि सत्र एक यादृच्छिकीकरण इकाई नहीं है।
विचरण को कम करने और किसी प्रयोग की संवेदनशीलता को बढ़ाने के लिए पूर्व-प्रयोग डेटा, मीट्रिक पूर्वानुमान, या अन्य सहसंयोजकों का उपयोग करें। इस दृष्टिकोण को CUPED या CUPAC के रूप में भी जाना जाता है।
छात्र के टी-टेस्ट और जेड-टेस्ट में प्रतिशत परिवर्तन के लिए आत्मविश्वास अंतराल की गणना मुश्किल हो सकती है। केवल निरपेक्ष परिवर्तन के लिए कॉन्फिडेंस इंटरवल लेने और इसे नियंत्रण औसत से विभाजित करने से एक पक्षपाती परिणाम प्राप्त होगा। चाय-चखना सही अंतराल की गणना करने के लिए डेल्टा विधि लागू करता है।
छात्र के टी-टेस्ट और जेड-टेस्ट के लिए सांख्यिकीय शक्ति का विश्लेषण करें। तीन संभावित विकल्प हैं:
विस्तृत उपयोगकर्ता मार्गदर्शिका में और जानें।
रोडमैप में शामिल हैं:
आप अपनी पसंद के सांख्यिकीय परीक्षण के साथ एक कस्टम मीट्रिक परिभाषित कर सकते हैं।
प्रयोगात्मक डेटा को संग्रहीत और संसाधित करने के लिए कई अलग-अलग डेटाबेस और इंजन हैं। और ज्यादातर मामलों में विस्तृत प्रयोगात्मक डेटा को पायथन वातावरण में खींचना कुशल नहीं है। कई सांख्यिकीय परीक्षण, जैसे कि छात्र का टी-टेस्ट या जेड-टेस्ट, को विश्लेषण के लिए केवल एकत्रित डेटा की आवश्यकता होती है।
उदाहरण के लिए, यदि कच्चे प्रायोगिक डेटा को ClickHouse में संग्रहीत किया जाता है, तो ग्रैन्युलर डेटा लाने और पायथन वातावरण में एकत्रीकरण करने के बजाय सीधे ClickHouse में गणना, औसत, भिन्नता और सहप्रसरण की गणना करना तेज़ और अधिक कुशल है।
सभी आवश्यक आँकड़ों को मैन्युअल रूप से क्वेरी करना एक कठिन और त्रुटि-प्रवण कार्य हो सकता है। उदाहरण के लिए, CUPED के साथ अनुपात मेट्रिक्स और विचरण में कमी के विश्लेषण के लिए न केवल पंक्तियों और विचरण की संख्या की आवश्यकता होती है, बल्कि सहप्रसरण की भी आवश्यकता होती है। लेकिन चिंता न करें—चाय-चखना आपके लिए यह सब काम करता है।
tea-tasting डेटा को या तो पांडास डेटाफ़्रेम या आईबिस टेबल के रूप में स्वीकार करता है। आईबिस एक पायथन पैकेज है जो विभिन्न डेटा बैकएंड के लिए डेटाफ़्रेम एपीआई के रूप में कार्य करता है। यह BigQuery, ClickHouse, PostgreSQL/GreenPlum, स्नोफ्लेक और स्पार्क सहित 20 बैकएंड को सपोर्ट करता है। आप एक SQL क्वेरी लिख सकते हैं, इसे Ibis तालिका के रूप में लपेट सकते हैं, और इसे tea-tasting को पास कर सकते हैं।
ध्यान रखें कि चाय-चखना मानता है कि:
कुछ सांख्यिकीय विधियों, जैसे बूटस्ट्रैप, को विश्लेषण के लिए विस्तृत डेटा की आवश्यकता होती है। इस मामले में, चाय-चखना विस्तृत डेटा भी प्राप्त करता है।
डेटा बैकएंड पर गाइड में और जानें।
आप केवल NumPy, SciPy और Ibis का उपयोग करके ऊपर सूचीबद्ध सभी कार्य कर सकते हैं। वास्तव में, टी-टेस्टिंग इन पैकेजों का उपयोग हुड के तहत करता है। चाय-चखना शीर्ष पर जो पेशकश करता है वह एक सुविधाजनक उच्च-स्तरीय एपीआई है।
वर्णन करने की तुलना में दिखाना आसान है। यहाँ मूल उदाहरण है:
import tea_tasting as tt data = tt.make_users_data(seed=42) experiment = tt.Experiment( sessions_per_user=tt.Mean("sessions"), orders_per_session=tt.RatioOfMeans("orders", "sessions"), orders_per_user=tt.Mean("orders"), revenue_per_user=tt.Mean("revenue"), ) result = experiment.analyze(data) print(result) #> metric control treatment rel_effect_size rel_effect_size_ci pvalue #> sessions_per_user 2.00 1.98 -0.66% [-3.7%, 2.5%] 0.674 #> orders_per_session 0.266 0.289 8.8% [-0.89%, 19%] 0.0762 #> orders_per_user 0.530 0.573 8.0% [-2.0%, 19%] 0.118 #> revenue_per_user 5.24 5.73 9.3% [-2.4%, 22%] 0.123
अलग-अलग पैरामीट्रिजेशन और अनुमान के साथ दो-चरणीय दृष्टिकोण, सांख्यिकीय मॉडलिंग में आम है। यह पृथक्करण कोड को अधिक मॉड्यूलर और समझने में आसान बनाने में मदद करता है।
चाय-चखना ऐसी गणनाएं करता है जो पेचीदा और त्रुटि-प्रवण हो सकती हैं:
यह त्रुटियों से बचने के लिए प्रयोगात्मक डेटा का प्रतिनिधित्व करने के लिए एक रूपरेखा भी प्रदान करता है। डेटा को यादृच्छिकीकरण इकाइयों द्वारा समूहीकृत करना और डेटासेट में सभी इकाइयों को शामिल करना सही विश्लेषण के लिए महत्वपूर्ण है।
इसके अलावा, चाय-चखना कुछ सुविधाजनक तरीके और कार्य प्रदान करता है, जैसे परिणाम का सुंदर स्वरूपण और मीट्रिक मापदंडों के लिए एक संदर्भ प्रबंधक।
अंतिम लेकिन महत्वपूर्ण: दस्तावेज़ीकरण। मेरा मानना है कि टूल अपनाने के लिए अच्छा दस्तावेज़ीकरण महत्वपूर्ण है। इसीलिए मैंने कई उपयोगकर्ता मार्गदर्शिकाएँ और एक एपीआई संदर्भ लिखा।
मैं उपयोगकर्ता गाइड में बुनियादी उपयोग के उदाहरण से शुरुआत करने की सलाह देता हूं। फिर आप उसी गाइड में विशिष्ट विषयों, जैसे विचरण में कमी या शक्ति विश्लेषण, का पता लगा सकते हैं।
टी-टेस्टिंग के साथ अपनी पसंद के डेटा बैकएंड का उपयोग करने का तरीका जानने के लिए डेटा बैकएंड पर गाइड देखें।
यदि आप सांख्यिकीय परीक्षण करना चाहते हैं जो चाय-चखना में शामिल नहीं है, तो कस्टम मेट्रिक्स पर मार्गदर्शिका देखें।
चाय-चखना में उपलब्ध कार्यों, वर्गों और विधियों के बारे में सभी मापदंडों और विस्तृत जानकारी का पता लगाने के लिए एपीआई संदर्भ का उपयोग करें।
विभिन्न प्रकार की सांख्यिकीय विधियां हैं जिन्हें किसी प्रयोग के विश्लेषण में लागू किया जा सकता है। लेकिन अधिकांश मामलों में उनमें से केवल कुछ ही वास्तव में उपयोग किए जाते हैं।
दूसरी ओर, ए/बी परीक्षणों के विश्लेषण के लिए विशिष्ट विधियां हैं जो SciPy जैसे सामान्य प्रयोजन सांख्यिकीय पैकेज में शामिल नहीं हैं।
चाय-चखना कार्यक्षमता में सबसे महत्वपूर्ण सांख्यिकीय परीक्षण, साथ ही ए/बी परीक्षणों के विश्लेषण के लिए विशिष्ट तरीके शामिल हैं।
चाय-चखना एक सुविधाजनक एपीआई प्रदान करता है जो विश्लेषण पर खर्च किए गए समय को कम करने और त्रुटि की संभावना को कम करने में मदद करता है।
इसके अलावा, चाय-चखना आपकी पसंद के डेटा बैकएंड में आंकड़ों की गणना करके कम्प्यूटेशनल दक्षता को अनुकूलित करता है, जहां डेटा संग्रहीत होता है।
विस्तृत दस्तावेज़ीकरण के साथ, आप जल्दी से सीख सकते हैं कि अपने प्रयोगों के विश्लेषण के लिए चाय-चखना का उपयोग कैसे करें।
पैकेज का नाम "टी-टेस्टिंग" शब्दों का एक नाटक है जो दो विषयों को संदर्भित करता है:
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3