"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > चाय-चखना: ए/बी परीक्षणों के सांख्यिकीय विश्लेषण के लिए एक पायथन पैकेज

चाय-चखना: ए/बी परीक्षणों के सांख्यिकीय विश्लेषण के लिए एक पायथन पैकेज

2024-11-08 को प्रकाशित
ब्राउज़ करें:349

tea-tasting: a Python package for the statistical analysis of A/B tests

पहचान

मैंने चाय-चखना विकसित किया है, जो ए/बी परीक्षणों के सांख्यिकीय विश्लेषण के लिए एक पायथन पैकेज है:

  • छात्र का टी-टेस्ट, बूटस्ट्रैप, CUPED के साथ विचरण में कमी, पावर विश्लेषण, और अन्य सांख्यिकीय तरीके और बॉक्स से बाहर दृष्टिकोण।
  • डेटा बैकएंड की एक विस्तृत श्रृंखला के लिए समर्थन, जैसे BigQuery, ClickHouse, PostgreSQL/GreenPlum, स्नोफ्लेक, स्पार्क, पांडा, और Ibis द्वारा समर्थित 20 अन्य बैकएंड।
  • एक्स्टेंसिबल एपीआई: कस्टम मेट्रिक्स को परिभाषित करें और अपनी पसंद के सांख्यिकीय परीक्षणों का उपयोग करें।
  • मैन्युअल कार्य को कम करने के लिए सुविधाजनक एपीआई, और त्रुटियों को कम करने के लिए एक रूपरेखा।
  • विस्तृत दस्तावेज।

इस ब्लॉग पोस्ट में, मैं प्रयोगों के विश्लेषण में चाय-चखने का उपयोग करने के इन लाभों में से प्रत्येक का पता लगाता हूं।

यदि आप इसे आज़माने के लिए उत्सुक हैं, तो दस्तावेज़ की जाँच करें।

सांख्यिकीय पद्धतियां

चाय-चखना में सांख्यिकीय विधियां और तकनीकें शामिल हैं जो प्रयोगों के विश्लेषण में आपकी अधिकांश आवश्यकताओं को कवर करती हैं।

छात्र के टी-टेस्ट और जेड-टेस्ट के साथ मीट्रिक औसत और अनुपात का विश्लेषण करें। या अपनी पसंद के किसी अन्य आँकड़े का विश्लेषण करने के लिए बूटस्ट्रैप का उपयोग करें। और बूटस्ट्रैप का उपयोग करके मात्राओं के विश्लेषण के लिए एक पूर्वनिर्धारित विधि है। चाय-चखना ए/बी परीक्षण के विभिन्न प्रकारों के नमूना अनुपात में बेमेल का भी पता लगाता है।

चाय-चखना औसत के अनुपात के विश्लेषण के लिए डेल्टा विधि लागू करता है। उदाहरण के लिए, प्रति सत्र की औसत संख्या पर ऑर्डर की औसत संख्या, यह मानते हुए कि सत्र एक यादृच्छिकीकरण इकाई नहीं है।

विचरण को कम करने और किसी प्रयोग की संवेदनशीलता को बढ़ाने के लिए पूर्व-प्रयोग डेटा, मीट्रिक पूर्वानुमान, या अन्य सहसंयोजकों का उपयोग करें। इस दृष्टिकोण को CUPED या CUPAC के रूप में भी जाना जाता है।

छात्र के टी-टेस्ट और जेड-टेस्ट में प्रतिशत परिवर्तन के लिए आत्मविश्वास अंतराल की गणना मुश्किल हो सकती है। केवल निरपेक्ष परिवर्तन के लिए कॉन्फिडेंस इंटरवल लेने और इसे नियंत्रण औसत से विभाजित करने से एक पक्षपाती परिणाम प्राप्त होगा। चाय-चखना सही अंतराल की गणना करने के लिए डेल्टा विधि लागू करता है।

छात्र के टी-टेस्ट और जेड-टेस्ट के लिए सांख्यिकीय शक्ति का विश्लेषण करें। तीन संभावित विकल्प हैं:

  • सांख्यिकीय शक्ति और अवलोकनों की कुल संख्या को देखते हुए प्रभाव आकार की गणना करें।
  • सांख्यिकीय शक्ति और प्रभाव आकार को देखते हुए अवलोकनों की कुल संख्या की गणना करें।
  • प्रभाव के आकार और अवलोकनों की कुल संख्या को देखते हुए सांख्यिकीय शक्ति की गणना करें।

विस्तृत उपयोगकर्ता मार्गदर्शिका में और जानें।

रोडमैप में शामिल हैं:

  • एकाधिक परिकल्पना परीक्षण:
    • परिवार-वार त्रुटि दर: होल्म-बोनफेरोनी विधि।
    • गलत खोज दर: बेन्जामिनी-होचबर्ग प्रक्रिया।
  • किसी भी सांख्यिकीय परीक्षण की शक्ति का विश्लेषण करने के लिए ए/ए परीक्षण और सिमुलेशन।
  • अधिक सांख्यिकीय परीक्षण:
    • आवृत्ति डेटा के लिए स्पर्शोन्मुख और सटीक परीक्षण।
    • मान-व्हिटनी यू परीक्षण।
  • अनुक्रमिक परीक्षण: mSPRT के साथ हमेशा मान्य पी-वैल्यू।

आप अपनी पसंद के सांख्यिकीय परीक्षण के साथ एक कस्टम मीट्रिक परिभाषित कर सकते हैं।

डेटा बैकएंड होता है

प्रयोगात्मक डेटा को संग्रहीत और संसाधित करने के लिए कई अलग-अलग डेटाबेस और इंजन हैं। और ज्यादातर मामलों में विस्तृत प्रयोगात्मक डेटा को पायथन वातावरण में खींचना कुशल नहीं है। कई सांख्यिकीय परीक्षण, जैसे कि छात्र का टी-टेस्ट या जेड-टेस्ट, को विश्लेषण के लिए केवल एकत्रित डेटा की आवश्यकता होती है।

उदाहरण के लिए, यदि कच्चे प्रायोगिक डेटा को ClickHouse में संग्रहीत किया जाता है, तो ग्रैन्युलर डेटा लाने और पायथन वातावरण में एकत्रीकरण करने के बजाय सीधे ClickHouse में गणना, औसत, भिन्नता और सहप्रसरण की गणना करना तेज़ और अधिक कुशल है।

सभी आवश्यक आँकड़ों को मैन्युअल रूप से क्वेरी करना एक कठिन और त्रुटि-प्रवण कार्य हो सकता है। उदाहरण के लिए, CUPED के साथ अनुपात मेट्रिक्स और विचरण में कमी के विश्लेषण के लिए न केवल पंक्तियों और विचरण की संख्या की आवश्यकता होती है, बल्कि सहप्रसरण की भी आवश्यकता होती है। लेकिन चिंता न करें—चाय-चखना आपके लिए यह सब काम करता है।

tea-tasting डेटा को या तो पांडास डेटाफ़्रेम या आईबिस टेबल के रूप में स्वीकार करता है। आईबिस एक पायथन पैकेज है जो विभिन्न डेटा बैकएंड के लिए डेटाफ़्रेम एपीआई के रूप में कार्य करता है। यह BigQuery, ClickHouse, PostgreSQL/GreenPlum, स्नोफ्लेक और स्पार्क सहित 20 बैकएंड को सपोर्ट करता है। आप एक SQL क्वेरी लिख सकते हैं, इसे Ibis तालिका के रूप में लपेट सकते हैं, और इसे tea-tasting को पास कर सकते हैं।

ध्यान रखें कि चाय-चखना मानता है कि:

  • डेटा को रैंडमाइजेशन इकाइयों द्वारा समूहीकृत किया जाता है, जैसे कि व्यक्तिगत उपयोगकर्ता।
  • ए/बी परीक्षण के प्रकार को दर्शाने वाला एक कॉलम है (आमतौर पर ए, बी, आदि के रूप में लेबल किया गया है)।
  • मीट्रिक गणना के लिए सभी आवश्यक कॉलम (जैसे ऑर्डर की संख्या, राजस्व, आदि) तालिका में शामिल हैं।

कुछ सांख्यिकीय विधियों, जैसे बूटस्ट्रैप, को विश्लेषण के लिए विस्तृत डेटा की आवश्यकता होती है। इस मामले में, चाय-चखना विस्तृत डेटा भी प्राप्त करता है।

डेटा बैकएंड पर गाइड में और जानें।

सुविधाजनक एपीआई

आप केवल NumPy, SciPy और Ibis का उपयोग करके ऊपर सूचीबद्ध सभी कार्य कर सकते हैं। वास्तव में, टी-टेस्टिंग इन पैकेजों का उपयोग हुड के तहत करता है। चाय-चखना शीर्ष पर जो पेशकश करता है वह एक सुविधाजनक उच्च-स्तरीय एपीआई है।

वर्णन करने की तुलना में दिखाना आसान है। यहाँ मूल उदाहरण है:

import tea_tasting as tt


data = tt.make_users_data(seed=42)

experiment = tt.Experiment(
    sessions_per_user=tt.Mean("sessions"),
    orders_per_session=tt.RatioOfMeans("orders", "sessions"),
    orders_per_user=tt.Mean("orders"),
    revenue_per_user=tt.Mean("revenue"),
)

result = experiment.analyze(data)
print(result)
#>             metric control treatment rel_effect_size rel_effect_size_ci pvalue
#>  sessions_per_user    2.00      1.98          -0.66%      [-3.7%, 2.5%]  0.674
#> orders_per_session   0.266     0.289            8.8%      [-0.89%, 19%] 0.0762
#>    orders_per_user   0.530     0.573            8.0%       [-2.0%, 19%]  0.118
#>   revenue_per_user    5.24      5.73            9.3%       [-2.4%, 22%]  0.123

अलग-अलग पैरामीट्रिजेशन और अनुमान के साथ दो-चरणीय दृष्टिकोण, सांख्यिकीय मॉडलिंग में आम है। यह पृथक्करण कोड को अधिक मॉड्यूलर और समझने में आसान बनाने में मदद करता है।

चाय-चखना ऐसी गणनाएं करता है जो पेचीदा और त्रुटि-प्रवण हो सकती हैं:

  • डेल्टा विधि के साथ अनुपात मेट्रिक्स का विश्लेषण।
  • CUPED/CUPAC के साथ भिन्नता में कमी (अनुपात मेट्रिक्स के लिए डेल्टा विधि के संयोजन में भी)।
  • पूर्ण और प्रतिशत परिवर्तन दोनों के लिए विश्वास अंतराल की गणना।
  • सांख्यिकीय शक्ति का विश्लेषण।

यह त्रुटियों से बचने के लिए प्रयोगात्मक डेटा का प्रतिनिधित्व करने के लिए एक रूपरेखा भी प्रदान करता है। डेटा को यादृच्छिकीकरण इकाइयों द्वारा समूहीकृत करना और डेटासेट में सभी इकाइयों को शामिल करना सही विश्लेषण के लिए महत्वपूर्ण है।

इसके अलावा, चाय-चखना कुछ सुविधाजनक तरीके और कार्य प्रदान करता है, जैसे परिणाम का सुंदर स्वरूपण और मीट्रिक मापदंडों के लिए एक संदर्भ प्रबंधक।

प्रलेखन

अंतिम लेकिन महत्वपूर्ण: दस्तावेज़ीकरण। मेरा मानना ​​है कि टूल अपनाने के लिए अच्छा दस्तावेज़ीकरण महत्वपूर्ण है। इसीलिए मैंने कई उपयोगकर्ता मार्गदर्शिकाएँ और एक एपीआई संदर्भ लिखा।

मैं उपयोगकर्ता गाइड में बुनियादी उपयोग के उदाहरण से शुरुआत करने की सलाह देता हूं। फिर आप उसी गाइड में विशिष्ट विषयों, जैसे विचरण में कमी या शक्ति विश्लेषण, का पता लगा सकते हैं।

टी-टेस्टिंग के साथ अपनी पसंद के डेटा बैकएंड का उपयोग करने का तरीका जानने के लिए डेटा बैकएंड पर गाइड देखें।

यदि आप सांख्यिकीय परीक्षण करना चाहते हैं जो चाय-चखना में शामिल नहीं है, तो कस्टम मेट्रिक्स पर मार्गदर्शिका देखें।

चाय-चखना में उपलब्ध कार्यों, वर्गों और विधियों के बारे में सभी मापदंडों और विस्तृत जानकारी का पता लगाने के लिए एपीआई संदर्भ का उपयोग करें।

निष्कर्ष

विभिन्न प्रकार की सांख्यिकीय विधियां हैं जिन्हें किसी प्रयोग के विश्लेषण में लागू किया जा सकता है। लेकिन अधिकांश मामलों में उनमें से केवल कुछ ही वास्तव में उपयोग किए जाते हैं।

दूसरी ओर, ए/बी परीक्षणों के विश्लेषण के लिए विशिष्ट विधियां हैं जो SciPy जैसे सामान्य प्रयोजन सांख्यिकीय पैकेज में शामिल नहीं हैं।

चाय-चखना कार्यक्षमता में सबसे महत्वपूर्ण सांख्यिकीय परीक्षण, साथ ही ए/बी परीक्षणों के विश्लेषण के लिए विशिष्ट तरीके शामिल हैं।

चाय-चखना एक सुविधाजनक एपीआई प्रदान करता है जो विश्लेषण पर खर्च किए गए समय को कम करने और त्रुटि की संभावना को कम करने में मदद करता है।

इसके अलावा, चाय-चखना आपकी पसंद के डेटा बैकएंड में आंकड़ों की गणना करके कम्प्यूटेशनल दक्षता को अनुकूलित करता है, जहां डेटा संग्रहीत होता है।

विस्तृत दस्तावेज़ीकरण के साथ, आप जल्दी से सीख सकते हैं कि अपने प्रयोगों के विश्लेषण के लिए चाय-चखना का उपयोग कैसे करें।

पी.एस. पैकेज का नाम

पैकेज का नाम "टी-टेस्टिंग" शब्दों का एक नाटक है जो दो विषयों को संदर्भित करता है:

  • लेडी टेस्टिंग टी एक प्रसिद्ध प्रयोग है जिसे रोनाल्ड फिशर ने तैयार किया था। इस प्रयोग में, फिशर ने एक महिला के दावे का विश्लेषण करने के लिए शून्य परिकल्पना महत्व परीक्षण ढांचा विकसित किया कि वह यह पहचान सकती है कि कप में पहले चाय डाली गई थी या दूध।
  • "चाय-चखना" ध्वन्यात्मक रूप से "टी-परीक्षण" या छात्र के टी-परीक्षण जैसा दिखता है, जो विलियम गॉसेट द्वारा विकसित एक सांख्यिकीय परीक्षण है।
विज्ञप्ति वक्तव्य इस लेख को पुन: प्रस्तुत किया गया है: https://dev.to/e10v/tea-tasting-a-python-package-for-the-statistical-atalysis-of-ab-tests-4fnj?1 यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए [email protected] पर संपर्क करें।
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3