चाय-चखना: ए/बी परीक्षणों के सांख्यिकीय विश्लेषण के लिए एक पायथन पैकेज

मुखपृष्ठ > प्रोग्रामिंग > चाय-चखना: ए/बी परीक्षणों के सांख्यिकीय विश्लेषण के लिए एक पायथन पैकेज

चाय-चखना: ए/बी परीक्षणों के सांख्यिकीय विश्लेषण के लिए एक पायथन पैकेज

2024-11-08 को प्रकाशित

ब्राउज़ करें:349

tea-tasting: a Python package for the statistical analysis of A/B tests

पहचान

मैंने चाय-चखना विकसित किया है, जो ए/बी परीक्षणों के सांख्यिकीय विश्लेषण के लिए एक पायथन पैकेज है:

छात्र का टी-टेस्ट, बूटस्ट्रैप, CUPED के साथ विचरण में कमी, पावर विश्लेषण, और अन्य सांख्यिकीय तरीके और बॉक्स से बाहर दृष्टिकोण।
डेटा बैकएंड की एक विस्तृत श्रृंखला के लिए समर्थन, जैसे BigQuery, ClickHouse, PostgreSQL/GreenPlum, स्नोफ्लेक, स्पार्क, पांडा, और Ibis द्वारा समर्थित 20 अन्य बैकएंड।
एक्स्टेंसिबल एपीआई: कस्टम मेट्रिक्स को परिभाषित करें और अपनी पसंद के सांख्यिकीय परीक्षणों का उपयोग करें।
मैन्युअल कार्य को कम करने के लिए सुविधाजनक एपीआई, और त्रुटियों को कम करने के लिए एक रूपरेखा।
विस्तृत दस्तावेज।

इस ब्लॉग पोस्ट में, मैं प्रयोगों के विश्लेषण में चाय-चखने का उपयोग करने के इन लाभों में से प्रत्येक का पता लगाता हूं।

यदि आप इसे आज़माने के लिए उत्सुक हैं, तो दस्तावेज़ की जाँच करें।

सांख्यिकीय पद्धतियां

चाय-चखना में सांख्यिकीय विधियां और तकनीकें शामिल हैं जो प्रयोगों के विश्लेषण में आपकी अधिकांश आवश्यकताओं को कवर करती हैं।

छात्र के टी-टेस्ट और जेड-टेस्ट के साथ मीट्रिक औसत और अनुपात का विश्लेषण करें। या अपनी पसंद के किसी अन्य आँकड़े का विश्लेषण करने के लिए बूटस्ट्रैप का उपयोग करें। और बूटस्ट्रैप का उपयोग करके मात्राओं के विश्लेषण के लिए एक पूर्वनिर्धारित विधि है। चाय-चखना ए/बी परीक्षण के विभिन्न प्रकारों के नमूना अनुपात में बेमेल का भी पता लगाता है।

चाय-चखना औसत के अनुपात के विश्लेषण के लिए डेल्टा विधि लागू करता है। उदाहरण के लिए, प्रति सत्र की औसत संख्या पर ऑर्डर की औसत संख्या, यह मानते हुए कि सत्र एक यादृच्छिकीकरण इकाई नहीं है।

विचरण को कम करने और किसी प्रयोग की संवेदनशीलता को बढ़ाने के लिए पूर्व-प्रयोग डेटा, मीट्रिक पूर्वानुमान, या अन्य सहसंयोजकों का उपयोग करें। इस दृष्टिकोण को CUPED या CUPAC के रूप में भी जाना जाता है।

छात्र के टी-टेस्ट और जेड-टेस्ट में प्रतिशत परिवर्तन के लिए आत्मविश्वास अंतराल की गणना मुश्किल हो सकती है। केवल निरपेक्ष परिवर्तन के लिए कॉन्फिडेंस इंटरवल लेने और इसे नियंत्रण औसत से विभाजित करने से एक पक्षपाती परिणाम प्राप्त होगा। चाय-चखना सही अंतराल की गणना करने के लिए डेल्टा विधि लागू करता है।

छात्र के टी-टेस्ट और जेड-टेस्ट के लिए सांख्यिकीय शक्ति का विश्लेषण करें। तीन संभावित विकल्प हैं:

सांख्यिकीय शक्ति और अवलोकनों की कुल संख्या को देखते हुए प्रभाव आकार की गणना करें।
सांख्यिकीय शक्ति और प्रभाव आकार को देखते हुए अवलोकनों की कुल संख्या की गणना करें।
प्रभाव के आकार और अवलोकनों की कुल संख्या को देखते हुए सांख्यिकीय शक्ति की गणना करें।

विस्तृत उपयोगकर्ता मार्गदर्शिका में और जानें।

रोडमैप में शामिल हैं:

एकाधिक परिकल्पना परीक्षण:
- परिवार-वार त्रुटि दर: होल्म-बोनफेरोनी विधि।
- गलत खोज दर: बेन्जामिनी-होचबर्ग प्रक्रिया।
किसी भी सांख्यिकीय परीक्षण की शक्ति का विश्लेषण करने के लिए ए/ए परीक्षण और सिमुलेशन।
अधिक सांख्यिकीय परीक्षण:
- आवृत्ति डेटा के लिए स्पर्शोन्मुख और सटीक परीक्षण।
- मान-व्हिटनी यू परीक्षण।
अनुक्रमिक परीक्षण: mSPRT के साथ हमेशा मान्य पी-वैल्यू।

आप अपनी पसंद के सांख्यिकीय परीक्षण के साथ एक कस्टम मीट्रिक परिभाषित कर सकते हैं।

डेटा बैकएंड होता है

प्रयोगात्मक डेटा को संग्रहीत और संसाधित करने के लिए कई अलग-अलग डेटाबेस और इंजन हैं। और ज्यादातर मामलों में विस्तृत प्रयोगात्मक डेटा को पायथन वातावरण में खींचना कुशल नहीं है। कई सांख्यिकीय परीक्षण, जैसे कि छात्र का टी-टेस्ट या जेड-टेस्ट, को विश्लेषण के लिए केवल एकत्रित डेटा की आवश्यकता होती है।

उदाहरण के लिए, यदि कच्चे प्रायोगिक डेटा को ClickHouse में संग्रहीत किया जाता है, तो ग्रैन्युलर डेटा लाने और पायथन वातावरण में एकत्रीकरण करने के बजाय सीधे ClickHouse में गणना, औसत, भिन्नता और सहप्रसरण की गणना करना तेज़ और अधिक कुशल है।

सभी आवश्यक आँकड़ों को मैन्युअल रूप से क्वेरी करना एक कठिन और त्रुटि-प्रवण कार्य हो सकता है। उदाहरण के लिए, CUPED के साथ अनुपात मेट्रिक्स और विचरण में कमी के विश्लेषण के लिए न केवल पंक्तियों और विचरण की संख्या की आवश्यकता होती है, बल्कि सहप्रसरण की भी आवश्यकता होती है। लेकिन चिंता न करें—चाय-चखना आपके लिए यह सब काम करता है।

tea-tasting डेटा को या तो पांडास डेटाफ़्रेम या आईबिस टेबल के रूप में स्वीकार करता है। आईबिस एक पायथन पैकेज है जो विभिन्न डेटा बैकएंड के लिए डेटाफ़्रेम एपीआई के रूप में कार्य करता है। यह BigQuery, ClickHouse, PostgreSQL/GreenPlum, स्नोफ्लेक और स्पार्क सहित 20 बैकएंड को सपोर्ट करता है। आप एक SQL क्वेरी लिख सकते हैं, इसे Ibis तालिका के रूप में लपेट सकते हैं, और इसे tea-tasting को पास कर सकते हैं।

ध्यान रखें कि चाय-चखना मानता है कि:

डेटा को रैंडमाइजेशन इकाइयों द्वारा समूहीकृत किया जाता है, जैसे कि व्यक्तिगत उपयोगकर्ता।
ए/बी परीक्षण के प्रकार को दर्शाने वाला एक कॉलम है (आमतौर पर ए, बी, आदि के रूप में लेबल किया गया है)।
मीट्रिक गणना के लिए सभी आवश्यक कॉलम (जैसे ऑर्डर की संख्या, राजस्व, आदि) तालिका में शामिल हैं।

कुछ सांख्यिकीय विधियों, जैसे बूटस्ट्रैप, को विश्लेषण के लिए विस्तृत डेटा की आवश्यकता होती है। इस मामले में, चाय-चखना विस्तृत डेटा भी प्राप्त करता है।

डेटा बैकएंड पर गाइड में और जानें।

सुविधाजनक एपीआई

आप केवल NumPy, SciPy और Ibis का उपयोग करके ऊपर सूचीबद्ध सभी कार्य कर सकते हैं। वास्तव में, टी-टेस्टिंग इन पैकेजों का उपयोग हुड के तहत करता है। चाय-चखना शीर्ष पर जो पेशकश करता है वह एक सुविधाजनक उच्च-स्तरीय एपीआई है।

वर्णन करने की तुलना में दिखाना आसान है। यहाँ मूल उदाहरण है:

import tea_tasting as tt


data = tt.make_users_data(seed=42)

experiment = tt.Experiment(
    sessions_per_user=tt.Mean("sessions"),
    orders_per_session=tt.RatioOfMeans("orders", "sessions"),
    orders_per_user=tt.Mean("orders"),
    revenue_per_user=tt.Mean("revenue"),
)

result = experiment.analyze(data)
print(result)
#>             metric control treatment rel_effect_size rel_effect_size_ci pvalue
#>  sessions_per_user    2.00      1.98          -0.66%      [-3.7%, 2.5%]  0.674
#> orders_per_session   0.266     0.289            8.8%      [-0.89%, 19%] 0.0762
#>    orders_per_user   0.530     0.573            8.0%       [-2.0%, 19%]  0.118
#>   revenue_per_user    5.24      5.73            9.3%       [-2.4%, 22%]  0.123

अलग-अलग पैरामीट्रिजेशन और अनुमान के साथ दो-चरणीय दृष्टिकोण, सांख्यिकीय मॉडलिंग में आम है। यह पृथक्करण कोड को अधिक मॉड्यूलर और समझने में आसान बनाने में मदद करता है।

चाय-चखना ऐसी गणनाएं करता है जो पेचीदा और त्रुटि-प्रवण हो सकती हैं:

डेल्टा विधि के साथ अनुपात मेट्रिक्स का विश्लेषण।
CUPED/CUPAC के साथ भिन्नता में कमी (अनुपात मेट्रिक्स के लिए डेल्टा विधि के संयोजन में भी)।
पूर्ण और प्रतिशत परिवर्तन दोनों के लिए विश्वास अंतराल की गणना।
सांख्यिकीय शक्ति का विश्लेषण।

यह त्रुटियों से बचने के लिए प्रयोगात्मक डेटा का प्रतिनिधित्व करने के लिए एक रूपरेखा भी प्रदान करता है। डेटा को यादृच्छिकीकरण इकाइयों द्वारा समूहीकृत करना और डेटासेट में सभी इकाइयों को शामिल करना सही विश्लेषण के लिए महत्वपूर्ण है।

इसके अलावा, चाय-चखना कुछ सुविधाजनक तरीके और कार्य प्रदान करता है, जैसे परिणाम का सुंदर स्वरूपण और मीट्रिक मापदंडों के लिए एक संदर्भ प्रबंधक।

प्रलेखन

अंतिम लेकिन महत्वपूर्ण: दस्तावेज़ीकरण। मेरा मानना है कि टूल अपनाने के लिए अच्छा दस्तावेज़ीकरण महत्वपूर्ण है। इसीलिए मैंने कई उपयोगकर्ता मार्गदर्शिकाएँ और एक एपीआई संदर्भ लिखा।

मैं उपयोगकर्ता गाइड में बुनियादी उपयोग के उदाहरण से शुरुआत करने की सलाह देता हूं। फिर आप उसी गाइड में विशिष्ट विषयों, जैसे विचरण में कमी या शक्ति विश्लेषण, का पता लगा सकते हैं।

टी-टेस्टिंग के साथ अपनी पसंद के डेटा बैकएंड का उपयोग करने का तरीका जानने के लिए डेटा बैकएंड पर गाइड देखें।

यदि आप सांख्यिकीय परीक्षण करना चाहते हैं जो चाय-चखना में शामिल नहीं है, तो कस्टम मेट्रिक्स पर मार्गदर्शिका देखें।

चाय-चखना में उपलब्ध कार्यों, वर्गों और विधियों के बारे में सभी मापदंडों और विस्तृत जानकारी का पता लगाने के लिए एपीआई संदर्भ का उपयोग करें।

निष्कर्ष

विभिन्न प्रकार की सांख्यिकीय विधियां हैं जिन्हें किसी प्रयोग के विश्लेषण में लागू किया जा सकता है। लेकिन अधिकांश मामलों में उनमें से केवल कुछ ही वास्तव में उपयोग किए जाते हैं।

दूसरी ओर, ए/बी परीक्षणों के विश्लेषण के लिए विशिष्ट विधियां हैं जो SciPy जैसे सामान्य प्रयोजन सांख्यिकीय पैकेज में शामिल नहीं हैं।

चाय-चखना कार्यक्षमता में सबसे महत्वपूर्ण सांख्यिकीय परीक्षण, साथ ही ए/बी परीक्षणों के विश्लेषण के लिए विशिष्ट तरीके शामिल हैं।

चाय-चखना एक सुविधाजनक एपीआई प्रदान करता है जो विश्लेषण पर खर्च किए गए समय को कम करने और त्रुटि की संभावना को कम करने में मदद करता है।

इसके अलावा, चाय-चखना आपकी पसंद के डेटा बैकएंड में आंकड़ों की गणना करके कम्प्यूटेशनल दक्षता को अनुकूलित करता है, जहां डेटा संग्रहीत होता है।

विस्तृत दस्तावेज़ीकरण के साथ, आप जल्दी से सीख सकते हैं कि अपने प्रयोगों के विश्लेषण के लिए चाय-चखना का उपयोग कैसे करें।

पी.एस. पैकेज का नाम

पैकेज का नाम "टी-टेस्टिंग" शब्दों का एक नाटक है जो दो विषयों को संदर्भित करता है:

लेडी टेस्टिंग टी एक प्रसिद्ध प्रयोग है जिसे रोनाल्ड फिशर ने तैयार किया था। इस प्रयोग में, फिशर ने एक महिला के दावे का विश्लेषण करने के लिए शून्य परिकल्पना महत्व परीक्षण ढांचा विकसित किया कि वह यह पहचान सकती है कि कप में पहले चाय डाली गई थी या दूध।
"चाय-चखना" ध्वन्यात्मक रूप से "टी-परीक्षण" या छात्र के टी-परीक्षण जैसा दिखता है, जो विलियम गॉसेट द्वारा विकसित एक सांख्यिकीय परीक्षण है।

विज्ञप्ति वक्तव्य इस लेख को पुन: प्रस्तुत किया गया है: https://dev.to/e10v/tea-tasting-a-python-package-for-the-statistical-atalysis-of-ab-tests-4fnj?1 यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए [email protected] पर संपर्क करें।

नवीनतम ट्यूटोरियल अधिक>

Microsoft Visual C ++ दो-चरण टेम्पलेट तात्कालिकता को सही ढंग से लागू करने में विफल क्यों होता है?
तंत्र के कौन से विशिष्ट पहलू अपेक्षित रूप से संचालित करने में विफल होते हैं? हालाँकि, इस बारे में संदेह उत्पन्न होता है कि क्या यह चेक सत्यापित करता ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
UTF-8 बनाम लैटिन -1: द सीक्रेट ऑफ कैरेक्टर एन्कोडिंग!
] उनके अनुप्रयोगों के बीच, एक मौलिक प्रश्न उठता है: क्या समझदार विशेषताएं इन दो एन्कोडिंग को अलग करती हैं? जबकि लैटिन 1 विशेष रूप से लैटिन पात्रों को ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
सरणी
] एरेज़ ऑब्जेक्ट हैं, इसलिए उनके पास जेएस में भी तरीके हैं। स्लाइस (शुरुआत): मूल सरणी को म्यूट किए बिना, एक नए सरणी में सरणी का हिस्सा निकाले...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
मैं जावा स्ट्रिंग में कई सब्सट्रेट्स को कुशलता से कैसे बदल सकता हूं?
] हालाँकि, यह बड़े तार के लिए अक्षम हो सकता है या जब कई तार के साथ काम कर रहा है। नियमित अभिव्यक्तियाँ आपको जटिल खोज पैटर्न को परिभाषित करने और एकल ऑप...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
भाग SQL इंजेक्शन श्रृंखला: उन्नत SQL इंजेक्शन तकनीकों की विस्तृत व्याख्या
वेमैप पेंटिंग टूल: यहां क्लिक करें TrixSec github: यहाँ क्लिक करें TRIXSEC टेलीग्राम: यहां क्लिक करें ] हमारी SQL इंजेक्शन श्रृंखला के...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
PYTZ शुरू में अप्रत्याशित समय क्षेत्र ऑफसेट क्यों दिखाता है?
] उदाहरण के लिए, एशिया/hong_kong शुरू में एक सात घंटे और 37 मिनट की ऑफसेट दिखाता है: आयात pytz Std> विसंगति स्रोत समय क्षेत्र और ऑफसेट प...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
कैसे ठीक करें "सामान्य त्रुटि: 2006 MySQL सर्वर डेटा डालते समय दूर चला गया है?
] यह त्रुटि तब होती है जब सर्वर का कनेक्शन खो जाता है, आमतौर पर MySQL कॉन्फ़िगरेशन में दो चर में से एक के कारण। ये चर उस अधिकतम समय को नियंत्रित करते ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
हम दुर्भावनापूर्ण सामग्री के खिलाफ फ़ाइल अपलोड को कैसे सुरक्षित कर सकते हैं?
] इन खतरों को समझना और प्रभावी शमन रणनीतियों को लागू करना आपके आवेदन की सुरक्षा को बनाए रखने के लिए महत्वपूर्ण है। इसलिए, अपलोड की गई फ़ाइल के हर पहलू...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
जावास्क्रिप्ट में नियमित अभिव्यक्तियों का उपयोग करके स्ट्रिंग्स से लाइन ब्रेक कैसे निकालें?
] सवाल उठता है: .replace विधि के भीतर एक नियमित अभिव्यक्ति में लाइन ब्रेक का प्रतिनिधित्व कैसे किया जा सकता है? विंडोज "\ r \ n" अनुक्रम का ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
फ़ायरफ़ॉक्स बैक बटन का उपयोग करते समय जावास्क्रिप्ट निष्पादन क्यों बंद हो जाता है?
] यह समस्या क्रोम और इंटरनेट एक्सप्लोरर जैसे अन्य ब्राउज़रों में नहीं होती है। इस समस्या को हल करने के लिए और बाद के पृष्ठ के दौरे पर स्क्रिप्ट निष्पा...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
PHP का उपयोग करके MySQL में बूँदों (चित्र) को ठीक से कैसे डालें?
] यह गाइड आपके छवि डेटा को सफलतापूर्वक संग्रहीत करने के लिए समाधान प्रदान करेगा। ImageStore (ImageId, Image) मान ('$ यह- & gt; image_id', ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
क्या मैं McRypt से OpenSSL में अपने एन्क्रिप्शन को माइग्रेट कर सकता हूं, और OpenSSL का उपयोग करके McRypt-encrypted डेटा को डिक्रिप्ट कर सकता हूं?
] OpenSSL में, क्या McRypt के साथ एन्क्रिप्ट किए गए डेटा को डिक्रिप्ट करना संभव है? दो अलग -अलग पोस्ट परस्पर विरोधी जानकारी प्रदान करते हैं। यदि ऐसा ह...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
जेएस और मूल बातें
] ] जेएस और कोर प्रोग्रामिंग अवधारणाओं की मूल बातें समझना किसी को भी वेब विकास या सामान्य सॉफ्टवेयर प्रोग्रामिंग में गोता लगाने के लिए आवश्यक है। यह म...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
क्या जावा में कलेक्शन ट्रैवर्सल के लिए एक-प्रत्येक लूप और एक पुनरावृत्ति का उपयोग करने के बीच एक प्रदर्शन अंतर है?
के लिए यह लेख इन दो दृष्टिकोणों के बीच दक्षता के अंतर की पड़ताल करता है। यह आंतरिक रूप से iterator का उपयोग करता है: सूची a = new ArrayList ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
कैसे जांचें कि क्या किसी वस्तु की पायथन में एक विशिष्ट विशेषता है?
] निम्नलिखित उदाहरण पर विचार करें जहां एक अपरिभाषित संपत्ति तक पहुंचने का प्रयास एक त्रुटि उठाता है: >>> a = someclass () >>> a.property ट्रेसबैक (स...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया