"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > AWS में फ़ाइलों को परिवर्तित करने के लिए तेज़ और सस्ता क्या है: पोलर या पांडा?

AWS में फ़ाइलों को परिवर्तित करने के लिए तेज़ और सस्ता क्या है: पोलर या पांडा?

2024-08-18 को प्रकाशित
ब्राउज़ करें:741

दोनों टूल और फायदों की एक विस्तृत श्रृंखला प्रदान करते हैं जिससे हमें संदेह हो सकता है कि किसी बिंदु पर दोनों में से किसे चुनना है। यह कंपनी की सभी प्रक्रियाओं को बदलने के बारे में नहीं है ताकि वे पोलर का उपयोग करना शुरू कर दें या पांडा को "मौत" दे दें (यह तत्काल भविष्य में नहीं होने वाला है)। यह अन्य उपकरणों को जानने के बारे में है जो हमें प्रक्रियाओं में लागत और समय कम करने, समान या बेहतर परिणाम प्राप्त करने में मदद कर सकते हैं।

जब हम क्लाउड सेवाओं का उपयोग करते हैं तो हम उनकी लागत सहित कुछ कारकों को प्राथमिकता देते हैं। इस प्रक्रिया के लिए मैं जिन सेवाओं का उपयोग करता हूं वे हैं पायथन 3.10 रनटाइम के साथ AWS लैम्ब्डा और कच्ची फ़ाइल और पैराक्वेट परिवर्तित फ़ाइल को संग्रहीत करने के लिए S3।

इरादा एक सीएसवी फ़ाइल को कच्चे डेटा के रूप में प्राप्त करना और इसे पांडा और ध्रुवीय के साथ संसाधित करना है, यह सत्यापित करने के इरादे से कि इन दोनों पुस्तकालयों में से कौन सा हमें मेमोरी और परिणामी फ़ाइल के वजन जैसे संसाधनों का बेहतर अनुकूलन प्रदान करता है।

पांडा
यह डेटा हेरफेर और विश्लेषण में विशेषज्ञता वाली एक पायथन लाइब्रेरी है, यह सी में लिखी गई है और इसकी प्रारंभिक रिलीज़ 2008 में हुई थी।

*ध्रुवीय *
यह डेटा हेरफेर और विश्लेषण में विशेषज्ञता वाली एक पायथन और रस्ट लाइब्रेरी है जो समानांतर प्रक्रियाओं की अनुमति देती है और इसे ज्यादातर रस्ट में लिखा गया है और 2022 में जारी किया गया था।

प्रक्रिया की वास्तुकला:

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?

प्रोजेक्ट कुछ हद तक सरल है जैसा कि आर्किटेक्चर में दिखाया गया है: उपयोगकर्ता एक सीएसवी फ़ाइल को वर्क/पांडा या वर्क/पोरलास में जमा करता है और फ़ाइल को लकड़ी की छत में परिवर्तित करने और संसाधित में जमा करने के लिए फ़ाइल को संसाधित करने के लिए स्वचालित रूप से एस3 ट्रिगर शुरू करता है।

इस छोटे प्रोजेक्ट में निम्नलिखित कॉन्फ़िगरेशन के साथ दो लैम्ब्डा का उपयोग करें:
मेमोरी: 2 जीबी
क्षणिक स्मृति: 2 जीबी
जीवनकाल: 600 सेकंड

आवश्यकताएं
पांडा के साथ लैम्ब्डा: पांडा, नम्पी और पायरो
ध्रुवों के साथ लैम्ब्डा: ध्रुवीय

तुलना के लिए उपयोग किया गया डेटासेट "रॉटेन टोमाटोज़ मूवी रिव्यू - 1.44एम पंक्तियाँ" नाम के तहत कागल पर उपलब्ध है या यहां से डाउनलोड किया जा सकता है।

पूर्ण रिपॉजिटरी GitHub पर उपलब्ध है और इसे यहां क्लोन किया जा सकता है।

आकार या वजन
पंडों द्वारा उपयोग किए जाने वाले लैम्ब्डा को एक लकड़ी की छत फ़ाइल बनाने के लिए दो और प्लगइन्स की आवश्यकता होती है, इस मामले में यह PyArrow है और पंडों के उस संस्करण के लिए numpy का एक विशिष्ट संस्करण है जिसका मैं उपयोग कर रहा था। परिणामस्वरूप, हमें 74.4 एमबी के वजन या आकार के साथ एक लैम्ब्डा प्राप्त हुआ, जो उस सीमा के बहुत करीब है जो एडब्ल्यूएस हमें लैम्ब्डा के वजन के लिए अनुमति देता है।

पोलर्स वाले लैम्ब्डा को पाइएरो जैसे किसी अन्य प्लगइन की आवश्यकता नहीं होती है जो जीवन को सरल बनाता है और लैम्ब्डा के आकार को आधे से भी कम कर देता है। परिणामस्वरूप, हमारे लैम्ब्डा का वजन या आकार पहले की तुलना में 30.6 एमबी है, जिससे हमें अन्य निर्भरताएँ स्थापित करने के लिए जगह मिलती है जिनकी हमें अपनी परिवर्तन प्रक्रिया के लिए आवश्यकता हो सकती है।

प्रदर्शन

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
पांडा के साथ लैम्ब्डा को पहले संस्करण के बाद संपीड़न का उपयोग करने के लिए अनुकूलित किया गया था, हालांकि, इसके व्यवहार का भी विश्लेषण किया गया था।
पांडा
डेटासेट को संसाधित करने में 18 सेकंड का समय लगा और CSV फ़ाइल को संसाधित करने और अन्य संस्करणों की तुलना में Parquet फ़ाइल बनाने के लिए 1894 एमबी मेमोरी का उपयोग किया गया, यह वह संस्करण था जिसने सबसे अधिक समय और संसाधनों का उपयोग किया।

पांडा संपीड़न
कोड की एक पंक्ति जोड़ने से हमें पिछले संस्करण (पांडा) की तुलना में थोड़ा सुधार करने की अनुमति मिली, डेटासेट को संसाधित करने में 17 सेकंड लगे और 1837 एमबी का उपयोग किया गया, जो प्रसंस्करण और कम्प्यूटेशनल समय में महत्वपूर्ण सुधार का प्रतिनिधित्व नहीं करता है, लेकिन आकार में। परिणामी फ़ाइल का।

ध्रुवीय
उसी डेटासेट को संसाधित करने में 12 सेकंड लगे और मैंने केवल 1462 एमबी का उपयोग किया, पिछले दो की तुलना में यह 44.44% समय की बचत और कम मेमोरी खपत का प्रतिनिधित्व करता है।

आउटपुट फ़ाइल आकार

¿Qué es más rápido y económico para convertir archivos en AWS: Polar o Pandas?
पांडा
लैम्ब्डा जिसमें एक संपीड़न प्रक्रिया स्थापित नहीं की गई थी, ने 177.4 एमबी की एक लकड़ी की छत फ़ाइल उत्पन्न की।

पांडा संपीड़न
लैम्ब्डा में संपीड़न को कॉन्फ़िगर करते समय मैं 121.1 एमबी पैरक्वेट फ़ाइल उत्पन्न नहीं करता हूं। एक छोटी लाइन या विकल्प ने हमें फ़ाइल का आकार 31.74% कम करने में मदद की। यह ध्यान में रखते हुए कि यह कोई महत्वपूर्ण कोड परिवर्तन नहीं है, यह एक बहुत अच्छा विकल्प है।

ध्रुवीय
पोलर्स ने 105.8 एमबी फ़ाइल तैयार की, जिसे पांडा के पहले संस्करण के साथ खरीदा गया था, जो संपीड़न के साथ पांडा संस्करण के मुकाबले 40.36% और 12.63% की बचत दर्शाता है।

निष्कर्ष
पांडा का उपयोग करने वाली सभी आंतरिक प्रक्रियाओं को बदलना आवश्यक नहीं है ताकि वे अब पोलर का उपयोग करें, हालांकि, यह विचार करना महत्वपूर्ण है कि अगर हम हजारों या लाखों लैम्ब्डा निष्पादन के बारे में बात कर रहे हैं, तो पोलर का उपयोग करने से हमें न केवल तैनाती में मदद मिलेगी समय लेकिन AWS द्वारा लैम्ब्डा जैसी सर्वर रहित सेवाओं के लिए की जाने वाली समय-आधारित चार्जिंग के कारण हमें लागत कम करने में भी मदद मिलेगी।
इसी तरह, जब हम उस 40.36% को लाखों फ़ाइलों में अनुवादित करते हैं तो हम जीबी या टीबी के बारे में बात कर रहे होते हैं, कुछ ऐसा जिसका डेटालेक या डेटावेयर हाउस या यहां तक ​​​​कि कोल्ड फ़ाइल स्टोरेज में महत्वपूर्ण प्रभाव पड़ेगा।

पोलर के साथ कटौती केवल इन दो कारकों तक ही सीमित नहीं होगी, क्योंकि यह AWS से डेटा और/या ऑब्जेक्ट के आउटपुट को बहुत प्रभावित करेगी क्योंकि यह एक ऐसी सेवा है जिसकी एक लागत होती है।

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://dev.to/edsantoshn/que-es-mas-rapido-y-economico-para-convertir-archivos-en-aws-polar-o-pandas-594p?1 यदि है किसी भी उल्लंघन को हटाने के लिए कृपया [email protected] से संपर्क करें
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3