टेक्स्टुअल डेटा के साथ काम करते समय, एक सामान्य कार्य में स्ट्रिंग्स को अलग-अलग शब्दों में विभाजित करना शामिल होता है। पायथन की str.split() विधि एक सीधा समाधान प्रदान करती है, लेकिन यह अपने तर्क के रूप में केवल एक सीमांकक का समर्थन करती है। यह सीमा उस पाठ से निपटने में बाधा बन सकती है जिसमें कई प्रकार की शब्द सीमाएं होती हैं, जैसे विराम चिह्न।
पायथन री मॉड्यूल एक शक्तिशाली विकल्प प्रदान करता है: re.split()। यह फ़ंक्शन आपको शब्द सीमा सीमांकक के रूप में उपयोग करने के लिए एक पैटर्न निर्दिष्ट करने की अनुमति देता है। पैटर्न में एक साथ कई प्रकार की सीमाओं से मेल खाने के लिए नियमित अभिव्यक्तियां शामिल हो सकती हैं। आप - आप यहाँ क्या कर रहे हैं!?"
आप निम्नलिखित नियमित अभिव्यक्ति पैटर्न का उपयोग कर सकते हैं:
"Hey, you - what are you doing here!?"
यह पैटर्न गैर-शब्द वर्णों (वर्णमाला, संख्यात्मक, या अंडरस्कोर) के किसी भी अनुक्रम से मेल खाता है। जब re.split() के साथ उपयोग किया जाता है, तो यह इन वर्णों की सभी घटनाओं पर स्ट्रिंग को विभाजित कर देगा, प्रभावी ढंग से शब्दों की एक सूची तैयार करेगा।
'\W '
import दोबारा टेक्स्ट = "अरे, आप - आप यहाँ क्या कर रहे हैं!?" शब्द = re.split('\W', पाठ) प्रिंट(शब्द)
आउटपुट:
import re text = "Hey, you - what are you doing here!?" words = re.split('\W ', text) print(words)
जैसा कि आप देख सकते हैं, re.split() प्रभावी ढंग से स्ट्रिंग को अलग-अलग शब्दों में विभाजित करता है, कई सीमांककों की उपस्थिति के बावजूद सही शब्द सीमाओं को संरक्षित करता है। यह लचीलापन इसे जटिल पाठ पार्सिंग परिदृश्यों को संभालने के लिए एक मूल्यवान उपकरण बनाता है, जहां एकाधिक शब्द सीमा सीमांकक का सामना करना पड़ता है।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3