"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > पायथन में टेक्स्ट से \xa0 नॉन-ब्रेकिंग स्पेस कैसे हटाएं?

पायथन में टेक्स्ट से \xa0 नॉन-ब्रेकिंग स्पेस कैसे हटाएं?

2024-11-11 को प्रकाशित
ब्राउज़ करें:182

How to Remove \xa0 Non-Breaking Spaces from Text in Python?

पायथन में यूनिकोड डिबगिंग: \xa0 नॉन-ब्रेकिंग स्पेस को हटा रहा है

ब्यूटीफुल सूप के साथ HTML को पार्स करते समय और टेक्स्ट सामग्री तक पहुंचते समय (get_text का उपयोग करके) ()), यूनिकोड वर्ण \xa0 का सामना करना आम बात है, जो गैर-ब्रेकिंग रिक्त स्थान का प्रतिनिधित्व करता है। इन रिक्त स्थानों को प्रभावी ढंग से हटाने और उन्हें पायथन 2.7 में नियमित रिक्त स्थान से बदलने के लिए, इन चरणों का पालन करें:

  1. यूनिकोडडेटा मॉड्यूल आयात करें:

    import unicodedata
  2. यूनिकोड को हटाने के लिए unicodedata.normalize() का उपयोग करें फ़ॉर्मेटिंग:

    text = unicodedata.normalize('NFKD', text)
  3. नॉन-ब्रेकिंग स्पेस को रेगुलर स्पेस से बदलें:

    text = text.replace(u'\xa0', ' ')

प्रक्रिया को समझना

\xa0 एक यूनिकोड वर्ण है जो लैटिन1 में एक नॉन-ब्रेकिंग स्पेस का प्रतिनिधित्व करता है (आईएसओ 8859-1) . इन विशेष वर्णों को हटाने और उन्हें नियमित रिक्त स्थान में परिवर्तित करने के लिए, यूनिकोडडेटा मॉड्यूल का उपयोग करना आवश्यक है। &&&]रिप्लेस() फ़ंक्शन फिर यूनिकोड कैरेक्टर \xa0 की सभी घटनाओं को नियमित स्पेस कैरेक्टर (') से बदल देता है ').

  • इन चरणों को मिलाकर, आप प्रभावी ढंग से पायथन 2.7 में स्ट्रिंग्स से \xa0 नॉन-ब्रेकिंग स्पेस को हटा सकते हैं और वांछित रिक्ति को संरक्षित कर सकते हैं।
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3