पायथन में यूनिकोड डिबगिंग: \xa0 नॉन-ब्रेकिंग स्पेस को हटा रहा है
ब्यूटीफुल सूप के साथ HTML को पार्स करते समय और टेक्स्ट सामग्री तक पहुंचते समय (get_text का उपयोग करके) ()), यूनिकोड वर्ण \xa0 का सामना करना आम बात है, जो गैर-ब्रेकिंग रिक्त स्थान का प्रतिनिधित्व करता है। इन रिक्त स्थानों को प्रभावी ढंग से हटाने और उन्हें पायथन 2.7 में नियमित रिक्त स्थान से बदलने के लिए, इन चरणों का पालन करें:
यूनिकोडडेटा मॉड्यूल आयात करें:
import unicodedata
यूनिकोड को हटाने के लिए unicodedata.normalize() का उपयोग करें फ़ॉर्मेटिंग:
text = unicodedata.normalize('NFKD', text)
नॉन-ब्रेकिंग स्पेस को रेगुलर स्पेस से बदलें:
text = text.replace(u'\xa0', ' ')
प्रक्रिया को समझना
\xa0 एक यूनिकोड वर्ण है जो लैटिन1 में एक नॉन-ब्रेकिंग स्पेस का प्रतिनिधित्व करता है (आईएसओ 8859-1) . इन विशेष वर्णों को हटाने और उन्हें नियमित रिक्त स्थान में परिवर्तित करने के लिए, यूनिकोडडेटा मॉड्यूल का उपयोग करना आवश्यक है। &&&]रिप्लेस() फ़ंक्शन फिर यूनिकोड कैरेक्टर \xa0 की सभी घटनाओं को नियमित स्पेस कैरेक्टर (') से बदल देता है ').
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3