"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > मैं पायथन में HTML से साफ पाठ कैसे निकाल सकता हूं?

मैं पायथन में HTML से साफ पाठ कैसे निकाल सकता हूं?

2025-03-04 पर पोस्ट किया गया
ब्राउज़ करें:928

] संपादक। जबकि सुंदर सूप को अक्सर अनुशंसित किया जाता है, यह जावास्क्रिप्ट जैसी अवांछित सामग्री को उठा सकता है और HTML संस्थाओं की व्याख्या करने में विफल हो सकता है। हालाँकि, इसके प्रलेखन और उदाहरण सीमित हैं। BS4 से Beautifulumporsoup आयात करें url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen (url) .read () सूप = beautionsoup (html, सुविधाएँ = "html.parser") # स्क्रिप्ट और शैलियों को हटा दें सूप में स्क्रिप्ट के लिए (["स्क्रिप्ट", "स्टाइल"]): script.extract () # पाठ निकालें पाठ = soup.get_text () # कन्वर्ट लाइन ब्रेक और व्हाट्सएप को हटा दें लाइन्स = (लाइन.स्ट्रिप () पाठ में लाइन के लिए ।splitlines ()) chunks = (sthase.strip () लाइन में लाइन में लाइन के लिए लाइन में लाइन में ।split ("")) पाठ = '\ n'.join (चंक में चंक के लिए चंक) प्रिंट (पाठ)

How Can I Efficiently Extract Clean Text from HTML in Python?

निर्भरता

इस कोड का उपयोग करने के लिए, आपको BeautifulSoup4 की आवश्यकता होगी:

PIP BeatureSoup4 स्थापित करें

नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3