मैं पायथन में HTML से साफ पाठ कैसे निकाल सकता हूं?

मुखपृष्ठ > प्रोग्रामिंग > मैं पायथन में HTML से साफ पाठ कैसे निकाल सकता हूं?

मैं पायथन में HTML से साफ पाठ कैसे निकाल सकता हूं?

2025-03-04 पर पोस्ट किया गया

ब्राउज़ करें:928

] संपादक। जबकि सुंदर सूप को अक्सर अनुशंसित किया जाता है, यह जावास्क्रिप्ट जैसी अवांछित सामग्री को उठा सकता है और HTML संस्थाओं की व्याख्या करने में विफल हो सकता है। हालाँकि, इसके प्रलेखन और उदाहरण सीमित हैं। BS4 से Beautifulumporsoup आयात करें url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen (url) .read () सूप = beautionsoup (html, सुविधाएँ = "html.parser") # स्क्रिप्ट और शैलियों को हटा दें सूप में स्क्रिप्ट के लिए (["स्क्रिप्ट", "स्टाइल"]): script.extract () # पाठ निकालें पाठ = soup.get_text () # कन्वर्ट लाइन ब्रेक और व्हाट्सएप को हटा दें लाइन्स = (लाइन.स्ट्रिप () पाठ में लाइन के लिए ।splitlines ()) chunks = (sthase.strip () लाइन में लाइन में लाइन के लिए लाइन में लाइन में ।split ("")) पाठ = '\ n'.join (चंक में चंक के लिए चंक) प्रिंट (पाठ)

How Can I Efficiently Extract Clean Text from HTML in Python?

निर्भरता

इस कोड का उपयोग करने के लिए, आपको BeautifulSoup4 की आवश्यकता होगी:

PIP BeatureSoup4 स्थापित करें

नवीनतम ट्यूटोरियल अधिक>

मुझे अपनी सिल्वरलाइट LINQ क्वेरी में "क्वेरी पैटर्न का कार्यान्वयन" त्रुटि क्यों नहीं मिल रही है?
] यह त्रुटि आम तौर पर तब होती है जब या तो Linq नेमस्पेस को छोड़ दिया जाता है या queried प्रकार में ienumerable कार्यान्वयन का अभाव होता है। इस विशिष्...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
Sqlalchemy फ़िल्टर क्लॉज़ में `Flake8` फ्लैगिंग बूलियन तुलना क्यों है?
] हालांकि, यह आम तौर पर "यदि कंडे गलत है:" या "अगर कंडे नहीं:" का उपयोग करने के लिए अनुशंसित है, तो बूलियन तुलनाओं के लिए कहीं और,...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
मैं PHP का उपयोग करके XML फ़ाइलों से विशेषता मानों को कैसे प्राप्त कर सकता हूं?
] एक XML फ़ाइल के साथ काम करते समय, जिसमें प्रदान किए गए उदाहरण की विशेषताएं होती हैं: 1 स्टंप किया गया। इसे हल करने के लिए, PHP सिंप्लेक्...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
Eval () बनाम ast.literal_eval (): उपयोगकर्ता इनपुट के लिए कौन सा पायथन फ़ंक्शन सुरक्षित है?
] eval (), एक शक्तिशाली पायथन फ़ंक्शन, अक्सर एक संभावित समाधान के रूप में उत्पन्न होता है, लेकिन चिंताएं इसके संभावित जोखिमों को घेरती हैं। यह लेख eva...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
क्या मैं McRypt से OpenSSL में अपने एन्क्रिप्शन को माइग्रेट कर सकता हूं, और OpenSSL का उपयोग करके McRypt-encrypted डेटा को डिक्रिप्ट कर सकता हूं?
] OpenSSL में, क्या McRypt के साथ एन्क्रिप्ट किए गए डेटा को डिक्रिप्ट करना संभव है? दो अलग -अलग पोस्ट परस्पर विरोधी जानकारी प्रदान करते हैं। यदि ऐसा ह...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
$क्यों isn \ 't मेरी css पृष्ठभूमि छवि दिखाई दे रही है?$
क्यों isn \ 't मेरी css पृष्ठभूमि छवि दिखाई दे रही है?
] छवि और स्टाइल शीट एक ही निर्देशिका में निवास कर रही है, फिर भी पृष्ठभूमि एक खाली सफेद कैनवास बनी हुई है। छवि को संलग्न करने वाले उद्धरण फ़ाइल नाम: ...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
जेएस और मूल बातें
] ] जेएस और कोर प्रोग्रामिंग अवधारणाओं की मूल बातें समझना किसी को भी वेब विकास या सामान्य सॉफ्टवेयर प्रोग्रामिंग में गोता लगाने के लिए आवश्यक है। यह म...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
$Php \ के फ़ंक्शन पुनर्वितरण प्रतिबंधों को कैसे दूर करें?$
Php \ के फ़ंक्शन पुनर्वितरण प्रतिबंधों को कैसे दूर करें?
] ऐसा करने का प्रयास करना, जैसा कि प्रदान किए गए कोड स्निपेट में देखा गया है, परिणामस्वरूप एक खूंखार "redeclare" त्रुटि हो सकती है। $ b) { $...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
HTML स्वरूपण टैग
HTML स्वरूपण तत्व ] HTML हमें CSS का उपयोग किए बिना पाठ को प्रारूपित करने की क्षमता प्रदान करता है। HTML में कई स्वरूपण टैग हैं। इन टैगों ...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
जावास्क्रिप्ट में कई चर घोषित करने के लिए कौन सी विधि अधिक बनाए रखने योग्य है?
] इसके लिए दो सामान्य दृष्टिकोण हैं: प्रत्येक चर को एक अलग लाइन पर घोषित करना: var चर १ = "हैलो, दुनिया!" var चर 2 = "परीक्षण ...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
जावा में "dd/mm/yyyy hh: mm: ssss" प्रारूप में वर्तमान तिथि और समय को सही ढंग से कैसे प्रदर्शित करें?
] अलग -अलग स्वरूपण पैटर्न के साथ अलग -अलग SimpleDateFormat इंस्टेंस का उपयोग। आयात java.util.calendar; आयात java.util.date; सार्वजनिक वर्ग DateAndt...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
PHP में टाइमज़ोन को कुशलता से कैसे परिवर्तित करें?
] यह गाइड अलग-अलग टाइमज़ोन के बीच तारीखों और समय को परिवर्तित करने के लिए एक आसान-से-प्रभाव विधि प्रदान करेगा। उदाहरण के लिए: // उपयोगकर्ता के Timez...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
पायथन में स्ट्रिंग्स से इमोजी को कैसे निकालें: आम त्रुटियों को ठीक करने के लिए एक शुरुआत का मार्गदर्शिका?
] पायथन 2 पर U '' उपसर्ग का उपयोग करके यूनिकोड स्ट्रिंग्स को नामित किया जाना चाहिए। इसके अलावा, re.unicode ध्वज को नियमित अभिव्यक्ति में पारित...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
$मुझे अपने लिनक्स सर्वर पर आर्काइव_जिप स्थापित करने के बाद एक \ "क्लास \ 'ziparchive \' नहीं मिला \" त्रुटि क्यों मिल रही है?$
मुझे अपने लिनक्स सर्वर पर आर्काइव_जिप स्थापित करने के बाद एक \ "क्लास \ 'ziparchive \' नहीं मिला \" त्रुटि क्यों मिल रही है?
घातक त्रुटि: घातक त्रुटि: वर्ग Ziparchive में नहीं मिला ... कारण: इस समस्या को हल करें, इन चरणों का पालन करें: Fatal error: Class ZipArchiv...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया
क्यों नहीं `शरीर {मार्जिन: 0; } `हमेशा सीएसएस में शीर्ष मार्जिन निकालें?
] अक्सर, प्रदान किया गया कोड, जैसे "बॉडी {मार्जिन: 0;}", वांछित परिणाम नहीं देता है। यह तब हो सकता है जब सामग्री के मूल तत्व का एक सकारात्मक...

प्रोग्रामिंग 2025-04-09 पर पोस्ट किया गया