[
用python
提取文本,您的目標是從python中的html文件中提取文本editor。 正則表達式不夠強大,對於形成較差的html。雖然通常建議使用美麗的湯,但它可以拾取不需要的內容,例如JavaScript,並且無法解釋HTML實體。 有希望的替代方案:html2text
Optimal Code for Text ExtractionThe code below offers an effective solution that filters out unwanted elements and preserves HTML entities:
from urllib.request import urlopen 來自BS4進口美麗的小組 url =“ http://news.bbc.co.uk/2/hi/health/2284783.stm” html = urlopen(url).Read() 湯= beautifutsoup(html,features =“ html.parser”) #刪除腳本和样式 對於湯中的腳本([“腳本”,“樣式”)): script.extract() #提取文字 text = soup.get_text() #轉換線路休息並刪除空格 lines =(line.strip()for text.splitlines())中的行 chunks =(thrase.strip()用於行中的行中的行中的線條。 text ='\ n'.join(如果塊,則在塊中的塊) print(text)
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3