도전
일반 표현식은 제대로 형성되지 않은 HTML에 대해 충분히 강력하지 않습니다. 아름다운 수프는 종종 권장되지만 JavaScript와 같은 원치 않는 콘텐츠를 선택하고 HTML 엔티티를 해석하지 못할 수 있습니다. 그러나 문서와 예제는 제한적입니다.
텍스트 추출을위한 최적 코드
아래 코드는 원치 않는 요소를 걸러 내고 HTML 엔티티를 보존하는 효과적인 솔루션을 제공합니다. BS4 Import BeautifulSoup에서 url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen (url) .read () 수프 = BeautifulSoup (html, feature = "html.parser") # 스크립트와 스타일을 제거합니다 수프 스크립트의 경우 () : script.extract () # 텍스트 추출 text = soup.get_text () # 라인 브레이크를 변환하고 공백을 제거합니다 lines = (text.splitlines ()의 line에 대한 line.strip ()) Chunks = (라인의 라인에 라인에 대한 phrase.strip () 라인 .split ( "")) text = '\ n'.join (청크 인 경우 청크의 청크에 대한 청크) print (text)
종속성
이 코드를 사용하려면 다음과 같이 설치해야합니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3