"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > 파이썬에서 HTML에서 깨끗한 텍스트를 효율적으로 추출하려면 어떻게해야합니까?

파이썬에서 HTML에서 깨끗한 텍스트를 효율적으로 추출하려면 어떻게해야합니까?

2025-03-04에 게시되었습니다
검색:907

How Can I Efficiently Extract Clean Text from HTML in Python?

도전

일반 표현식은 제대로 형성되지 않은 HTML에 대해 충분히 강력하지 않습니다. 아름다운 수프는 종종 권장되지만 JavaScript와 같은 원치 않는 콘텐츠를 선택하고 HTML 엔티티를 해석하지 못할 수 있습니다. 그러나 문서와 예제는 제한적입니다.

텍스트 추출을위한 최적 코드

아래 코드는 원치 않는 요소를 걸러 내고 HTML 엔티티를 보존하는 효과적인 솔루션을 제공합니다. BS4 Import BeautifulSoup에서 url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen (url) .read () 수프 = BeautifulSoup (html, feature = "html.parser") # 스크립트와 스타일을 제거합니다 수프 스크립트의 경우 () : script.extract () # 텍스트 추출 text = soup.get_text () # 라인 브레이크를 변환하고 공백을 제거합니다 lines = (text.splitlines ()의 line에 대한 line.strip ()) Chunks = (라인의 라인에 라인에 대한 phrase.strip () 라인 .split ( "")) text = '\ n'.join (청크 인 경우 청크의 청크에 대한 청크) print (text)

종속성

이 코드를 사용하려면 다음과 같이 설치해야합니다.

최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3