「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > PythonでHTMLからクリーンテキストを効率的に抽出するにはどうすればよいですか?

PythonでHTMLからクリーンテキストを効率的に抽出するにはどうすればよいですか?

2025-03-04に投稿されました
ブラウズ:393

How Can I Efficiently Extract Clean Text from HTML in Python?

をhtmlからpython

で抽出することは、PythonのHTMLファイルからテキストを抽出することです。編集者。美しいスープはしばしばお勧めしますが、JavaScriptのような不要なコンテンツをピックアップし、HTMLエンティティの解釈に失敗する可能性があります。ただし、そのドキュメントと例は限られています。 BS4からBeautifulSoupをインポートします url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen(url).read() soup = beautifulsoup(html、feature = "html.parser") #スクリプトとスタイルを削除します スープのスクリプトの場合(["スクリプト"、 "スタイル"]): script.extrad() #テキストを抽出します text = soup.get_text() #ラインブレークを変換して、空白を削除します lines =(line.strip()text.splitlines())のlineの場合 chunks =(phrase.strip()line in line.split( "")) text = '\ n'.join(チャンクのチャンクのためのチャンクの場合はチャンクの場合) print(text)

dependency

このコードを使用するには、

pip install beautifulsoup4 でインストールする必要があります。

最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3