htmlタグをpythonで削除するために、html応答を操作することがよくあると、html応答を操作することがしばしば抽出され、形式のタグを排除します。これは、HTMLタグを効果的に剥がし、目的のプレーンテキストを残すことで実現できます。 mlstripperはHTML入力を取り、それを解析し、非マークアップコンテンツのみを保持します。 3:
からIOインポートStringioから html.parserからインポートhtmlparserから クラスmlstripper(htmlparser): def __init __(self): super().__ init __() self.reset() self.strict = false self.convert_charrefs = true self.text = stringio() def handle_data(self、d): self.text.write(d) def get_data(self): self.text.getValue()を返します def strip_tags(html): s = mlstripper() S.Feed(HTML) return s.get_data()
python 2:
uesage: [&&&&&&&&& html入力を文字列引数として渡すsprip_tags関数を呼び出すだけです。返された値は、すべてのHTMLタグが削除された剥がれた文字列になります。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3