「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > Jsoup を使用して HTML をプレーン テキストに変換するときに改行を保持するにはどうすればよいですか?

Jsoup を使用して HTML をプレーン テキストに変換するときに改行を保持するにはどうすればよいですか?

2024 年 11 月 7 日に公開
ブラウズ:330

How Can I Preserve Line Breaks When Converting HTML to Plain Text with Jsoup?

Jsoup の HTML からプレーン テキストへの変換で改行を保持する

Jsoup は HTML を操作するための強力なツールを提供しますが、デフォルトでは HTML からプレーン テキストへの変換が行われます。テキストは改行を結合して連続テキストとしてレンダリングできます。これらの区切りを保持するために、Jsoup を利用する方法は次のとおりです:

改行保持のためのカスタム関数:

提供された Java コード スニペットでは、Jsoup の text() を活用するカスタム関数 noTags が導入されています。入力 HTML から HTML タグを削除するメソッド。ただし、改行は維持されません。

テキスト全体抽出による機能の強化:

Jsoup の JsonNode クラスは、改行を尊重しながらテキスト コンテンツを抽出する getWholeText() メソッドを提供します。このメソッドを使用すると、noTags 関数を改善できます。

public String noTags(String str) {
    return Jsoup.parse(str).wholeText();
}

改行保持の実装:

改行を保持するより洗練されたソリューションについては:

public static String br2nl(String html) {
    if (html == null)
        return html;
    Document document = Jsoup.parse(html);
    // Suppress pretty printing to preserve line breaks and spacing
    document.outputSettings(new Document.OutputSettings().prettyPrint(false));
    // Append line breaks for 
tags document.select("br").append("\\n"); // Prepend line breaks for

tags document.select("p").prepend("\\n\\n"); String s = document.html().replaceAll("\\\\n", "\n"); return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false)); }

このカスタム関数は、改行が確実に保持され、目的の出力に合わせて配置されます。これは 2 つの重要な要件を満たしています:

  1. 元の改行 (\n) は保持されます。

  2. タグと

    タグは改行 (\n) に変換されます。

最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3