使用 Jsoup 將 HTML 轉換為純文字時如何保留換行符號？

首頁 > 程式設計 > 使用 Jsoup 將 HTML 轉換為純文字時如何保留換行符號？

使用 Jsoup 將 HTML 轉換為純文字時如何保留換行符號？

發佈於2024-11-07

How Can I Preserve Line Breaks When Converting HTML to Plain Text with Jsoup?

使用Jsoup 的Html 到純文字轉換保留換行符

Jsoup 提供了強大的HTML 操作工具，但其預設從HTML 到純文字的轉換文字可以合併換行符，將它們呈現為連續文字。要保留這些換行符，請按以下方式使用Jsoup：

用於保留換行符的自訂函數：

提供的Java 程式碼片段引入了一個自訂函數noTags，它利用Jsoup 的text()從輸入HTML 中移除HTML 標籤的方法。但是，它不維護換行符。

增強全文本提取功能：

Jsoup 的 JsonNode 類別提供了 getWholeText() 方法，該方法可以在考慮換行符的同時提取文字內容。使用這種方法，可以改進 noTags 功能：

public String noTags(String str) {
    return Jsoup.parse(str).wholeText();
}

實作換行符保留：

有關保留換行符的更精細的解決方案：

public static String br2nl(String html) {
    if (html == null)
        return html;
    Document document = Jsoup.parse(html);
    // Suppress pretty printing to preserve line breaks and spacing
    document.outputSettings(new Document.OutputSettings().prettyPrint(false));
    // Append line breaks for 
 tags
    document.select("br").append("\\n");
    // Prepend line breaks for  tags
    document.select("p").prepend("\\n\\n");
    String s = document.html().replaceAll("\\\\n", "\n");
    return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
}

此自訂函數可確保保留換行符，與所需的輸出對齊。它滿足兩個關鍵要求：

保留原始換行符號 (\n)。
和
標記被轉換為換行符號 (\n)。

最新教學更多>

如何在Chrome中居中選擇框文本？
選擇框的文本對齊：局部chrome-inly-ly-ly-lyly solument 您可能希望將文本中心集中在選擇框中，以獲取優化的原因或提高可訪問性。但是，在CSS中的選擇元素中手動添加一個文本 - 對屬性可能無法正常工作。初始嘗試 state）</option> < o...

程式設計發佈於2025-07-13
為什麼Microsoft Visual C ++無法正確實現兩台模板的實例？
在Microsoft Visual C 中，Microsoft consions用戶strate strate strate strate strate strate strate strate strate strate strate strate strate strate strate st...

程式設計發佈於2025-07-13
如何使用Depimal.parse（）中的指數表示法中的數字？
在嘗試使用Decimal.parse（“ 1.2345e-02”中的指數符號表示法表示的字符串時，您可能會遇到錯誤。這是因為默認解析方法無法識別指數符號。成功解析這樣的字符串，您需要明確指定它代表浮點數。您可以使用numbersTyles.Float樣式進行此操作，如下所示：[&& && && ...

程式設計發佈於2025-07-13
$為什麼在我的Linux服務器上安裝Archive_Zip後，我找不到“ class \” class \'ziparchive \'錯誤？$
為什麼在我的Linux服務器上安裝Archive_Zip後，我找不到“ class \” class \'ziparchive \'錯誤？
Class 'ZipArchive' Not Found Error While Installing Archive_Zip on Linux ServerSymptom:When attempting to run a script that utilizes the ZipAr...

程式設計發佈於2025-07-13
如何高效地在一個事務中插入數據到多個MySQL表？
mySQL插入到多個表中，該數據可能會產生意外的結果。雖然似乎有多個查詢可以解決問題，但將從用戶表的自動信息ID與配置文件表的手動用戶ID相關聯提出了挑戰。使用Transactions和last_insert_id（）插入用戶（用戶名，密碼）值（'test'，'tes...

程式設計發佈於2025-07-13
C++20 Consteval函數中模板參數能否依賴於函數參數？
[ consteval函數和模板參數依賴於函數參數在C 17中，模板參數不能依賴一個函數參數，因為編譯器仍然需要對非contexexpr futcoriations contim at contexpr function進行評估。 compile time。 C 20引入恆定函數，必須在編譯時進...

程式設計發佈於2025-07-13
PHP未來：適應與創新
PHP的未來將通過適應新技術趨勢和引入創新特性來實現：1)適應云計算、容器化和微服務架構，支持Docker和Kubernetes；2)引入JIT編譯器和枚舉類型，提升性能和數據處理效率；3)持續優化性能和推廣最佳實踐。引言在編程世界中，PHP一直是網頁開發的中流砥柱。作為一個從1994年就開始發展...

程式設計發佈於2025-07-13
如何干淨地刪除匿名JavaScript事件處理程序？
刪除匿名事件偵聽器將匿名事件偵聽器添加到元素中會提供靈活性和簡單性，但是當要刪除它們時，可以構成挑戰，而無需替換元素本身就可以替換一個問題。 element？ element.addeventlistener（event，function（）{/在這里工作/}，false）; 要解決此問題，請考...

程式設計發佈於2025-07-13
為什麼我會收到MySQL錯誤＃1089：錯誤的前綴密鑰？
mySQL錯誤＃1089：錯誤的前綴鍵錯誤descript [＃1089-不正確的前綴鍵在嘗試在表中創建一個prefix鍵時會出現。前綴鍵旨在索引字符串列的特定前綴長度長度，可以更快地搜索這些前綴。了解prefix keys `這將在整個Movie_ID列上創建標準主鍵。主密鑰對於唯一識...

程式設計發佈於2025-07-13
$在Ubuntu/linux上安裝mysql-python時，如何修復\“ mysql_config \”錯誤？$
在Ubuntu/linux上安裝mysql-python時，如何修復\“ mysql_config \”錯誤？
mysql-python安裝錯誤：“ mysql_config找不到”“ 由於缺少MySQL開發庫而出現此錯誤。解決此問題，建議在Ubuntu上使用該分發的存儲庫。使用以下命令安裝Python-MysqldB： sudo apt-get安裝python-mysqldb sudo pip in...

程式設計發佈於2025-07-13
如何克服PHP的功能重新定義限制？
克服PHP的函數重新定義限制在PHP中，多次定義一個相同名稱的函數是一個no-no。嘗試這樣做，如提供的代碼段所示，將導致可怕的“不能重新列出”錯誤。但是，PHP工具腰帶中有一個隱藏的寶石：runkit擴展。它使您能夠靈活地重新定義函數。 runkit_function_renction_...

程式設計發佈於2025-07-13
在Python中如何創建動態變量？
在Python 中，動態創建變量的功能可以是一種強大的工具，尤其是在使用複雜的數據結構或算法時，Dynamic Variable Creation的動態變量創建。 Python提供了幾種創造性的方法來實現這一目標。利用dictionaries 一種有效的方法是利用字典。字典允許您動態創建密鑰並...

程式設計發佈於2025-07-13
如何使用PHP從XML文件中有效地檢索屬性值？
從php $xml = simplexml_load_file($file); foreach ($xml->Var[0]->attributes() as $attributeName => $attributeValue) { echo $attributeName,...

程式設計發佈於2025-07-13
CSS可以根據任何屬性值來定位HTML元素嗎？
靶向html元素，在CSS 中使用任何屬性值，在CSS中，可以基於特定屬性（如下所示）基於特定屬性的基於特定屬性的emants目標元素：字體家庭：康斯拉斯（Consolas）； } 但是，出現一個常見的問題：元素可以根據任何屬性值而定位嗎？本文探討了此主題。的目標元素有任何任何屬性值，...

程式設計發佈於2025-07-13
可以在純CS中將多個粘性元素彼此堆疊在一起嗎？
[2这里： https：//webthemez.com/demo/sticky-multi-header-scroll/index.html </main> <section> { display：grid; grid-template-...

程式設計發佈於2025-07-13