」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 使用 Jsoup 將 HTML 轉換為純文字時如何保留換行符號?

使用 Jsoup 將 HTML 轉換為純文字時如何保留換行符號?

發佈於2024-11-07
瀏覽:659

How Can I Preserve Line Breaks When Converting HTML to Plain Text with Jsoup?

使用Jsoup 的Html 到純文字轉換保留換行符

Jsoup 提供了強大的HTML 操作工具,但其預設從HTML 到純文字的轉換文字可以合併換行符,將它們呈現為連續文字。要保留這些換行符,請按以下方式使用Jsoup:

用於保留換行符的自訂函數:

提供的Java 程式碼片段引入了一個自訂函數noTags,它利用Jsoup 的text()從輸入HTML 中移除HTML 標籤的方法。但是,它不維護換行符。

增強全文本提取功能:

Jsoup 的 JsonNode 類別提供了 getWholeText() 方法,該方法可以在考慮換行符的同時提取文字內容。使用這種方法,可以改進 noTags 功能:

public String noTags(String str) {
    return Jsoup.parse(str).wholeText();
}

實作換行符保留:

有關保留換行符的更精細的解決方案:

public static String br2nl(String html) {
    if (html == null)
        return html;
    Document document = Jsoup.parse(html);
    // Suppress pretty printing to preserve line breaks and spacing
    document.outputSettings(new Document.OutputSettings().prettyPrint(false));
    // Append line breaks for 
tags document.select("br").append("\\n"); // Prepend line breaks for

tags document.select("p").prepend("\\n\\n"); String s = document.html().replaceAll("\\\\n", "\n"); return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false)); }

此自訂函數可確保保留換行符,與所需的輸出對齊。它滿足兩個關鍵要求:

  1. 保留原始換行符號 (\n)。

  2. 標記被轉換為換行符號 (\n)。

最新教學 更多>
  • 使用 Golang 進行身份驗證、授權、MFA 等
    使用 Golang 進行身份驗證、授權、MFA 等
    "Ó o cara falando de autenticação em pleno 2024!" Sim! Vamos explorar como realizar fluxos de autenticação e autorização, e de quebra, entender a dife...
    程式設計 發佈於2024-11-07
  • 什麼是「export default」以及它與「module.exports」有何不同?
    什麼是「export default」以及它與「module.exports」有何不同?
    ES6 的“預設導出”解釋JavaScript 的ES6 模組系統引入了“預設導出”,這是一種定義預設導出的獨特方式。 module.在提供的範例中,檔案SafeString.js 定義了一個SafeString 類,並將其匯出為預設匯出,使用:export default SafeString;此...
    程式設計 發佈於2024-11-07
  • SafeLine 如何透過進階動態保護來保護您的網站
    SafeLine 如何透過進階動態保護來保護您的網站
    SafeLine 由長亭科技在過去十年中開發,是一款最先進的 Web 應用程式防火牆 (WAF),它利用先進的語義分析演算法來提供針對線上威脅的頂級保護。 SafeLine 在專業網路安全圈中享有盛譽並值得信賴,已成為保護網站安全的可靠選擇。 SafeLine 社群版源自企業級 Ray Shiel...
    程式設計 發佈於2024-11-07
  • 在 React 中建立自訂 Hook 的最佳技巧
    在 React 中建立自訂 Hook 的最佳技巧
    React 的自訂 Hooks 是從元件中移除可重複使用功能的有效工具。它們支援程式碼中的 DRY(不要重複)、可維護性和整潔性。但開發有用的自訂鉤子需要牢牢掌握 React 的基本想法和推薦程式。在這篇文章中,我們將討論在 React 中開發自訂鉤子的一些最佳策略,並舉例說明如何有效地應用它們。 ...
    程式設計 發佈於2024-11-07
  • 如何解決 PHPMailer 中的 HTML 渲染問題?
    如何解決 PHPMailer 中的 HTML 渲染問題?
    PHPmailer的HTML渲染問題及其解決方法在PHPmailer中,當嘗試發送HTML格式的電子郵件時,用戶可能會遇到一個意想不到的問題:顯示實際的HTML程式碼在電子郵件正文中而不是預期內容。為了有效地解決這個問題,方法呼叫的特定順序至關重要。 正確的順序包括在呼叫 isHTML() 方法之前...
    程式設計 發佈於2024-11-07
  • 透過 REST API 上的 GraphQL 增強 React 應用程式
    透過 REST API 上的 GraphQL 增強 React 應用程式
    In the rapidly changing world of web development, optimizing and scaling applications is always an issue. React.js had an extraordinary success for fr...
    程式設計 發佈於2024-11-07
  • 為什麼我的登入表單無法連線到我的資料庫?
    為什麼我的登入表單無法連線到我的資料庫?
    登入表單的資料庫連線問題儘管結合使用PHP 和MySQL 以及HTML 和Dreamweaver,您仍無法建立正確的資料庫連線問題。登入表單和資料庫之間的連線。缺少錯誤訊息可能會產生誤導,因為登入嘗試仍然不成功。 連接失敗的原因:資料庫憑證不正確: 確保用於連接資料庫的主機名稱、資料庫名稱、用戶名和...
    程式設計 發佈於2024-11-07
  • 為什麼嵌套絕對定位會導致元素引用其父級而不是祖父母?
    為什麼嵌套絕對定位會導致元素引用其父級而不是祖父母?
    嵌套定位:絕對內的絕對嵌套的絕對定位元素可能會在 CSS 中表現出意想不到的行為。考慮這種情況:第一個div (#1st) 位置:相對第二個div (#2nd) 相對於#1st 絕對定位A第三個div(#3rd)絕對定位在#2nd內問:為什麼#3rd相對於#2nd而不是#1st絕對定位? A: 因為...
    程式設計 發佈於2024-11-07
  • 如何有效率地從字串中剝離特定文字?
    如何有效率地從字串中剝離特定文字?
    高效剝離字串:如何刪除特定文字片段遇到操作字串值的需求是程式設計中的常見任務。經常面臨的一項特殊挑戰是刪除特定文字片段,同時保留特定部分。在本文中,我們將深入研究此問題的實用解決方案。 考慮這樣一個場景,您有一個字串“data-123”,您的目標是消除“data-”前綴,只留下“123”值。為了實現...
    程式設計 發佈於2024-11-07
  • 如何將通訊錄與手機同步?在 Go 中實現 CardDAV!
    如何將通訊錄與手機同步?在 Go 中實現 CardDAV!
    假設您協助管理小型組織或俱樂部,並擁有一個儲存所有會員詳細資料(姓名、電話、電子郵件...)的資料庫。 在您需要的任何地方都可以存取這些最新資訊不是很好嗎?好吧,有了 CardDAV,你就可以! CardDAV 是一個經過良好支援的聯絡人管理開放標準;它在 iOS 聯絡人應用程式和許多適用於 A...
    程式設計 發佈於2024-11-07
  • C/C++ 開發的最佳編譯器警告等級是多少?
    C/C++ 開發的最佳編譯器警告等級是多少?
    C/C 開發的最佳編譯器警告等級編譯器在檢測程式碼中的潛在問題方面發揮著至關重要的作用。透過利用適當的警告級別,您可以儘早識別並解決漏洞或編碼錯誤。本文探討了各種 C/C 編譯器的建議警告級別,以提高程式碼品質。 GCC 和 G 對於 GCC 和 G,廣泛推薦的警告等級是「-牆」。此選項會啟動一組全...
    程式設計 發佈於2024-11-07
  • 如何使用 Vite 和 Axios 在 React 中實現 MUI 檔案上傳:綜合指南
    如何使用 Vite 和 Axios 在 React 中實現 MUI 檔案上傳:綜合指南
    Introduction In modern web applications, file uploads play a vital role, enabling users to upload documents, images, and more, directly to a ...
    程式設計 發佈於2024-11-07
  • 為什麼 `justify-content: center` 不將 Flex 容器中的文字置中?
    為什麼 `justify-content: center` 不將 Flex 容器中的文字置中?
    帶有justify-content 的非居中文本:center在Flex 容器中, justify-content 屬性使Flex 專案水平居中,但是它無法直接控制這些項目中的文字。當文字在專案內換行時,它會保留其預設的 text-align: start 值,從而導致文字不居中。 Flex 容器、...
    程式設計 發佈於2024-11-07
  • 情感人工智慧與人工智慧陪伴:人類與科技關係的未來
    情感人工智慧與人工智慧陪伴:人類與科技關係的未來
    情感人工智能和人工智能陪伴:人类与技术关系的未来 人工智能(AI)不再只是数据分析或自动化的工具。随着情感人工智能的进步,机器不再只是功能助手,而是演变成情感伴侣。利用情商 (EI) 的人工智能陪伴正在改变我们与技术互动的方式,提供情感支持,减少孤独感,甚至增强心理健康。但这些人工智能伴侣在复制人类...
    程式設計 發佈於2024-11-07
  • ## Go 中的空介面:什麼時候它們是個好主意?
    ## Go 中的空介面:什麼時候它們是個好主意?
    Go 中空介面的最佳實踐:注意事項和用例在Go 中,空介面(interface{})是一個強大的工具,它允許抽象不同類型。然而,它們的使用引發了關於最佳實踐以及何時適合使用它們的問題。 空介面的缺點引起的一個擔憂是型別安全性的損失。使用空介面時,編譯器無法在編譯時強制執行類型檢查,導致潛在的執行階段...
    程式設計 發佈於2024-11-07

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3