使用 Jsoup 将 HTML 转换为纯文本时如何保留换行符？

首页 > 编程 > 使用 Jsoup 将 HTML 转换为纯文本时如何保留换行符？

使用 Jsoup 将 HTML 转换为纯文本时如何保留换行符？

发布于2024-11-07

How Can I Preserve Line Breaks When Converting HTML to Plain Text with Jsoup?

使用 Jsoup 的 Html 到纯文本转换保留换行符

Jsoup 提供了强大的 HTML 操作工具，但其默认从 HTML 到纯文本的转换文本可以合并换行符，将它们呈现为连续文本。要保留这些换行符，请按以下方式使用 Jsoup：

用于保留换行符的自定义函数：

提供的 Java 代码片段引入了一个自定义函数 noTags，它利用 Jsoup 的 text()从输入 HTML 中去除 HTML 标签的方法。但是，它不维护换行符。

增强全文本提取功能：

Jsoup 的 JsonNode 类提供了 getWholeText() 方法，该方法可以在考虑换行符的同时提取文本内容。使用这种方法，可以改进 noTags 功能：

public String noTags(String str) {
    return Jsoup.parse(str).wholeText();
}

实现换行符保留：

有关保留换行符的更精细的解决方案：

public static String br2nl(String html) {
    if (html == null)
        return html;
    Document document = Jsoup.parse(html);
    // Suppress pretty printing to preserve line breaks and spacing
    document.outputSettings(new Document.OutputSettings().prettyPrint(false));
    // Append line breaks for 
 tags
    document.select("br").append("\\n");
    // Prepend line breaks for  tags
    document.select("p").prepend("\\n\\n");
    String s = document.html().replaceAll("\\\\n", "\n");
    return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
}

此自定义函数可确保保留换行符，与所需的输出对齐。它满足两个关键要求：

保留原始换行符 (\n)。
和
标记被转换为换行符 (\n)。

最新教程更多>

对象拟合：IE和Edge中的封面失败，如何修复？
To resolve this issue, we employ a clever CSS solution that solves the problem:position: absolute;top: 50%;left: 50%;transform: translate(-50%, -50％）...

编程发布于2025-03-12
HTML格式标签
HTML 格式化元素 **HTML Formatting is a process of formatting text for better look and feel. HTML provides us ability to format text without us...

编程发布于2025-03-12
$如何修复\“常规错误：2006 MySQL Server在插入数据时已经消失\”？$
如何修复\“常规错误：2006 MySQL Server在插入数据时已经消失\”？
How to Resolve "General error: 2006 MySQL server has gone away" While Inserting RecordsIntroduction:Inserting data into a MySQL database can...

编程发布于2025-03-12
如何检查对象是否具有Python中的特定属性？
方法来确定对象属性存在寻求一种方法来验证对象中特定属性的存在。考虑以下示例，其中尝试访问不确定属性会引起错误： >>> a = someClass（） >>> A.property Trackback（最近的最新电话）：文件“ ”，第1行， AttributeError: SomeClass...

编程发布于2025-03-12
C# POP3邮件读取：Unicode支持完整指南
使用C#和POP3协议读取电子邮件问题：如何使用C#读取电子邮件？背景：我需要使用C# 2.0。我目前使用的解决方案并不理想，因为它不支持Unicode电子邮件。答案：一个可靠的解决方案是使用OpenPop.NET库。以下是使用方法：安装库：使用NuGet，运行以下命令： Ins...

编程发布于2025-03-12
为什么不使用CSS`content'属性显示图像？
在Firefox extemers属性为某些图像很大，&& && && &&华倍华倍[华氏华倍华氏度]很少见，却是某些浏览属性很少，尤其是特定于Firefox的某些浏览器未能在使用内容属性引用时未能显示图像的情况。这可以在提供的CSS类中看到：。googlepic { 内容：url（&#...

编程发布于2025-03-12
$哪种方法更有效地用于点 - 填点检测：射线跟踪或matplotlib \的路径contains_points？$
哪种方法更有效地用于点 - 填点检测：射线跟踪或matplotlib \的路径contains_points？
在Python Matplotlib's path.contains_points FunctionMatplotlib's path.contains_points function employs a path object to represent the polygon.它...

编程发布于2025-03-12
如何在整个HTML文档中设计特定元素类型的第一个实例？

编程发布于2025-03-12
如何为PostgreSQL中的每个唯一标识符有效地检索最后一行？
postgresql：为每个唯一标识符在postgresql中提取最后一行，您可能需要遇到与数据集合中每个不同标识的信息相关的信息。考虑以下数据：[ 1 2014-02-01 kjkj 在数据集中的每个唯一ID中检索最后一行的信息，您可以在操作员上使用Postgres的有效效率： id dat...

编程发布于2025-03-12
如何从Google API中检索最新的jQuery库？
从Google APIS 问题中提供的jQuery URL是版本1.2.6。对于检索最新版本，以前有一种使用特定版本编号的替代方法，它是使用以下语法：获取最新版本：未压缩）While these legacy URLs still remain in use, it is recommended ...

编程发布于2025-03-12
如何从Python中的字符串中删除表情符号：固定常见错误的初学者指南？
从python import codecs import codecs import codecs 导入 text = codecs.decode（'这狗\ u0001f602'.encode（'utf-8'），'utf-8'）印刷（文字）＃带有...

编程发布于2025-03-12
反应基础〜单位测试/异步测试
当我测试ASYNC操作时，我在测试代码中使用异步/等待。我需要为测试数据做准备。在这种情况下，我使用JSON服务器。・模拟/db.json { “用户”：[ { “ id”：1， “名称”：“ foo” } 这是给出的 } [2 “脚本”...

编程发布于2025-03-12
为什么我的CSS背景图像出现？
故障排除：CSS背景图像未出现，您的背景图像尽管遵循教程说明，但您的背景图像仍未加载。图像和样式表位于相同的目录中，但背景仍然是空白的白色帆布。而不是不弃用的，您已经使用了CSS样式： bockent {背景：封闭图像文件名：背景图：url（nickcage.jpg）; 如果您的html，css...

编程发布于2025-03-12
为什么使用固定定位时，为什么具有100％网格板柱的网格超越身体？
网格超过身体，用100％grid-template-columns 为什么在grid-template-colms中具有100％的显示器，当位置设置为设置的位置时，grid-template-colly修复了？问题：考虑以下CSS和html： class =“ snippet-code”> g...

编程发布于2025-03-12
如何使用Regex在PHP中有效地提取括号内的文本
php：在括号内提取文本在处理括号内的文本时，找到最有效的解决方案是必不可少的。一种方法是利用PHP的字符串操作函数，如下所示：作为替代 $ text ='忽略除此之外的一切（text）'; preg_match（'＃（（。 &&& [Regex使用模式来搜索特...

编程发布于2025-03-12