”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 如何在剥离标签之前删除顽固的 HTML 特殊字符?

如何在剥离标签之前删除顽固的 HTML 特殊字符?

发布于2024-11-08
浏览:818

How to Remove Stubborn HTML Special Characters Before Stripping Tags?

去除顽固的 HTML 特殊字符

strip_tags 函数虽然擅长删除 HTML 标签,但无法处理讨厌的 HTML 特殊字符,例如用于不间断空格或 © 用于版权符号。这可能是创建干净 RSS 源的绊脚石。

要解决此问题,请考虑使用以下策略之一:

  • HTML 实体解码:在字符串经过 strip_tags 之前,使用 html_entity_decode 将特殊代码转换回原始字符processing.
  • 正则表达式删除: 或者,使用 preg_replace 函数直接从字符串中定位并删除这些字符。以下是完成该任务的示例模式:
$Content = preg_replace("/&#?[a-z0-9]{2,8};/i","",$Content);

请注意,上述模式包括 Jacco 建议的修改,以防止意外替换未编码文本中的真正的与字符 (&)。通过指定字符范围 {2,8},该模式在定位 HTML 特殊代码时更具区分性。

版本声明 本文转载于:1729256054如有侵犯,请联系[email protected]删除
最新教程 更多>

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3