「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > HTML タグからコンテンツを抽出するときに、正規表現で改行文字を照合するにはどうすればよいですか?

HTML タグからコンテンツを抽出するときに、正規表現で改行文字を照合するにはどうすればよいですか?

2024 年 11 月 21 日に公開
ブラウズ:865

How Can I Match Newline Characters in Regex When Extracting Content from HTML Tags?

改行文字と DOTALL Regex 修飾子を一致させる

HTML div タグで囲まれた通常の文字、空白、改行を含む文字列を操作する場合、目標は、正規表現を使用して

の間のコンテンツを抽出することです。標準の .* メタ文字が改行と一致しない場合に一般的な問題が発生します。

これを克服するには、DOTALL 修飾子 (/s) を使用する必要があります。この修飾子は、ドット文字 (正規表現の .) が改行を含むすべての文字と一致することを保証します。この修飾子を正規表現に組み込むことで、div タグ内のコンテンツを正確にキャプチャできるようになります:

'/
(.*)/s'

ただし、このアプローチでは貪欲な一致が発生する可能性があります。これに対処するには、非貪欲一致を使用することをお勧めします:

'/
(.*?)/s'

代わりに、

'/
([^

/ 以外の文字を正規表現区切り文字として使用すると、パフォーマンスが向上する可能性があることに注意してください。可読性が向上し、

で / をエスケープする必要がなくなります。 # を区切り文字として使用する例を次に示します。
'#
([^

これらの解決策は単純な場合には十分かもしれませんが、 HTML は複雑であり、正規表現解析だけでは十分ではない可能性があることを認識することが重要です。包括的で信頼性の高い解析を確実に行うには、専用の HTML パーサーの使用を検討することをお勧めします。

最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3