"Si un ouvrier veut bien faire son travail, il doit d'abord affûter ses outils." - Confucius, "Les Entretiens de Confucius. Lu Linggong"
Page de garde > La programmation > Comment capturer des blocs de texte multilignes avec des expressions régulières ?

Comment capturer des blocs de texte multilignes avec des expressions régulières ?

Publié le 2024-11-03
Parcourir:447

How to Capture Multiline Text Blocks with Regular Expressions?

Expression régulière pour faire correspondre des blocs de texte multilignes

La correspondance de texte qui s'étend sur plusieurs lignes peut présenter des défis dans la construction d'expressions régulières. Prenons l'exemple de texte suivant :

some Varying TEXT

DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF
[more of the above, ending with a newline]
[yep, there is a variable number of lines here]

(repeat the above a few hundred times)

L'objectif est de capturer deux composants : la partie « du TEXTE variable » et toutes les lignes suivantes de texte en majuscule, à l'exclusion de la ligne vide.

Approches incorrectes :

Certaines approches incorrectes pour résoudre ce problème incluent :

  • Utilisation des ancres ^ et $ pour faire correspondre les sauts de ligne. En mode multiligne, ^ correspond aux positions suivant les nouvelles lignes et $ correspond aux positions précédant les nouvelles lignes.
  • Utilisation du modificateur DOTALL pour tout faire correspondre, ce qui est inutile puisque le point (.) correspond à tout sauf les nouvelles lignes.

Solution :

L'expression régulière suivante capture correctement les composants souhaités :

^(. )\n((?:\n. ) )

Voici une répartition de ses composants :

  • ^ correspond au début de la ligne.
  • (. ) capture la partie "certains TEXTES variables" dans le groupe 1.
  • \n correspond à un caractère de nouvelle ligne.
  • ((?:\n. ) ) capture toutes les lignes suivantes de texte en majuscule dans le groupe 2. La construction de groupe ?: sans capture empêche ces lignes de étant capturés en tant que groupes individuels.
  • L'opérateur de répétition garantit qu'au moins une ligne de texte en majuscule est présente.

Utilisation :

Pour utiliser cette expression régulière en Python, vous pouvez utiliser le code suivant :

import re

pattern = re.compile(r"^(. )\n((?:\n. ) )", re.MULTILINE)

Vous pouvez ensuite utiliser la méthode match() pour rechercher des correspondances dans une chaîne :

match = pattern.match(text)
if match:
    text1 = match.group(1)
    text2 = match.group(2)
Dernier tutoriel Plus>

Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.

Copyright© 2022 湘ICP备2022001581号-3