مطابقة الكتل متعددة الأسطر باستخدام التعبيرات العادية
قد تواجه صعوبات عند المطابقة مع نص يمتد على عدة أسطر باستخدام تعبيرات بايثون العادية. خذ بعين الاعتبار النص النموذجي التالي:
some Varying TEXT DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF [more of the above, ending with a newline] [yep, there is a variable number of lines here] (repeat the above a few hundred times).
الهدف هو التقاط مكونين:
تمت تجربة عدة طرق دون جدوى:
re.compile(r"^>(\w )$$(\n[.$] )^$", re.MULTILINE) # Capture both parts
re.compile(r"([^>][\w\s] )$", re.MULTILINE|re.DOTALL) # Just textlines
لمعالجة هذه المشكلة، استخدم التعبير العادي التالي:
re.compile(r"^(. )\n((?:\n. ) )", re.MULTILINE)
ضع في اعتبارك أن المراسي "^" و "$" لا يتطابق مع خلاصات الأسطر. ومن ثم، في الوضع متعدد الأسطر، يتبع "^" سطرًا جديدًا، ويسبق "$" سطرًا جديدًا.
علاوة على ذلك، انتبه إلى تنسيقات الأسطر الجديدة المختلفة. بالنسبة للنص الذي قد يحتوي على خلاصات أسطر أو إرجاعات للسطر أو كليهما، استخدم هذا التعبير العادي الأكثر شمولاً:
re.compile(r"^(. )(?:\n|\r\n?)((?:(?:\n|\r\n?). ) )", re.MULTILINE)
معدل DOTALL غير ضروري هنا لأن النقطة تستبعد الأسطر الجديدة بالفعل.
تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3