"إذا أراد العامل أن يؤدي عمله بشكل جيد، فعليه أولاً أن يشحذ أدواته." - كونفوشيوس، "مختارات كونفوشيوس. لو لينجونج"
الصفحة الأمامية > برمجة > كيفية إزالة \xa0 مسافات غير منقسمة من النص في بايثون؟

كيفية إزالة \xa0 مسافات غير منقسمة من النص في بايثون؟

تم النشر بتاريخ 2024-11-11
تصفح:713

How to Remove \xa0 Non-Breaking Spaces from Text in Python?

تصحيح أخطاء Unicode في Python: إزالة \xa0 مسافات غير منقسمة

عند تحليل HTML مع Beautiful Soup والوصول إلى محتويات النص (باستخدام get_text ())، من الشائع العثور على حرف Unicode ‎\xa0، الذي يمثل مسافات غير منقسمة. لإزالة هذه المسافات بشكل فعال واستبدالها بمسافات عادية في Python 2.7، اتبع الخطوات التالية:

  1. استيراد وحدة بيانات unicodedata:

    import unicodedata
  2. استخدم unicodedata.normalize () لإزالة تنسيق Unicode:

    text = unicodedata.normalize('NFKD', text)
    ]
  3. استبدل المسافات غير المنفصلة بمسافات عادية:
  4. text = text.replace(u'\ xa0', ' ')
    text = text.replace(u'\xa0', ' ')
فهم العملية

\xa0 هي حرف Unicode يمثل مسافة غير منقسمة في Latin1 (ISO 8859-1). لإزالة هذه الأحرف الخاصة وتحويلها إلى مسافات عادية، من الضروري استخدام وحدة unicodedata.

unicodedata.normalize() تعمل على تسوية سلسلة Unicode، وتجريدها من أي تنسيق خاص.
  • تقوم الدالة الاستبدال () بعد ذلك باستبدال كافة تكرارات حرف Unicode \xa0 بحرف المسافة العادية (' ').
  • من خلال الجمع بين هذه بهذه الخطوات، يمكنك إزالة المسافات غير المنفصلة \xa0 بشكل فعال من السلاسل في Python 2.7 والحفاظ على التباعد المطلوب.
أحدث البرنامج التعليمي أكثر>

تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.

Copyright© 2022 湘ICP备2022001581号-3