"إذا أراد العامل أن يؤدي عمله بشكل جيد، فعليه أولاً أن يشحذ أدواته." - كونفوشيوس، "مختارات كونفوشيوس. لو لينجونج"
الصفحة الأمامية > برمجة > كيف يمكنني استخراج نص نظيف بكفاءة من HTML في بيثون؟

كيف يمكنني استخراج نص نظيف بكفاءة من HTML في بيثون؟

نشر في 2025-03-04
تصفح:838

How Can I Efficiently Extract Clean Text from HTML in Python?

محرر. على الرغم من أن الحساء الجميل يوصى به في كثير من الأحيان ، إلا أنه يمكن أن يلتقط محتوى غير مرغوب فيه مثل JavaScript ويفشل في تفسير كيانات HTML. ومع ذلك ، فإن وثائقها وأمثلةها محدودة.

من BS4 استيراد جميلة url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen (url) .read () الحساء = جميل (HTML ، ميزات = "html.parser") # قم بإزالة البرامج النصية والأنماط للنص في الحساء (["نص" ، "نمط"]): script.extract () # استخراج النص النص = soup.get_text () # تحويل الفواصل بين السطر وإزالة المسافة البيضاء الخطوط = (line.strip () للخط في text.splitlines ()) kunks = (phrase.strip () للخط في خطوط العبارة في السطر. split ("")) text = '\ n'.join (قطعة للقطعة في قطع إذا قطعة) print (text)

التبعية

لاستخدام هذا الرمز ، ستحتاج إلى تثبيت جميل مع:

أحدث البرنامج التعليمي أكثر>

تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.

Copyright© 2022 湘ICP备2022001581号-3