كيف يتم استخدام الحساء الجميل لاستخراج البيانات من شبكة الويب العامة

الصفحة الأمامية > برمجة > كيف يتم استخدام الحساء الجميل لاستخراج البيانات من شبكة الويب العامة

كيف يتم استخدام الحساء الجميل لاستخراج البيانات من شبكة الويب العامة

تم النشر بتاريخ 2024-08-01

تصفح:253

How Beautiful Soup is used to extract data out of the Public Web

Beautiful Soup هي مكتبة Python تستخدم لاستخراج البيانات من صفحات الويب. يقوم بإنشاء شجرة تحليل لتحليل مستندات HTML وXML، مما يجعل من السهل استخراج المعلومات المطلوبة.

يوفر برنامج Beautiful Soup العديد من الوظائف الأساسية لتجريد الويب:

التنقل في شجرة التحليل: يمكنك التنقل بسهولة في شجرة التحليل والبحث عن العناصر والعلامات والسمات.
تعديل شجرة التحليل: تسمح لك بتعديل شجرة التحليل، بما في ذلك إضافة وإزالة وتحديث العلامات والسمات.
تنسيق الإخراج: يمكنك تحويل شجرة التحليل مرة أخرى إلى سلسلة، مما يجعل من السهل حفظ المحتوى المعدل.

لاستخدام Beautiful Soup، تحتاج إلى تثبيت المكتبة مع محلل مثل lxml أو html.parser. يمكنك تثبيتها باستخدام النقطة

#Install Beautiful Soup using pip.
pip install beautifulsoup4 lxml

التعامل مع ترقيم الصفحات

عند التعامل مع مواقع الويب التي تعرض المحتوى عبر صفحات متعددة، يعد التعامل مع ترقيم الصفحات أمرًا ضروريًا لاستخراج جميع البيانات.

تحديد بنية ترقيم الصفحات: افحص موقع الويب لفهم كيفية تنظيم ترقيم الصفحات (على سبيل المثال، زر الصفحة التالية أو الروابط المرقمة).
التكرار عبر الصفحات: استخدم حلقة للتكرار خلال كل صفحة واستخراج البيانات.
تحديث عنوان URL أو المعلمات: تعديل عنوان URL أو المعلمات لجلب محتوى الصفحة التالية.

import requests
from bs4 import BeautifulSoup

base_url = 'https://example-blog.com/page/'
page_number = 1
all_titles = []

while True:
    # Construct the URL for the current page
    url = f'{base_url}{page_number}'
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Find all article titles on the current page
    titles = soup.find_all('h2', class_='article-title')
    if not titles:
        break  # Exit the loop if no titles are found (end of pagination)

    # Extract and store the titles
    for title in titles:
        all_titles.append(title.get_text())

    # Move to the next page
    page_number  = 1

# Print all collected titles
for title in all_titles:
    print(title)

استخراج البيانات المتداخلة

في بعض الأحيان، تكون البيانات التي تحتاج إلى استخراجها متداخلة ضمن طبقات متعددة من العلامات. وإليك كيفية التعامل مع استخراج البيانات المتداخلة.

انتقل إلى العلامات الأصلية: ابحث عن العلامات الأصلية التي تحتوي على البيانات المتداخلة.
استخراج العلامات المتداخلة: داخل كل علامة أصل، ابحث عن العلامات المتداخلة واستخرجها.
التكرار من خلال العلامات المتداخلة: التكرار من خلال العلامات المتداخلة لاستخراج المعلومات المطلوبة.

import requests
from bs4 import BeautifulSoup

url = 'https://example-blog.com/post/123'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Find the comments section
comments_section = soup.find('div', class_='comments')

# Extract individual comments
comments = comments_section.find_all('div', class_='comment')

for comment in comments:
    # Extract author and content from each comment
    author = comment.find('span', class_='author').get_text()
    content = comment.find('p', class_='content').get_text()
    print(f'Author: {author}\nContent: {content}\n')

التعامل مع طلبات أجاكس

تستخدم العديد من مواقع الويب الحديثة AJAX لتحميل البيانات ديناميكيًا. يتطلب التعامل مع AJAX تقنيات مختلفة، مثل مراقبة طلبات الشبكة باستخدام أدوات مطور المتصفح وتكرار تلك الطلبات في مكشطة البيانات الخاصة بك.

import requests
from bs4 import BeautifulSoup

# URL to the API endpoint providing the AJAX data
ajax_url = 'https://example.com/api/data?page=1'
response = requests.get(ajax_url)
data = response.json()

# Extract and print data from the JSON response
for item in data['results']:
    print(item['field1'], item['field2'])

مخاطر تجريف الويب

يتطلب تجريف الويب دراسة متأنية للمخاطر القانونية والفنية والأخلاقية. ومن خلال تنفيذ الضمانات المناسبة، يمكنك التخفيف من هذه المخاطر وإجراء عمليات تجريف الويب بشكل مسؤول وفعال.

انتهاكات شروط الخدمة: تحظر العديد من مواقع الويب صراحةً الحذف في شروط الخدمة (ToS) الخاصة بها. قد يؤدي انتهاك هذه الشروط إلى اتخاذ إجراءات قانونية.
قضايا الملكية الفكرية: قد يؤدي نسخ المحتوى دون إذن إلى انتهاك حقوق الملكية الفكرية، مما يؤدي إلى نزاعات قانونية.
حظر IP: قد تكتشف مواقع الويب وتحظر عناوين IP التي تظهر سلوك التجريد.
حظر الحساب: إذا تم تنفيذ عملية الاستخلاص على مواقع الويب التي تتطلب مصادقة المستخدم، فقد يتم حظر الحساب المستخدم في عملية الاستخلاص.

Beautiful Soup هي مكتبة قوية تعمل على تبسيط عملية تجريف الويب من خلال توفير واجهة سهلة الاستخدام للتنقل والبحث في مستندات HTML وXML. يمكنه التعامل مع مهام التحليل المختلفة، مما يجعله أداة أساسية لأي شخص يتطلع إلى استخراج البيانات من الويب.

بيان الافراج تم إعادة إنتاج هذه المقالة على: https://dev.to/marcosconci/how-beautiful-soup-is-used-to-extract-data-out-of-the-public-web-51gg?1 إذا كان هناك أي انتهاك يرجى الاتصال بـ Study_golang @163.comdelete

أحدث البرنامج التعليمي أكثر>

Python قراءة ملف CSV UnicodedEcodeerror الحل النهائي
لا يمكن فك تشفير البايت في الموضع 2-3: مقطوع \ uxxxxxxxxx escart string قم بتعبئة المسار إلى ملف CSV مع وضع صغير "r" للدلالة على سل...

برمجة نشر في 2025-07-13
كيفية تحويل المناطق الزمنية بكفاءة في PHP؟
تحويل فعال للحيوانات الزمنية في php في PHP ، يمكن أن تكون المناطق الزمنية مهمة مباشرة. سيوفر هذا الدليل طريقة سهلة التنفيذ لتحويل التواريخ والأو...

برمجة نشر في 2025-07-13
دليل إنشاء صفحة Fastapi مخصص 404
تعتمد الطريقة المناسبة على متطلباتك المحددة. call_next (طلب) إذا كان الاستجابة. status_code == 404: إرجاع RedirectResponse ("https://fasta...

برمجة نشر في 2025-07-13
تعرض `console.log` سبب استثناء قيمة الكائن المعدل
دعنا نكشف هذا اللغز عن طريق تحليل مقتطف الرمز هذا: console.log ('foo1' ، foo ، foo.length) ؛ foo.splice (2 ، 1) ؛ console.log ('foo2&...

برمجة نشر في 2025-07-13
لماذا لا يمكن لـ HTML طباعة أرقام وحلول الصفحات
لا يمكن طباعة أرقام الصفحات على صفحات html؟ المستخدمة: @page { الهامش: 10 ٪ ؛ @العلوي مركز { Font-Family: Sans-Serif ؛ خط الرصيف: ...

برمجة نشر في 2025-07-13
لماذا أحصل على خطأ "لا يمكنني العثور على تنفيذ نمط الاستعلام" في استعلام Silverlight LINQ الخاص بي؟
يحدث هذا الخطأ عادةً عندما يتم حذف مساحة اسم LINQ أو يفتقر إلى النوع الذي تم الاستعلام عن تطبيقه . في هذه الحالة المحددة ، قد يتطلب tblpersoon الت...

برمجة نشر في 2025-07-13
كيفية إعادة توجيه أنواع متعددة للمستخدمين (الطلاب والمعلمين والمسؤولين) إلى أنشطتهم في تطبيق Firebase؟
تسجيل الدخول. يدير الكود الحالي بنجاح إعادة التوجيه لنوعين للمستخدمين ، ولكنه يواجه تحديات عند محاولة دمج النوع الثالث (المسؤول). يخطط المخطط الأص...

برمجة نشر في 2025-07-13
أسباب وحلول لفشل الكشف عن الوجه: خطأ -215
في الوظيفة detectmultiscale. " عادةً ما ينشأ هذا الخطأ عندما يتم تحميل مصنف Cascade للوجه ، وهو مكون حاسم للكشف عن الوجه ، بشكل صحيح. في مقتط...

برمجة نشر في 2025-07-13
كيف تستخدم بشكل صحيح مثل الاستعلامات مع معلمات PDO؟
استخدام مثل الاستعلامات في pdo عند محاولة تنفيذ الاستفسارات في pdo ، قد تواجه مشكلات مثل تلك الموصوفة في الاستعلام أدناه: $ params = array ($ ...

برمجة نشر في 2025-07-13
كيفية إزالة الرموز التعبيرية من الأوتار في بيثون: دليل المبتدئين لتثبيت الأخطاء الشائعة؟
إزالة الرموز التعبيرية من سلاسل في python يجب تعيين سلاسل Unicode باستخدام بادئة U '' على Python 2. بالإضافة إلى ذلك ، يجب تمرير علامة ...

برمجة نشر في 2025-07-13
لماذا لا تزال الصور لديها حدود في الكروم؟ `الحدود: لا شيء ؛` حل غير صالح
إزالة حدود الصورة باللغة الكروم و "الحدود: لا شيء ؛" في CSS. لحل هذه المشكلة ، ضع في اعتبارك الأساليب التالية: تحيز خلل الكروم ل...

برمجة نشر في 2025-07-13
كيفية عرض التاريخ والوقت الحاليين بشكل صحيح في "DD/MM/Yyyy HH: MM: SS.SS" في جافا؟
يكمن في استخدام مثيلات التبسيط المختلفة مع أنماط تنسيق مختلفة. الحل: java.text.simpledateformat ؛ استيراد java.util.calendar ؛ استيراد java.ut...

برمجة نشر في 2025-07-13
نصائح لإيجاد موقع العنصر في مجموعة Java
استرداد موضع العنصر في صفائف Java ضمن فئة صفائف Java ، لا توجد طريقة مباشرة "indexof" لتحديد موضع عنصر محدد داخل صفيف. ومع ذلك ، توف...

برمجة نشر في 2025-07-13
كيف يمكنك استخدام مجموعة من خلال محور البيانات في MySQL؟
هنا ، نتعامل مع تحد شائع: تحويل البيانات من الصف إلى الصفوف المستندة إلى الأعمدة باستخدام. لننظر في الاستعلام التالي: حدد البيانات مجموعة بوا...

برمجة نشر في 2025-07-13
التنفيذ الديناميكي العاكس لواجهة GO لاستكشاف طريقة RPC
أحد الأسئلة التي أثيرت هو ما إذا كان من الممكن استخدام الانعكاس لإنشاء وظيفة جديدة تنفذ واجهة محددة. بيان مشكلة على سبيل المثال ، فكر في واجهة...

برمجة نشر في 2025-07-13