"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > एक सरल पायथन वेब स्क्रैपिंग एप्लिकेशन बनाने के लिए गाइड

एक सरल पायथन वेब स्क्रैपिंग एप्लिकेशन बनाने के लिए गाइड

2024-08-29 को प्रकाशित
ब्राउज़ करें:647

Guide to Building a Simple Python Web Scraping Application

पायथन में वेब डेटा को स्क्रैप करने में आमतौर पर लक्ष्य वेबसाइट पर HTTP अनुरोध भेजना और लौटाए गए HTML या JSON डेटा को पार्स करना शामिल होता है। ‌ नीचे एक सरल वेब स्क्रैपिंग एप्लिकेशन का उदाहरण दिया गया है जो HTTP अनुरोध भेजने के लिए अनुरोध लाइब्रेरी का उपयोग करता है और HTML को पार्स करने के लिए BeautifulSouplibrary का उपयोग करता है। ‌

पायथन एक साधारण वेब स्क्रैपिंग केस बनाता है

सबसे पहले, सुनिश्चित करें कि आपने अनुरोध और Beautifulsoup4 लाइब्रेरी स्थापित कर ली हैं। यदि नहीं, तो आप उन्हें निम्नलिखित कमांड से इंस्टॉल कर सकते हैं:​

पिप इंस्टाल अनुरोध Beautifulsoup4
फिर, आप नेटवर्क डेटा को स्क्रैप करने के लिए निम्न की तरह एक पायथन स्क्रिप्ट लिख सकते हैं:

import requests 
from bs4 import BeautifulSoup 

# URL of the target website 
url = 'http://example.com' 

# Sending HTTP GET request 
response = requests.get(url) 

# Check if the request was successful 
if response.status_code == 200: 
    # Parsing HTML with BeautifulSoup 
    soup = BeautifulSoup(response.text, 'html.parser') 

    # Extract the required data, for example, extract all the titles 
    titles = soup.find_all('h1') 

    # Print title 
    for title in titles: 
        print(title.text) 
else: 
    print('Request failed,status code:', response.status_code) 

इस उदाहरण में, हमने सबसे पहले रिक्वेस्ट और ब्यूटीफुल सप्लिब्रेरीज़ को आयात किया। फिर, हमने लक्ष्य वेबसाइट के यूआरएल को परिभाषित किया और request.get() विधि का उपयोग करके एक HTTP GET अनुरोध भेजा। यदि अनुरोध सफल होता है (स्थिति कोड 200 है), तो हम ब्यूटीफुलसूप का उपयोग करके लौटाए गए HTML को पार्स करते हैं और सभी

टैग निकालते हैं, जिनमें आमतौर पर पृष्ठ का मुख्य शीर्षक होता है। अंत में, हम प्रत्येक शीर्षक की पाठ्य सामग्री का प्रिंट आउट लेते हैं।

कृपया ध्यान दें कि एक वास्तविक वेब स्क्रैपिंग प्रोजेक्ट में, आपको लक्ष्य वेबसाइट के robots.txt फ़ाइल नियमों का अनुपालन करना होगा और वेबसाइट के कॉपीराइट और उपयोग की शर्तों का सम्मान करना होगा। इसके अलावा, कुछ वेबसाइटें एंटी-क्रॉलर तकनीकों का उपयोग कर सकती हैं, जैसे गतिशील रूप से सामग्री लोड करना, कैप्चा सत्यापन इत्यादि, जिसके लिए अधिक जटिल हैंडलिंग रणनीतियों की आवश्यकता हो सकती है।

आपको वेब स्क्रैपिंग के लिए प्रॉक्सी का उपयोग करने की आवश्यकता क्यों है?

वेबसाइटों को क्रॉल करने के लिए प्रॉक्सी का उपयोग करना आईपी प्रतिबंधों और एंटी-क्रॉलर तंत्र से बचने का एक सामान्य तरीका है। प्रॉक्सी सर्वर मध्यस्थ के रूप में कार्य कर सकते हैं, आपके अनुरोधों को लक्ष्य वेबसाइट पर अग्रेषित कर सकते हैं और आपको प्रतिक्रिया लौटा सकते हैं, ताकि लक्ष्य वेबसाइट आपके वास्तविक आईपी पते के बजाय केवल प्रॉक्सी सर्वर का आईपी पता देख सके।

प्रॉक्सी का उपयोग करके वेब स्क्रैपिंग का एक सरल उदाहरण

पायथन में, आप प्रॉक्सी सेट करने के लिए रिक्वेस्टलाइब्रेरी का उपयोग कर सकते हैं। HTTP अनुरोध भेजने के लिए प्रॉक्सी का उपयोग कैसे करें, यह दिखाने वाला एक सरल उदाहरण यहां दिया गया है:

import requests 

# The IP address and port provided by swiftproxy 
proxy = { 
    'http': 'http://45.58.136.104:14123', 
    'https': 'http://119.28.12.192:23529', 
} 

# URL of the target website 
url = 'http://example.com' 

# Sending requests using a proxy 
response = requests.get(url, proxies=proxy) 

# Check if the request was successful 
if response.status_code == 200: 
    print('Request successful, response content:‌', response.text) 
else: 
    print('Request failed,status code:‌', response.status_code) 

ध्यान दें कि आपको प्रॉक्सी सर्वर आईपी और पोर्ट को वास्तविक प्रॉक्सी सर्वर पते से बदलना होगा। साथ ही, सुनिश्चित करें कि प्रॉक्सी सर्वर विश्वसनीय है और उस वेबसाइट का समर्थन करता है जिसे आप क्रॉल करना चाहते हैं। कुछ वेबसाइटें ज्ञात प्रॉक्सी सर्वर से अनुरोधों का पता लगा सकती हैं और उन्हें ब्लॉक कर सकती हैं, इसलिए आपको नियमित रूप से प्रॉक्सी सर्वर बदलने या अधिक उन्नत प्रॉक्सी सेवा का उपयोग करने की आवश्यकता हो सकती है।

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://dev.to/lewis_kerr_2d0d4c5b886b02/guide-to-building-a-simple-python-web-scraping-application-aj3?1 यदि कोई उल्लंघन है, तो कृपया [email protected] पर संपर्क करें। इसे हटाने के लिए
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3