पायथन में वेब डेटा को स्क्रैप करने में आमतौर पर लक्ष्य वेबसाइट पर HTTP अनुरोध भेजना और लौटाए गए HTML या JSON डेटा को पार्स करना शामिल होता है। नीचे एक सरल वेब स्क्रैपिंग एप्लिकेशन का उदाहरण दिया गया है जो HTTP अनुरोध भेजने के लिए अनुरोध लाइब्रेरी का उपयोग करता है और HTML को पार्स करने के लिए BeautifulSouplibrary का उपयोग करता है।
सबसे पहले, सुनिश्चित करें कि आपने अनुरोध और Beautifulsoup4 लाइब्रेरी स्थापित कर ली हैं। यदि नहीं, तो आप उन्हें निम्नलिखित कमांड से इंस्टॉल कर सकते हैं:
पिप इंस्टाल अनुरोध Beautifulsoup4
फिर, आप नेटवर्क डेटा को स्क्रैप करने के लिए निम्न की तरह एक पायथन स्क्रिप्ट लिख सकते हैं:
import requests from bs4 import BeautifulSoup # URL of the target website url = 'http://example.com' # Sending HTTP GET request response = requests.get(url) # Check if the request was successful if response.status_code == 200: # Parsing HTML with BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') # Extract the required data, for example, extract all the titles titles = soup.find_all('h1') # Print title for title in titles: print(title.text) else: print('Request failed,status code:', response.status_code)
इस उदाहरण में, हमने सबसे पहले रिक्वेस्ट और ब्यूटीफुल सप्लिब्रेरीज़ को आयात किया। फिर, हमने लक्ष्य वेबसाइट के यूआरएल को परिभाषित किया और request.get() विधि का उपयोग करके एक HTTP GET अनुरोध भेजा। यदि अनुरोध सफल होता है (स्थिति कोड 200 है), तो हम ब्यूटीफुलसूप का उपयोग करके लौटाए गए HTML को पार्स करते हैं और सभी
कृपया ध्यान दें कि एक वास्तविक वेब स्क्रैपिंग प्रोजेक्ट में, आपको लक्ष्य वेबसाइट के robots.txt फ़ाइल नियमों का अनुपालन करना होगा और वेबसाइट के कॉपीराइट और उपयोग की शर्तों का सम्मान करना होगा। इसके अलावा, कुछ वेबसाइटें एंटी-क्रॉलर तकनीकों का उपयोग कर सकती हैं, जैसे गतिशील रूप से सामग्री लोड करना, कैप्चा सत्यापन इत्यादि, जिसके लिए अधिक जटिल हैंडलिंग रणनीतियों की आवश्यकता हो सकती है।
वेबसाइटों को क्रॉल करने के लिए प्रॉक्सी का उपयोग करना आईपी प्रतिबंधों और एंटी-क्रॉलर तंत्र से बचने का एक सामान्य तरीका है। प्रॉक्सी सर्वर मध्यस्थ के रूप में कार्य कर सकते हैं, आपके अनुरोधों को लक्ष्य वेबसाइट पर अग्रेषित कर सकते हैं और आपको प्रतिक्रिया लौटा सकते हैं, ताकि लक्ष्य वेबसाइट आपके वास्तविक आईपी पते के बजाय केवल प्रॉक्सी सर्वर का आईपी पता देख सके।
पायथन में, आप प्रॉक्सी सेट करने के लिए रिक्वेस्टलाइब्रेरी का उपयोग कर सकते हैं। HTTP अनुरोध भेजने के लिए प्रॉक्सी का उपयोग कैसे करें, यह दिखाने वाला एक सरल उदाहरण यहां दिया गया है:
import requests # The IP address and port provided by swiftproxy proxy = { 'http': 'http://45.58.136.104:14123', 'https': 'http://119.28.12.192:23529', } # URL of the target website url = 'http://example.com' # Sending requests using a proxy response = requests.get(url, proxies=proxy) # Check if the request was successful if response.status_code == 200: print('Request successful, response content:', response.text) else: print('Request failed,status code:', response.status_code)
ध्यान दें कि आपको प्रॉक्सी सर्वर आईपी और पोर्ट को वास्तविक प्रॉक्सी सर्वर पते से बदलना होगा। साथ ही, सुनिश्चित करें कि प्रॉक्सी सर्वर विश्वसनीय है और उस वेबसाइट का समर्थन करता है जिसे आप क्रॉल करना चाहते हैं। कुछ वेबसाइटें ज्ञात प्रॉक्सी सर्वर से अनुरोधों का पता लगा सकती हैं और उन्हें ब्लॉक कर सकती हैं, इसलिए आपको नियमित रूप से प्रॉक्सी सर्वर बदलने या अधिक उन्नत प्रॉक्सी सेवा का उपयोग करने की आवश्यकता हो सकती है।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3