पायथन डायनेमिक वेब स्क्रैपिंग उदाहरण: सेलेनियम और वेबड्राइवर का अनुप्रयोग

मुखपृष्ठ > प्रोग्रामिंग > पायथन डायनेमिक वेब स्क्रैपिंग उदाहरण: सेलेनियम और वेबड्राइवर का अनुप्रयोग

पायथन डायनेमिक वेब स्क्रैपिंग उदाहरण: सेलेनियम और वेबड्राइवर का अनुप्रयोग

2024-09-02 को प्रकाशित

ब्राउज़ करें:745

Python dynamic web scraping example: application of selenium and webdriver

डायनामिक वेब स्क्रैपिंग आमतौर पर कुछ पायथन लाइब्रेरीज़ का उपयोग करती है, जैसे HTTP अनुरोधों को संभालने के लिए अनुरोध, ब्राउज़र व्यवहार को अनुकरण करने के लिए सेलेनियम, या पिपेटियर। निम्नलिखित लेख सेलेनियम के उपयोग पर केंद्रित होगा।

सेलेनियम का संक्षिप्त परिचय

सेलेनियम वेब अनुप्रयोगों के परीक्षण के लिए एक उपकरण है, लेकिन इसका उपयोग अक्सर वेब स्क्रैपिंग के लिए भी किया जाता है, खासकर जब जावास्क्रिप्ट द्वारा गतिशील रूप से उत्पन्न वेब सामग्री को स्क्रैप करना आवश्यक होता है। सेलेनियम ब्राउज़र में उपयोगकर्ता के व्यवहार का अनुकरण कर सकता है, जैसे क्लिक करना, टेक्स्ट दर्ज करना और वेब पेज तत्व प्राप्त करना।

पायथन डायनेमिक वेब स्क्रैपिंग उदाहरण

सबसे पहले, सुनिश्चित करें कि आपके पास सेलेनियम स्थापित है। यदि नहीं, तो आप इसे पाइप के माध्यम से इंस्टॉल कर सकते हैं:

pip install selenium

आपको संबंधित ब्राउज़र के लिए वेबड्राइवर भी डाउनलोड करना होगा। ‌मान लीजिए कि हम क्रोम ब्राउज़र का उपयोग करते हैं, आपको क्रोमड्राइवर डाउनलोड करना होगा और सुनिश्चित करना होगा कि इसका पथ सिस्टम पर्यावरण चर में जोड़ा गया है, या आप सीधे कोड में इसका पथ निर्दिष्ट कर सकते हैं। ‌

वेब पेज का शीर्षक प्राप्त करने के लिए यहां एक सरल उदाहरण दिया गया है:

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# Setting up webdriver
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

# Open the webpage
driver.get('https://www.example.com')

# Get the webpage title
title = driver.title

print(title)

# Close the browser
driver.quit()

यह स्क्रिप्ट example.com खोलेगी, उसका शीर्षक प्राप्त करेगी और उसका प्रिंट आउट लेगी। ‌

ध्यान दें कि ‌webdriver_manager एक तृतीय-पक्ष लाइब्रेरी है जो स्वचालित रूप से WebDriver संस्करणों का प्रबंधन करती है। ‌यदि आप इसका उपयोग नहीं करना चाहते हैं, तो आप मैन्युअल रूप से वेबड्राइवर भी डाउनलोड कर सकते हैं और पथ निर्दिष्ट कर सकते हैं। ‌

डायनामिक वेब पेजों में जावास्क्रिप्ट द्वारा प्रस्तुत सामग्री शामिल हो सकती है। सेलेनियम संचालन से पहले इन तत्वों के लोड होने की प्रतीक्षा कर सकता है, जो ऐसे वेब पेजों को संसाधित करने के लिए बहुत उपयुक्त है। ‌

पायथन में डायनामिक वेब पेजों को स्क्रैप करते समय प्रॉक्सी सेट करें

डायनामिक वेब पेजों को क्रॉल करने के लिए पायथन का उपयोग करते समय, आप अक्सर प्रॉक्सी का उपयोग करते हैं। प्रॉक्सी का उपयोग एक तरफ कई बाधाओं से बचाता है, और दूसरी तरफ कार्य कुशलता में तेजी लाता है।

हमने ऊपर सेलेनियम की स्थापना शुरू की है। इसके अलावा, आपको संबंधित ब्राउज़र का वेबड्राइवर भी डाउनलोड करना होगा और सुनिश्चित करना होगा कि इसका पथ सिस्टम के पर्यावरण चर में जोड़ा गया है, या आप सीधे कोड में इसका पथ निर्दिष्ट कर सकते हैं।
उपरोक्त चरणों को पूरा करने के बाद, हम प्रॉक्सी को कॉन्फ़िगर कर सकते हैं और डायनामिक वेब पेजों को स्क्रैप कर सकते हैं:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# Set Chrome options
chrome_options = Options()
chrome_options.add_argument('--proxy-server=http://your_proxy_ip:port')

# Specify the WebDriver path (if you have added the WebDriver path to the system environment variables, you can skip this step)
# driver_path = 'path/to/your/chromedriver'
# driver = webdriver.Chrome(executable_path=driver_path, options=chrome_options)

# If WebDriver path is not specified, the default path is used (make sure you have added WebDriver to your system environment variables)
driver = webdriver.Chrome(options=chrome_options)

# Open the webpage
driver.get('https://www.example.com')

# Get the webpage title
title = driver.title

print(title)

# Close the browser
driver.quit()

इस उदाहरण में, ‌--proxy-server=http://your_proxy_ip:port प्रॉक्सी को कॉन्फ़िगर करने के लिए पैरामीटर है। आपको अपने_proxy_ip और पोर्ट को उस प्रॉक्सी सर्वर के आईपी पते और पोर्ट नंबर से बदलना होगा जो आप वास्तव में कर रहे हैं। उपयोग

यदि आपके प्रॉक्सी सर्वर को प्रमाणीकरण की आवश्यकता है, तो आप निम्न प्रारूप का उपयोग कर सकते हैं:

chrome_options.add_argument('--proxy-server=http://username:password@your_proxy_ip:port')

जहां उपयोगकर्ता नाम और पासवर्ड आपके प्रॉक्सी सर्वर का उपयोगकर्ता नाम और पासवर्ड हैं। ‌

उपरोक्त कोड चलाने के बाद, सेलेनियम कॉन्फ़िगर किए गए प्रॉक्सी सर्वर के माध्यम से लक्ष्य वेब पेज तक पहुंच जाएगा और वेब पेज का शीर्षक प्रिंट कर लेगा। ‌
ChromeDriver का पथ कैसे निर्दिष्ट करें?
क्रोमड्राइवर सेलेनियम वेबड्राइवर का हिस्सा है। यह स्वचालित परीक्षण और वेब क्रॉलर जैसे कार्यों को लागू करने के लिए वेबड्राइवर एपीआई के माध्यम से क्रोम ब्राउज़र के साथ इंटरैक्ट करता है। ‌
ChromeDriver का पथ निर्दिष्ट करने में मुख्य रूप से पर्यावरण चर का कॉन्फ़िगरेशन शामिल है। ‌यहां विशिष्ट चरण दिए गए हैं: ‌
1. Chrome का इंस्टॉलेशन स्थान ढूंढें
आप इसे डेस्कटॉप पर Google Chrome शॉर्टकट पर राइट-क्लिक करके और "फ़ाइल स्थान खोलें" का चयन करके पा सकते हैं। ‌
2. Chrome के इंस्टॉलेशन पथ को सिस्टम वातावरण चर पथ में जोड़ें
यह सिस्टम को किसी भी स्थान पर ChromeDriver को पहचानने की अनुमति देता है। ‌
3. ChromeDriver को डाउनलोड और अनज़िप करें
ChromeDriver को डाउनलोड करना सुनिश्चित करें जो Chrome ब्राउज़र के संस्करण से मेल खाता हो और उसे exe प्रोग्राम पर अनज़िप करें। ‌
4. ChromeDriver की exe फ़ाइल को Chrome के इंस्टॉलेशन पथ पर कॉपी करें
इस तरह, जब आपको ChromeDriver का उपयोग करने की आवश्यकता होती है, तो सिस्टम स्वचालित रूप से इसे पहचान सकता है और कॉल कर सकता है

उपरोक्त पायथन डायनेमिक वेब क्रॉलिंग में सेलेनियम और वेबड्राइवर का अनुप्रयोग है, और वेब पेजों को क्रॉल करते समय इससे कैसे बचा जाए। बेशक, आप उपरोक्त उदाहरणों के माध्यम से वास्तविक संचालन का अभ्यास भी कर सकते हैं।

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://dev.to/lewis_kerr_2d0d4c5b886b02/python-dynamic-web-scraping-example-application-of-selenium-and-webdriver-3330?1 यदि कोई उल्लंघन है, तो कृपया स्टडी_गोलंग@163 से संपर्क करें इसे हटाने के लिए .com

नवीनतम ट्यूटोरियल अधिक>

PHP सरणी कुंजी-मूल्य विसंगतियाँ: 07 और 08 के जिज्ञासु मामले को समझना
] PHP में, एक असामान्य मुद्दा तब उत्पन्न होता है जब कुंजियों में 07 या 08 जैसे संख्यात्मक मान होते हैं। Print_r ($ महीने) चलाना अप्रत्याशित परिणाम देत...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
होमब्रे से मेरा गो सेटअप क्यों कमांड लाइन निष्पादन मुद्दों का कारण बनता है?
] जबकि HomeBrew स्थापना प्रक्रिया को सरल करता है, यह कमांड लाइन निष्पादन और अपेक्षित व्यवहार के बीच एक संभावित विसंगति का परिचय देता है। आपके द्वारा...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
गुमनाम जावास्क्रिप्ट इवेंट हैंडलर को साफ -सुथरा कैसे निकालें?
] तत्व? तत्व। जब तक हैंडलर का संदर्भ निर्माण में संग्रहीत नहीं किया गया था, तब तक एक गुमनाम इवेंट हैंडलर को साफ करने का कोई तरीका नहीं है। यह आवश्...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
Microsoft Visual C ++ दो-चरण टेम्पलेट तात्कालिकता को सही ढंग से लागू करने में विफल क्यों होता है?
तंत्र के कौन से विशिष्ट पहलू अपेक्षित रूप से संचालित करने में विफल होते हैं? हालाँकि, इस बारे में संदेह उत्पन्न होता है कि क्या यह चेक सत्यापित करता ...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
पायथन पढ़ें CSV फ़ाइल Unicodedecodeerror अल्टीमेट सॉल्यूशन
डिकोड बाइट्स स्थिति 2-3 में: truncated \ uxxxxxxxxx escape यह त्रुटि तब होती है जब CSV फ़ाइल के पथ में विशेष वर्ण होते हैं या यूनिकोड होता है कि पा...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
रिप्लेस डायरेक्टिव का उपयोग करके GO MOD में मॉड्यूल पथ विसंगतियों को कैसे हल करें?
यह गूँज के संदेशों द्वारा प्रदर्शित होने के रूप में, ` github.com/coreos/etcd/client द्वारा github.com/koreos/tcd/client.test आयात &&&] आयात gi...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
Android PHP सर्वर पर पोस्ट डेटा कैसे भेजता है?
] सर्वर-साइड संचार से निपटने के दौरान यह एक सामान्य परिदृश्य है। Apache httpclient (defforated) httpclient httpclient = new defaulthttpclient (); ...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
मुझे MySQL त्रुटि #1089 क्यों मिल रही है: गलत उपसर्ग कुंजी?
] आइए इस त्रुटि और इसके रिज़ॉल्यूशन की बारीकियों में तल्लीन करें। उपसर्ग कुंजियों को स्ट्रिंग कॉलम की एक विशिष्ट उपसर्ग लंबाई को अनुक्रमित करने के लिए...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
PYTZ शुरू में अप्रत्याशित समय क्षेत्र ऑफसेट क्यों दिखाता है?
] उदाहरण के लिए, एशिया/hong_kong शुरू में एक सात घंटे और 37 मिनट की ऑफसेट दिखाता है: आयात pytz Std> विसंगति स्रोत समय क्षेत्र और ऑफसेट प...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
Sqlalchemy फ़िल्टर क्लॉज़ में `Flake8` फ्लैगिंग बूलियन तुलना क्यों है?
] हालांकि, यह आम तौर पर "यदि कंडे गलत है:" या "अगर कंडे नहीं:" का उपयोग करने के लिए अनुशंसित है, तो बूलियन तुलनाओं के लिए कहीं और,...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
मान्य कोड के बावजूद PHP में इनपुट कैप्चरिंग इनपुट क्यों है?
] $ _Server ['php_self']?> हालांकि, आउटपुट खाली रहता है। जबकि विधि = "प्राप्त करें" मूल रूप से काम करती है, विधि = "पोस्ट"...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
मैं फॉर्मडाटा () के साथ कई फ़ाइल अपलोड को कैसे संभाल सकता हूं?
] इस उद्देश्य के लिए formData () विधि का उपयोग किया जा सकता है, जिससे आप एक ही अनुरोध में कई फाइलें भेज सकते हैं। document.getElementByid ('file...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
HTML स्वरूपण टैग
HTML स्वरूपण तत्व ] HTML हमें CSS का उपयोग किए बिना पाठ को प्रारूपित करने की क्षमता प्रदान करता है। HTML में कई स्वरूपण टैग हैं। इन टैगों ...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
मैं अलग -अलग संख्याओं के साथ डेटाबेस टेबल कैसे कर सकता हूं?
] विभिन्न कॉलम के साथ डेटाबेस तालिकाओं को मर्ज करने की कोशिश करते समय चुनौतियों का सामना कर सकते हैं। एक सीधा तरीका कम कॉलम के साथ एक तालिका में ल...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया
आप PHP में एक सरणी से एक यादृच्छिक तत्व कैसे निकालते हैं?
] निम्नलिखित सरणी पर विचार करें: $ आइटम = [५२३, ३४५२, ३३४, ३१, ५३४६]; Array_rand () फ़ंक्शन सरणी से एक यादृच्छिक कुंजी देता है। इस कुंजी के साथ $ आइ...

प्रोग्रामिंग 2025-03-13 को पोस्ट किया गया