स्क्रैपी पायथन में विकसित एक तेज़, उच्च-स्तरीय वेब क्रॉलिंग फ्रेमवर्क है, जिसका उपयोग वेब साइटों को क्रॉल करने और पृष्ठों से संरचित डेटा निकालने के लिए किया जाता है। इसके उपयोग की एक विस्तृत श्रृंखला है और इसका उपयोग डेटा खनन, निगरानी और स्वचालित परीक्षण के लिए किया जा सकता है।
स्क्रैपी फ्रेमवर्क में पांच प्रमुख घटक होते हैं: शेड्यूलर, डाउनलोडर, क्रॉलर, इकाई पाइपलाइन और स्क्रैपी इंजन।
उनमें से, शेड्यूलर क्रॉल किए जाने वाले अगले URL को निर्धारित करता है, डाउनलोडर का उपयोग उच्च गति पर नेटवर्क संसाधनों को डाउनलोड करने के लिए किया जाता है, क्रॉलर का उपयोग एक विशिष्ट वेब पेज से आवश्यक जानकारी निकालने के लिए किया जाता है, इकाई पाइपलाइन क्रॉलर द्वारा निकाले गए डेटा को संसाधित करती है , और स्क्रैपी इंजन सिस्टम के सभी घटकों में डेटा के प्रवाह को नियंत्रित करता है।
स्क्रैपी का अक्सर उपयोग करने का कारण यह है कि यह एक ऐसा ढांचा है जिसे कोई भी अपनी आवश्यकताओं के अनुसार आसानी से संशोधित कर सकता है, और विभिन्न प्रकार के वेब स्क्रैपिंग के लिए आधार वर्ग प्रदान करता है।
वेब पेजों को क्रॉल करने के लिए स्क्रैपी के फायदों में मुख्य रूप से शामिल हैं:
1.उच्च दक्षता: स्क्रैपी अतुल्यकालिक प्रसंस्करण और समवर्ती अनुरोधों का उपयोग करता है, जो बड़े पैमाने पर क्रॉलिंग कार्यों को कुशलतापूर्वक संभाल सकता है और वेब क्रॉलिंग की दक्षता में सुधार कर सकता है।
2.लचीलापन: स्क्रैपी घटकों और प्लग-इन तंत्रों का एक समृद्ध सेट प्रदान करता है, और उपयोगकर्ता विभिन्न वेब क्रॉलिंग आवश्यकताओं को पूरा करने के लिए अपनी आवश्यकताओं के अनुसार उन्हें अनुकूलित और विस्तारित कर सकते हैं।
3.स्थिरता: स्क्रैपी में अच्छी दोष सहनशीलता और स्थिरता है, और जटिल और बदलते नेटवर्क वातावरण का सामना कर सकती है।
4.रिच फ़ंक्शंस: स्क्रैपी HTML, XML, JSON, आदि सहित कई डेटा प्रारूपों के पार्सिंग और प्रोसेसिंग का समर्थन करता है, और स्वचालित प्रसंस्करण, डेटा निष्कर्षण और डेटा भंडारण जैसे कार्य प्रदान करता है।
5.मजबूत स्केलेबिलिटी: स्क्रैपी वितरित क्रॉलिंग का समर्थन करता है, जो क्रॉलिंग दक्षता में सुधार करने के लिए कई क्रॉलर नोड्स के माध्यम से एक साथ डेटा को क्रॉल और संसाधित कर सकता है।
स्क्रेपी एक तेज़ और उन्नत वेब क्रॉलिंग और वेब स्क्रैपिंग फ्रेमवर्क है, जिसका उपयोग वेबसाइटों को क्रॉल करने और पृष्ठों से संरचित डेटा निकालने के लिए किया जाता है। वेब स्क्रैपिंग के लिए स्क्रैपी का उपयोग करने के बुनियादी चरण यहां दिए गए हैं:
सबसे पहले, सुनिश्चित करें कि स्क्रैपी स्थापित है। यदि यह अभी तक स्थापित नहीं है, तो आप इसे पाइप के माध्यम से स्थापित कर सकते हैं:
पिप इंस्टाल स्क्रैपी
एक नया स्क्रैपी प्रोजेक्ट बनाने के लिए स्क्रैपी स्टार्टप्रोजेक्ट कमांड का उपयोग करें। उदाहरण के लिए, myproject नाम से एक प्रोजेक्ट बनाएं:
स्क्रैपी स्टार्टप्रोजेक्ट मायप्रोजेक्ट
क्रॉल किए गए डेटा को संग्रहीत करने के लिए प्रोजेक्ट में आइटम को परिभाषित करें। उदाहरण के लिए, myproject/myproject/items.py में एक आइटम परिभाषित करें:
import scrapy class MyprojectItem(scrapy.Item): title = scrapy.Field() link = scrapy.Field() desc = scrapy.Field()
क्रॉल की जाने वाली वेबसाइट और उसे क्रॉल करने के तरीके को परिभाषित करने के लिए अपने प्रोजेक्ट में एक स्पाइडर बनाएं। उदाहरण के लिए, myproject/myproject/spider निर्देशिका में example.py नामक एक स्पाइडर फ़ाइल बनाएं:
import scrapy from myproject.items import MyprojectItem class ExampleSpider(scrapy.Spider): name = 'example' allowed_domains = ['example.com'] start_urls = ['http://example.com/'] def parse(self, response): items = [] for sel in response.xpath('//ul/li'): item = MyprojectItem() item['title'] = sel.xpath('a/text()').get() item['link'] = sel.xpath('a/@href').get() item['desc'] = sel.xpath('text()').get() items.append(item) return items
स्पाइडर को चलाने के लिए स्क्रैपी क्रॉल कमांड का उपयोग करें। उदाहरण के लिए, ऊपर बनाया गया स्पाइडर उदाहरण चलाएँ:
स्क्रैपी क्रॉल उदाहरण
आप आइटम पाइपलाइन को परिभाषित करके क्रॉल किए गए डेटा को संसाधित कर सकते हैं, जैसे इसे किसी फ़ाइल या डेटाबेस में सहेजना।
आप स्क्रेपी प्रोजेक्ट को आवश्यकतानुसार कॉन्फ़िगर कर सकते हैं, जैसे मिडलवेयर, डाउनलोडर, लॉग इत्यादि सेट करना।
स्क्रैपी के साथ वेबसाइटों को क्रॉल करने के लिए ये बुनियादी चरण हैं। आपकी विशिष्ट आवश्यकताओं के आधार पर, आपको कुछ अतिरिक्त कॉन्फ़िगरेशन और अनुकूलन करने की आवश्यकता हो सकती है।
डायनामिक यूजर-एजेंट क्रॉलर्स को वेबसाइटों द्वारा पहचाने जाने से रोकने के लिए एक प्रभावी रणनीति है। स्क्रेपी में, डायनामिक यूजर-एजेंट को विभिन्न तरीकों से सेट किया जा सकता है:
स्पाइडर वर्ग में एक कस्टम_सेटिंग्स विशेषता जोड़ें: यह विशेषता एक शब्दकोश है जिसका उपयोग कस्टम स्क्रैपी कॉन्फ़िगरेशन सेट करने के लिए किया जाता है। कस्टम_सेटिंग्स शब्दकोश में 'USER_AGENT' कुंजी जोड़ें और संबंधित उपयोगकर्ता-एजेंट मान सेट करें।
fake_useragent लाइब्रेरी का उपयोग करें: इस लाइब्रेरी में बड़ी संख्या में अंतर्निहित उपयोगकर्ता-एजेंट हैं जिन्हें यादृच्छिक रूप से बदला जा सकता है। Fake_useragent पैकेज को स्थापित करने के बाद, एक यादृच्छिक उपयोगकर्ता-एजेंट उत्पन्न करने के लिए स्क्रैपी की सेटिंग्स कॉन्फ़िगरेशन फ़ाइल में लाइब्रेरी को आयात और उपयोग करें।
रैंडम यूजर-एजेंट मिडलवेयर लागू करें: एक मिडलवेयर बनाएं जो प्रत्येक अनुरोध के लिए एक अलग यूजर-एजेंट असाइन करने के लिए फेक_यूजरएजेंट लाइब्रेरी का उपयोग करता है।
इन विधियों के माध्यम से, आप प्रभावी ढंग से सामान्य उपयोगकर्ता व्यवहार का अनुकरण कर सकते हैं और वेबसाइट द्वारा क्रॉलर के रूप में पहचाने जाने के जोखिम को कम कर सकते हैं।
वेब स्क्रैपिंग के लिए स्क्रैपी फ्रेमवर्क का उपयोग करते समय, प्रॉक्सी सेट करना बहुत आवश्यक है। मुख्य कारण इस प्रकार हैं:
आईपी ब्लॉकिंग से बचें: जब क्रॉलर वेबसाइट तक पहुंचता है, यदि मूल आईपी पते का सीधे उपयोग किया जाता है, तो वेबसाइट द्वारा पहचाना और ब्लॉक किया जाना आसान होता है। प्रॉक्सी का उपयोग करने से वास्तविक आईपी पता छिपाया जा सकता है, जिससे अवरुद्ध होने से बचा जा सकता है और क्रॉलर की पहचान की रक्षा की जा सकती है।
एक्सेस प्रतिबंधों को तोड़ें: कुछ वेबसाइटें एक्सेस प्रतिबंध लगा देंगी। प्रॉक्सी का उपयोग इन प्रतिबंधों को तोड़ सकता है और लक्ष्य वेबसाइट पर स्वतंत्र रूप से डेटा प्राप्त कर सकता है।
क्रॉलर दक्षता में सुधार: कुछ परिदृश्यों में जहां बड़ी मात्रा में क्रॉलिंग डेटा की आवश्यकता होती है, प्रॉक्सी का उपयोग प्रभावी ढंग से आईपी पते को अवरुद्ध होने से बचा सकता है, जिससे क्रॉलर प्रोग्राम का सामान्य संचालन सुनिश्चित होता है और क्रॉलर दक्षता में सुधार होता है।
संक्षेप में, स्क्रैपी फ्रेमवर्क में बेहतर डेटा एकत्र करने के लिए, प्रॉक्सी स्थापित करना बहुत महत्वपूर्ण है।
स्क्रैपी में प्रॉक्सी सेट करना प्रोजेक्ट की सेटिंग्स.py फ़ाइल को संशोधित करके प्राप्त किया जा सकता है। विशिष्ट चरण इस प्रकार हैं:*
प्रॉक्सी सर्वर तैयार करें: सबसे पहले, आपको एक विश्वसनीय प्रॉक्सी सेवा प्रदाता से आईपी प्राप्त करना होगा और इसे एक फ़ाइल में सहेजना होगा या प्रॉक्सी के एपीआई का उपयोग करना होगा।
प्रॉक्सी सक्षम करें: प्रॉक्सी सक्षम करने के लिए सेटिंग्स.py फ़ाइल में PROXY_ENABLED = True सेट करें।
प्रॉक्सी आईपी और पोर्ट सेट करें: आप PROXY वेरिएबल सेट करके प्रॉक्सी और पोर्ट निर्दिष्ट कर सकते हैं, उदाहरण के लिए, PROXY = 'http://your_proxy_ip:port'।
डाउनलोडर मिडलवेयर को कॉन्फ़िगर करें: यह सुनिश्चित करने के लिए कि प्रॉक्सी सेटिंग्स प्रभावी हों, आपको सेटिंग्स.py फ़ाइल में DOWNLOADER_MIDDLEWARES कॉन्फ़िगरेशन में प्रॉक्सी-संबंधित मिडलवेयर सेटिंग्स को जोड़ने या संशोधित करने की आवश्यकता है।
इस लेख को समझकर, आप वेब पेजों को क्रॉल करने के लिए स्क्रैपी का उपयोग करना सीख सकते हैं, और उपयोगकर्ता-एजेंट और एजेंटों को गतिशील रूप से सेट करके वेब क्रॉलिंग के दौरान आने वाली समस्याओं से बचने का प्रयास कर सकते हैं।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3