आवश्यक जानकारी प्राप्त करने के लिए उपयोगकर्ता संचालन का अनुकरण करने के लिए जावास्क्रिप्ट कोड का उपयोग करें। इसमें वेब पेज खोलने, लिंक पर क्लिक करने, कीवर्ड दर्ज करने आदि जैसे उपयोगकर्ता संचालन का अनुकरण करना और वेब पेजों से आवश्यक जानकारी निकालना शामिल है।
आवश्यक जानकारी प्राप्त करने के लिए उपयोगकर्ता संचालन का अनुकरण करने के लिए जावास्क्रिप्ट कोड का उपयोग करें। इसमें वेब पेज खोलने, लिंक पर क्लिक करने, कीवर्ड दर्ज करने आदि जैसे उपयोगकर्ता संचालन का अनुकरण करना और वेब पेजों से आवश्यक जानकारी निकालना शामिल है।
आप अनुरोध करने और डेटा कैप्चर करने के लिए Xmlhttprequest ऑब्जेक्ट, फ़ेच एपीआई, jQuery की अजाक्स विधि आदि का उपयोग करना चुन सकते हैं। ये विधियाँ आपको Http अनुरोध भेजने और सर्वर प्रतिक्रियाएँ प्राप्त करने की अनुमति देती हैं।
ब्राउज़र की होमोलॉजी नीति प्रतिबंधों के कारण, जावास्क्रिप्ट अन्य डोमेन के अंतर्गत संसाधनों तक सीधे पहुंच नहीं सकता है। आप क्रॉस-डोमेन अनुरोधों को लागू करने के लिए Jsonp और Cors जैसी तकनीकों का उपयोग कर सकते हैं, या क्रॉस-डोमेन समस्याओं को हल करने के लिए प्रॉक्सी का उपयोग कर सकते हैं, ब्राउज़र पैरामीटर सेट कर सकते हैं, आदि।
वेब स्क्रैपिंग के लिए जावास्क्रिप्ट का उपयोग करते समय, प्रॉक्सी सेट करना प्रभावी रूप से वास्तविक आईपी पते को छुपा सकता है, सुरक्षा में सुधार कर सकता है, या कुछ एक्सेस प्रतिबंधों को बायपास कर सकता है। प्रॉक्सी आईपी सेट करने के चरणों में आमतौर पर शामिल हैं:
सबसे पहले, आपको एक उपलब्ध प्रॉक्सी प्राप्त करने की आवश्यकता है।
प्रॉक्सी आमतौर पर तृतीय-पक्ष सेवा प्रदाताओं द्वारा प्रदान की जाती हैं। आप खोज इंजन या संबंधित तकनीकी मंचों के माध्यम से उपलब्ध प्रॉक्सी पा सकते हैं, और उनकी उपलब्धता सुनिश्चित करने के लिए उनका परीक्षण कर सकते हैं।
जावास्क्रिप्ट में, आप सिस्टम गुण सेट करके या विशिष्ट HTTP लाइब्रेरी का उपयोग करके प्रॉक्सी सर्वर जानकारी निर्दिष्ट कर सकते हैं।
उदाहरण के लिए, http या https मॉड्यूल का उपयोग करते समय, आप एक नया एजेंट ऑब्जेक्ट बना सकते हैं और उसकी प्रॉक्सी प्रॉपर्टी सेट कर सकते हैं।
प्रॉक्सी सर्वर स्थापित करने के बाद, आप वेब पेज को स्क्रैप करने के लिए प्रॉक्सी के माध्यम से नेटवर्क अनुरोध शुरू कर सकते हैं।
वेब स्क्रैपिंग के लिए जावास्क्रिप्ट का उपयोग करते समय प्रॉक्सी सेट करने का एक उदाहरण इस प्रकार है:
const http = require('http'); const https = require('https'); // Set IP address and port const proxy = 'http://IP address:port'; http.globalAgent = new http.Agent({ proxy: proxy }); https.globalAgent = new https.Agent({ proxy: proxy }); // Use the http or https modules to make requests, they will automatically use the configured proxy https.get('http://example.com', (res) => { let data = ''; // Receive data fragment res.on('data', (chunk) => { data = chunk; }); // Data received res.on('end', () => { console.log(data); }); }).on('error', (err) => { console.error('Error: ' err.message); });
नोट: आपको 'http://IP एड्रेस:पोर्ट' को उस आईपी एड्रेस और पोर्ट नंबर से बदलना होगा जो आपने वास्तव में प्राप्त किया था।
जावास्क्रिप्ट का उपयोग करके स्थानीय रूप से डेटा संग्रहीत करने के कई तरीके हैं:
लोकलस्टोरेज: दीर्घकालिक डेटा भंडारण। जब तक मैन्युअल रूप से हटाया नहीं जाता, डेटा ब्राउज़र में रखा जाएगा। आप डेटा स्टोर करने के लिए localStorage.setItem(key, value), डेटा पढ़ने के लिए localStorage.getItem(key) और डेटा हटाने के लिए localStorage.removeItem(key) का उपयोग कर सकते हैं।
सत्रभंडारण: सत्र-स्तरीय भंडारण। ब्राउज़र बंद होने के बाद डेटा गायब हो जाता है. इसका उपयोग लोकलस्टोरेज के समान है।
कुकी: भंडारण स्ट्रिंग। आकार सीमा लगभग 4KB है. भंडारण समयबद्धता डिफ़ॉल्ट रूप से सत्र स्तर पर सेट है। समाप्ति समय हो सकता है
मैन्युअल रूप से सेट करें। ऑपरेशन सर्वर पर निर्भर होना चाहिए।
IndexedDB: फ़ाइलों/ब्लॉब्स सहित बड़ी मात्रा में संरचित डेटा संग्रहीत करने के लिए उपयोग किया जाता है। भंडारण क्षमता सैद्धांतिक रूप से असीमित है।
उपरोक्त चरणों के माध्यम से, आप जावास्क्रिप्ट द्वारा वेब पेज डेटा को स्क्रैप करने और उसे संग्रहीत करने की प्रक्रिया को पूरा कर सकते हैं।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3