"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > जावास्क्रिप्ट के साथ वेब स्क्रैपिंग और प्रॉक्सी सेटअप के लिए शुरुआती गाइड

जावास्क्रिप्ट के साथ वेब स्क्रैपिंग और प्रॉक्सी सेटअप के लिए शुरुआती गाइड

2024-11-09 को प्रकाशित
ब्राउज़ करें:395

Beginner

आवश्यक जानकारी प्राप्त करने के लिए उपयोगकर्ता संचालन का अनुकरण करने के लिए जावास्क्रिप्ट कोड का उपयोग करें। इसमें वेब पेज खोलने, लिंक पर क्लिक करने, कीवर्ड दर्ज करने आदि जैसे उपयोगकर्ता संचालन का अनुकरण करना और वेब पेजों से आवश्यक जानकारी निकालना शामिल है।

जावास्क्रिप्ट वेब स्क्रैपिंग का मूल सिद्धांत

आवश्यक जानकारी प्राप्त करने के लिए उपयोगकर्ता संचालन का अनुकरण करने के लिए जावास्क्रिप्ट कोड का उपयोग करें। इसमें वेब पेज खोलने, लिंक पर क्लिक करने, कीवर्ड दर्ज करने आदि जैसे उपयोगकर्ता संचालन का अनुकरण करना और वेब पेजों से आवश्यक जानकारी निकालना शामिल है।

जावास्क्रिप्ट वेब स्क्रैपिंग सामान्य उपकरण

आप अनुरोध करने और डेटा कैप्चर करने के लिए Xmlhttprequest ऑब्जेक्ट, फ़ेच एपीआई, jQuery की अजाक्स विधि आदि का उपयोग करना चुन सकते हैं। ये विधियाँ आपको Http अनुरोध भेजने और सर्वर प्रतिक्रियाएँ प्राप्त करने की अनुमति देती हैं।

जावास्क्रिप्ट वेब स्क्रैपिंग क्रॉस-डोमेन समस्याओं को कैसे संभालती है?

ब्राउज़र की होमोलॉजी नीति प्रतिबंधों के कारण, जावास्क्रिप्ट अन्य डोमेन के अंतर्गत संसाधनों तक सीधे पहुंच नहीं सकता है। आप क्रॉस-डोमेन अनुरोधों को लागू करने के लिए Jsonp और Cors जैसी तकनीकों का उपयोग कर सकते हैं, या क्रॉस-डोमेन समस्याओं को हल करने के लिए प्रॉक्सी का उपयोग कर सकते हैं, ब्राउज़र पैरामीटर सेट कर सकते हैं, आदि।

जावास्क्रिप्ट का उपयोग करके वेब स्क्रैपिंग करते समय प्रॉक्सी आईपी सेट करना

वेब स्क्रैपिंग के लिए जावास्क्रिप्ट का उपयोग करते समय, प्रॉक्सी सेट करना प्रभावी रूप से वास्तविक आईपी पते को छुपा सकता है, सुरक्षा में सुधार कर सकता है, या कुछ एक्सेस प्रतिबंधों को बायपास कर सकता है। प्रॉक्सी आईपी सेट करने के चरणों में आमतौर पर शामिल हैं:

1. एक प्रॉक्सी प्राप्त करें

सबसे पहले, आपको एक उपलब्ध प्रॉक्सी प्राप्त करने की आवश्यकता है।
प्रॉक्सी आमतौर पर तृतीय-पक्ष सेवा प्रदाताओं द्वारा प्रदान की जाती हैं। आप खोज इंजन या संबंधित तकनीकी मंचों के माध्यम से उपलब्ध प्रॉक्सी पा सकते हैं, और उनकी उपलब्धता सुनिश्चित करने के लिए उनका परीक्षण कर सकते हैं।

2. एक प्रॉक्सी सर्वर सेट करें

जावास्क्रिप्ट में, आप सिस्टम गुण सेट करके या विशिष्ट HTTP लाइब्रेरी का उपयोग करके प्रॉक्सी सर्वर जानकारी निर्दिष्ट कर सकते हैं।
उदाहरण के लिए, http या https मॉड्यूल का उपयोग करते समय, आप एक नया एजेंट ऑब्जेक्ट बना सकते हैं और उसकी प्रॉक्सी प्रॉपर्टी सेट कर सकते हैं।

3. एक अनुरोध आरंभ करें

प्रॉक्सी सर्वर स्थापित करने के बाद, आप वेब पेज को स्क्रैप करने के लिए प्रॉक्सी के माध्यम से नेटवर्क अनुरोध शुरू कर सकते हैं।

जावास्क्रिप्ट के साथ स्क्रैप करते समय प्रॉक्सी स्थापित करने का उदाहरण

वेब स्क्रैपिंग के लिए जावास्क्रिप्ट का उपयोग करते समय प्रॉक्सी सेट करने का एक उदाहरण इस प्रकार है:

const http = require('http');
const https = require('https');

// Set IP address and port
const proxy = 'http://IP address:port';

http.globalAgent = new http.Agent({ proxy: proxy });
https.globalAgent = new https.Agent({ proxy: proxy });

// Use the http or https modules to make requests, they will automatically use the configured proxy
https.get('http://example.com', (res) => {
  let data = '';

  // Receive data fragment
  res.on('data', (chunk) => {
    data  = chunk;
  });

  // Data received
  res.on('end', () => {
    console.log(data);
  });
}).on('error', (err) => {
  console.error('Error: '   err.message);
});

नोट:‌ आपको 'http://IP एड्रेस:पोर्ट' को उस आईपी एड्रेस और पोर्ट नंबर से बदलना होगा जो आपने वास्तव में प्राप्त किया था। ‌

जावास्क्रिप्ट का उपयोग करके स्थानीय रूप से डेटा कैसे संग्रहीत करें?

जावास्क्रिप्ट का उपयोग करके स्थानीय रूप से डेटा संग्रहीत करने के कई तरीके हैं:

  • लोकलस्टोरेज: दीर्घकालिक डेटा भंडारण। जब तक मैन्युअल रूप से हटाया नहीं जाता, डेटा ब्राउज़र में रखा जाएगा। आप डेटा स्टोर करने के लिए localStorage.setItem(key, value), डेटा पढ़ने के लिए localStorage.getItem(key) और डेटा हटाने के लिए localStorage.removeItem(key) का उपयोग कर सकते हैं।

  • सत्रभंडारण: सत्र-स्तरीय भंडारण। ब्राउज़र बंद होने के बाद डेटा गायब हो जाता है. इसका उपयोग लोकलस्टोरेज के समान है।

  • कुकी: भंडारण स्ट्रिंग। आकार सीमा लगभग 4KB है. भंडारण समयबद्धता डिफ़ॉल्ट रूप से सत्र स्तर पर सेट है। समाप्ति समय हो सकता है

  • मैन्युअल रूप से सेट करें। ऑपरेशन सर्वर पर निर्भर होना चाहिए।

  • IndexedDB: फ़ाइलों/ब्लॉब्स सहित बड़ी मात्रा में संरचित डेटा संग्रहीत करने के लिए उपयोग किया जाता है। भंडारण क्षमता सैद्धांतिक रूप से असीमित है।
    उपरोक्त चरणों के माध्यम से, आप जावास्क्रिप्ट द्वारा वेब पेज डेटा को स्क्रैप करने और उसे संग्रहीत करने की प्रक्रिया को पूरा कर सकते हैं।

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://dev.to/lewis_kerr_2d0d4c5b886b02/beginners-guide-to-web-scraping-and-proxy-setup-with-javascript-2fdk?1 यदि कोई उल्लंघन है, तो कृपया स्टडी_गोलंग@163 से संपर्क करें हटाने के लिए .com
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3