"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > Jsoup जावा में वेब स्क्रैपिंग को कैसे आसान और कुशल बना सकता है?

Jsoup जावा में वेब स्क्रैपिंग को कैसे आसान और कुशल बना सकता है?

2024-11-06 को प्रकाशित
ब्राउज़ करें:469

How Can Jsoup Make Web Scraping in Java Easy and Efficient?

जावा में वेब स्क्रैपिंग के लिए HTML पार्सिंग

सॉफ्टवेयर विकास के दायरे में, विभिन्न उद्देश्यों के लिए वेबसाइटों से मूल्यवान जानकारी निकालना आवश्यक हो जाता है . ऑनलाइन स्रोतों से डेटा निकालने की इस प्रक्रिया को आमतौर पर वेब स्क्रैपिंग के रूप में जाना जाता है। जावा प्रोग्रामर के पास इस कार्य के लिए एक बहुमुखी उपकरण है: HTML पार्सर।

जावा के लिए एक अत्यधिक अनुशंसित HTML पार्सर Jsoup है। यह अपने उपयोगकर्ता-अनुकूल jQuery-जैसे CSS चयनकर्ताओं और इसके लचीले तत्व वर्ग के कारण उत्कृष्टता प्राप्त करता है, जो सहज पुनरावृत्ति को सक्षम बनाता है।

वेब स्क्रैपिंग के लिए Jsoup के साथ शुरुआत करना

आइए Jsoup के साथ वेब स्क्रैपिंग को स्पष्ट करने के लिए एक सीधा उदाहरण देखें:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Test {

    public static void main(String[] args) throws Exception {
        String url = "https://stackoverflow.com/questions/2835505";
        Document document = Jsoup.connect(url).get();

        String question = document.select("#question .post-text").text();
        System.out.println("Question: "   question);

        Elements answerers = document.select("#answers .user-details a");
        for (Element answerer : answerers) {
            System.out.println("Answerer: "   answerer.text());
        }
    }

}

इस उदाहरण में, हम एक विशिष्ट स्टैक ओवरफ्लो प्रश्न से जुड़ते हैं, HTML सामग्री को पार्स करते हैं, और प्रश्न के पाठ के साथ-साथ उत्तरदाताओं के नाम भी निकालते हैं।

आपका अनुकूलन वेब स्क्रैपिंग

Jsoup की अभिव्यक्ति वेब स्क्रैपिंग परिदृश्यों की एक विस्तृत श्रृंखला की अनुमति देती है। सीएसएस चयनकर्ताओं का लाभ उठाकर, आप किसी वेबपेज पर विशिष्ट तत्वों या विशेषताओं को लक्षित कर सकते हैं। उदाहरण के लिए, यदि आप बेस्ट बाय पर किसी उत्पाद पृष्ठ का शीर्षक, मूल्य और विवरण पुनः प्राप्त करना चाहते हैं, तो आप निम्नलिखित सीएसएस चयनकर्ताओं का उपयोग कर सकते हैं:


नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3