"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > मैं जावा का उपयोग करके HTML दस्तावेज़ों से डेटा कैसे निकाल सकता हूँ?

मैं जावा का उपयोग करके HTML दस्तावेज़ों से डेटा कैसे निकाल सकता हूँ?

2024-11-06 को प्रकाशित
ब्राउज़ करें:993

How can I extract data from HTML documents using Java?

Java HTML Parsing

किसी वेबसाइट से डेटा प्राप्त करने के लिए, आपको पहले HTML दस्तावेज़ की संरचना को समझना होगा। HTML तत्वों को टैग का उपयोग करके व्यवस्थित किया जाता है, जो प्रत्येक तत्व के प्रकार और सामग्री को निर्दिष्ट करते हैं।

उदाहरण के लिए, निम्नलिखित HTML एक विशिष्ट सीएसएस वर्ग के साथ एक div टैग का प्रतिनिधित्व करता है:

जावा में इस टैग से डेटा ढूंढने और पुनर्प्राप्त करने के लिए, आप जावा HTML पार्सर लाइब्रेरी का उपयोग कर सकते हैं। एक विकल्प jsoup है, जो jQuery जैसे सिंटैक्स का उपयोग करके सुविधाजनक HTML पार्सिंग की अनुमति देता है:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "
Data to be scraped
"; Document doc = Jsoup.parse(html); boolean usesClass = doc.select("div.classname").hasAttr("class"); String text = doc.select("div.classname").text(); String link = doc.select("div.classname").attr("href");

jsoup के साथ, आप आसानी से जांच सकते हैं कि किसी तत्व में एक विशिष्ट वर्ग है या नहीं, इसकी पाठ सामग्री पुनर्प्राप्त करें, या कोई भी प्राप्त करें इसमें जो गुण हो सकते हैं।

नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3