Java HTML Parsing
किसी वेबसाइट से डेटा प्राप्त करने के लिए, आपको पहले HTML दस्तावेज़ की संरचना को समझना होगा। HTML तत्वों को टैग का उपयोग करके व्यवस्थित किया जाता है, जो प्रत्येक तत्व के प्रकार और सामग्री को निर्दिष्ट करते हैं।
उदाहरण के लिए, निम्नलिखित HTML एक विशिष्ट सीएसएस वर्ग के साथ एक div टैग का प्रतिनिधित्व करता है:
जावा में इस टैग से डेटा ढूंढने और पुनर्प्राप्त करने के लिए, आप जावा HTML पार्सर लाइब्रेरी का उपयोग कर सकते हैं। एक विकल्प jsoup है, जो jQuery जैसे सिंटैक्स का उपयोग करके सुविधाजनक HTML पार्सिंग की अनुमति देता है:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
String html = "Data to be scraped";
Document doc = Jsoup.parse(html);
boolean usesClass = doc.select("div.classname").hasAttr("class");
String text = doc.select("div.classname").text();
String link = doc.select("div.classname").attr("href");
jsoup के साथ, आप आसानी से जांच सकते हैं कि किसी तत्व में एक विशिष्ट वर्ग है या नहीं, इसकी पाठ सामग्री पुनर्प्राप्त करें, या कोई भी प्राप्त करें इसमें जो गुण हो सकते हैं।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3