تحليل Java HTML
للحصول على بيانات من موقع ويب، يجب عليك أولاً فهم بنية مستند HTML. يتم تنظيم عناصر HTML باستخدام العلامات، التي تحدد نوع ومحتوى كل عنصر.على سبيل المثال، يمثل HTML التالي علامة div مع فئة CSS محددة:
لتحديد موقع البيانات واستردادها من هذه العلامة في Java، يمكنك استخدام مكتبة محلل Java HTML. أحد الخيارات هو jsoup، والذي يسمح بتحليل HTML بشكل مناسب باستخدام بناء جملة يشبه jQuery:import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
String html = "Data to be scraped";
Document doc = Jsoup.parse(html);
boolean usesClass = doc.select("div.classname").hasAttr("class");
String text = doc.select("div.classname").text();
String link = doc.select("div.classname").attr("href");
باستخدام jsoup، يمكنك بسهولة التحقق مما إذا كان العنصر يحتوي على فئة معينة، أو استرداد محتوى النص الخاص به، أو الحصول على أي فئة السمات التي قد تكون لديه. تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3