Java HTML解析
要從網站取得數據,首先必須了解HTML文件的結構。 HTML 元素使用標籤進行組織,標籤指定每個元素的類型和內容。
例如,以下HTML 表示具有特定CSS 類別的div 標籤:
要在Java 中尋找並檢索此標記中的數據,您可以使用Java HTML 解析器庫。一種選擇是 jsoup,它允許使用類似 jQuery 的語法進行方便的 HTML 解析:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
String html = "Data to be scraped";
Document doc = Jsoup.parse(html);
boolean usesClass = doc.select("div.classname").hasAttr("class");
String text = doc.select("div.classname").text();
String link = doc.select("div.classname").attr("href");
使用jsoup,您可以輕鬆檢查元素是否具有特定類別、檢索其文字內容或取得任何元素它可能具有的屬性。
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3