」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 如何使用 Java 從 HTML 文件中提取資料?

如何使用 Java 從 HTML 文件中提取資料?

發佈於2024-11-06
瀏覽:499

How can I extract data from HTML documents using Java?

Java HTML解析

要從網站取得數據,首先必須了解HTML文件的結構。 HTML 元素使用標籤進行組織,標籤指定每個元素的類型和內容。

例如,以下HTML 表示具有特定CSS 類別的div 標籤:

要在Java 中尋找並檢索此標記中的數據,您可以使用Java HTML 解析器庫。一種選擇是 jsoup,它允許使用類似 jQuery 的語法進行方便的 HTML 解析:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "
Data to be scraped
"; Document doc = Jsoup.parse(html); boolean usesClass = doc.select("div.classname").hasAttr("class"); String text = doc.select("div.classname").text(); String link = doc.select("div.classname").attr("href");

使用jsoup,您可以輕鬆檢查元素是否具有特定類別、檢索其文字內容或取得任何元素它可能具有的屬性。

最新教學 更多>

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3