Java 中網頁抓取的HTML 解析
在軟體開發領域,有必要從網站中提取有價值的資訊以用於各種目的。這種從線上來源提取資料的過程通常稱為網頁抓取。 Java 程式設計師可以使用多功能工具來完成此任務:HTML 解析器。
強烈建議的 Java HTML 解析器是 Jsoup。它的出色之處在於其用戶友好的類似 jQuery 的 CSS 選擇器和靈活的 Elements 類,可以輕鬆迭代。
開始使用Jsoup 進行網頁抓取
讓我們深入研究一個簡單的範例來說明使用Jsoup 進行網頁擷取:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Test {
public static void main(String[] args) throws Exception {
String url = "https://stackoverflow.com/questions/2835505";
Document document = Jsoup.connect(url).get();
String question = document.select("#question .post-text").text();
System.out.println("Question: " question);
Elements answerers = document.select("#answers .user-details a");
for (Element answerer : answerers) {
System.out.println("Answerer: " answerer.text());
}
}
}
在此範例中,我們連接到特定的 Stack Overflow 問題,解析 HTML 內容,並提取問題的文字以及回答者的姓名。
自訂您的網頁抓取
Jsoup 的表現力允許廣泛的網頁抓取場景。透過利用 CSS 選擇器,您可以定位網頁上的特定元素或屬性。例如,如果您想檢索百思買上產品頁面的標題、價格和描述,您可以使用以下 CSS 選擇器:
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3