如何使用 Java 從 HTML 文件中提取資料？

首頁 > 程式設計 > 如何使用 Java 從 HTML 文件中提取資料？

如何使用 Java 從 HTML 文件中提取資料？

發佈於2024-11-06

How can I extract data from HTML documents using Java?

Java HTML解析

要從網站取得數據，首先必須了解HTML文件的結構。 HTML 元素使用標籤進行組織，標籤指定每個元素的類型和內容。

例如，以下HTML 表示具有特定CSS 類別的div 標籤：

要在Java 中尋找並檢索此標記中的數據，您可以使用Java HTML 解析器庫。一種選擇是 jsoup，它允許使用類似 jQuery 的語法進行方便的 HTML 解析：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "Data to be scraped";
Document doc = Jsoup.parse(html);

boolean usesClass = doc.select("div.classname").hasAttr("class");
String text = doc.select("div.classname").text();
String link = doc.select("div.classname").attr("href");

使用jsoup，您可以輕鬆檢查元素是否具有特定類別、檢索其文字內容或取得任何元素它可能具有的屬性。

最新教學更多>

如何干淨地刪除匿名JavaScript事件處理程序？
刪除匿名事件偵聽器將匿名事件偵聽器添加到元素中會提供靈活性和簡單性，但是當要刪除它們時，可以構成挑戰，而無需替換元素本身就可以替換一個問題。 element？ element.addeventlistener（event，function（）{/在這里工作/}，false）; 要解決此問題，請考...

程式設計發佈於2025-03-10
如何在整個HTML文檔中設計特定元素類型的第一個實例？

程式設計發佈於2025-03-10
我可以將加密從McRypt遷移到OpenSSL，並使用OpenSSL遷移MCRYPT加密數據？
將我的加密庫從mcrypt升級到openssl 問題：是否可以將我的加密庫從McRypt升級到OpenSSL？如果是這樣，如何？答案：是的，可以將您的Encryption庫從McRypt升級到OpenSSL。可以使用openssl。附加說明： [openssl_decrypt（）函數要求...

程式設計發佈於2025-03-10
如何使用不同數量列的聯合數據庫表？
合併列數不同的表當嘗試合併列數不同的數據庫表時，可能會遇到挑戰。一種直接的方法是在列數較少的表中，為缺失的列追加空值。例如，考慮兩個表，表 A 和表 B，其中表 A 的列數多於表 B。為了合併這些表，同時處理表 B 中缺失的列，請按照以下步驟操作：確定表 B 中缺失的列，並將它們添加到表的...

程式設計發佈於2025-03-10
如何使用FormData（）處理多個文件上傳？
）處理多個文件輸入時，通常需要處理多個文件上傳時，通常是必要的。 The fd.append("fileToUpload[]", files[x]); method can be used for this purpose, allowing you to send multi...

程式設計發佈於2025-03-10
如何使用組在MySQL中旋轉數據？
在關係數據庫中使用mySQL組使用mySQL組進行查詢結果，在關係數據庫中使用MySQL組，轉移數據的數據是指重新排列的行和列的重排以增強數據可視化。在這裡，我們面對一個共同的挑戰：使用組的組將數據從基於行的基於列的轉換為基於列。讓我們考慮以下查詢： select data d.data_ti...

程式設計發佈於2025-03-10
對象擬合：IE和Edge中的封面失敗，如何修復？
解決此問題，我們採用了一個巧妙的CSS解決方案來解決問題：左：50％ ; 高度：auto; 寬度：100％ ; //對於水平塊，使用絕對定位將圖像定位在中心，以object-fit：object-fit：cover in IE和edge消除了問題。現在，圖像將按比例擴展，保持所需的效果而不會失...

程式設計發佈於2025-03-10
如何使用替換指令在GO MOD中解析模塊路徑差異？
在使用GO MOD時，在GO MOD 中克服模塊路徑差異時，可能會遇到衝突，其中可能會遇到一個衝突，其中3派對軟件包將另一個帶有導入套件的path package the Imptioned package the Imptioned package the Imported tocted pac...

程式設計發佈於2025-03-10
如何在JavaScript對像中動態設置鍵？
在嘗試為JavaScript對象創建動態鍵時，如何使用此Syntax jsObj['key' i] = 'example' 1;不工作。正確的方法採用方括號： jsobj ['key''i] ='example'1; 在JavaScript中，數組是一...

程式設計發佈於2025-03-10
$\“（1）vs.（;;）：編譯器優化是否消除了性能差異？\”$
\“（1）vs.（;;）：編譯器優化是否消除了性能差異？\”
答案：在大多數現代編譯器中，while（1）和（1）和（;;）之間沒有性能差異。編譯器： perl： 1 輸入 - > 2 2 NextState（Main 2 -E：1）V-> 3 9 Leaveloop VK/2-> A 3 toterloop（next-> 8 last-> 9 ...

程式設計發佈於2025-03-10
為什麼我的CSS背景圖像出現？
故障排除：CSS背景圖像未出現，您的背景圖像儘管遵循教程說明，但您的背景圖像仍未加載。圖像和样式表位於相同的目錄中，但背景仍然是空白的白色帆布。而不是不棄用的，您已經使用了CSS樣式： bockent {背景：封閉圖像文件名：背景圖：url（nickcage.jpg）; 如果您的html，cs...

程式設計發佈於2025-03-10
為什麼Microsoft Visual C ++無法正確實現兩台模板的實例？
The Mystery of "Broken" Two-Phase Template Instantiation in Microsoft Visual C Problem Statement:Users commonly express concerns that Micro...

程式設計發佈於2025-03-10
Java是否允許多種返回類型：仔細研究通用方法？
在Java中的多個返回類型：一種誤解類型：在Java編程中揭示，在Java編程中，Peculiar方法簽名可能會出現，可能會出現，使開發人員陷入困境，使開發人員陷入困境。 getResult（string s）; ，其中foo是自定義類。該方法聲明似乎擁有兩種返回類型：列表和E。但這確實是如此嗎...

程式設計發佈於2025-03-10
HTML格式標籤
HTML 格式化元素 **HTML Formatting is a process of formatting text for better look and feel. HTML provides us ability to format text without us...

程式設計發佈於2025-03-10
如何從Python中的字符串中刪除表情符號：固定常見錯誤的初學者指南？
從python import codecs import codecs import codecs 導入 text = codecs.decode（'這狗\ u0001f602'.encode（'utf-8'），'utf-8'）印刷（文字）＃帶有...

程式設計發佈於2025-03-10