Java での Web スクレイピングのための HTML 解析
ソフトウェア開発の領域では、さまざまな目的で Web サイトから貴重な情報を抽出する必要があります。 。オンライン ソースからデータを抽出するこのプロセスは、一般に Web スクレイピングとして知られています。 Java プログラマは、このタスクに自由に使える多用途のツール、HTML パーサーを持っています。
Java 用に強く推奨される HTML パーサーの 1 つは、Jsoup です。これは、ユーザーフレンドリーな jQuery のような CSS セレクターと、簡単な反復を可能にする柔軟な Elements クラスによって優れています。
Web スクレイピングのための Jsoup 入門
Let's Jsoup を使用した Web スクレイピングを説明する簡単な例を詳しく見てみましょう:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Test {
public static void main(String[] args) throws Exception {
String url = "https://stackoverflow.com/questions/2835505";
Document document = Jsoup.connect(url).get();
String question = document.select("#question .post-text").text();
System.out.println("Question: " question);
Elements answerers = document.select("#answers .user-details a");
for (Element answerer : answerers) {
System.out.println("Answerer: " answerer.text());
}
}
}
この例では、特定の Stack Overflow 質問に接続し、HTML コンテンツを解析し、質問のテキストと回答者の名前を抽出します。
カスタマイズWeb スクレイピング
Jsoup の表現力により、幅広い Web スクレイピング シナリオが可能になります。 CSS セレクターを利用すると、Web ページ上の特定の要素または属性をターゲットにすることができます。たとえば、Best Buy の商品ページのタイトル、価格、説明を取得したい場合は、次の CSS セレクターを使用できます:
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3