「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > Java を使用して HTML ドキュメントからデータを抽出するにはどうすればよいですか?

Java を使用して HTML ドキュメントからデータを抽出するにはどうすればよいですか?

2024 年 11 月 6 日に公開
ブラウズ:509

How can I extract data from HTML documents using Java?

Java HTML 解析

Web サイトからデータを取得するには、まず HTML ドキュメントの構造を理解する必要があります。 HTML 要素は、各要素のタイプとコンテンツを指定するタグを使用して編成されます。

たとえば、次の HTML は、特定の CSS クラスを持つ div タグを表します:

Java でこのタグからデータを検索して取得するには、Java HTML パーサー ライブラリを使用できます。 1 つのオプションは jsoup です。これにより、jQuery のような構文を使用した便利な HTML 解析が可能になります。 org.jsoup.nodes.Document をインポートします。 String html = "

スクレイピングするデータ
"; ドキュメント doc = Jsoup.parse(html); boolean usesClass = doc.select("div.classname").hasAttr("class"); 文字列テキスト = doc.select("div.classname").text(); String link = doc.select("div.classname").attr("href");
jsoup を使用すると、要素に特定のクラスがあるかどうかを簡単に確認したり、そのテキスト コンテンツを取得したり、任意のクラスを取得したりできます。持つ可能性のある属性。
最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3