„Wenn ein Arbeiter seine Arbeit gut machen will, muss er zuerst seine Werkzeuge schärfen.“ – Konfuzius, „Die Gespräche des Konfuzius. Lu Linggong“
Titelseite > Programmierung > Wie kann ich mit Java Daten aus HTML-Dokumenten extrahieren?

Wie kann ich mit Java Daten aus HTML-Dokumenten extrahieren?

Veröffentlicht am 06.11.2024
Durchsuche:712

How can I extract data from HTML documents using Java?

Java HTML Parsing

Um Daten von einer Website zu erhalten, müssen Sie zunächst die Struktur des HTML-Dokuments verstehen. HTML-Elemente werden mithilfe von Tags organisiert, die den Typ und Inhalt jedes Elements angeben.

Der folgende HTML-Code stellt beispielsweise ein div-Tag mit einer bestimmten CSS-Klasse dar:

Um Daten aus diesem Tag in Java zu finden und abzurufen, können Sie eine Java-HTML-Parser-Bibliothek verwenden. Eine Option ist jsoup, die eine bequeme HTML-Analyse mit jQuery-ähnlicher Syntax ermöglicht:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "
Data to be scraped
"; Document doc = Jsoup.parse(html); boolean usesClass = doc.select("div.classname").hasAttr("class"); String text = doc.select("div.classname").text(); String link = doc.select("div.classname").attr("href");

Mit jsoup können Sie ganz einfach überprüfen, ob ein Element eine bestimmte Klasse hat, seinen Textinhalt abrufen oder eine beliebige erhalten Attribute, die es haben kann.

Neuestes Tutorial Mehr>

Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.

Copyright© 2022 湘ICP备2022001581号-3