Analyse HTML pour le Web Scraping en Java
Dans le domaine du développement de logiciels, il devient nécessaire d'extraire des informations précieuses à partir de sites Web à diverses fins . Ce processus d'extraction de données à partir de sources en ligne est communément appelé web scraping. Les programmeurs Java disposent d'un outil polyvalent pour cette tâche : les analyseurs HTML.
Un analyseur HTML hautement recommandé pour Java est Jsoup. Il excelle grâce à ses sélecteurs CSS conviviaux de type jQuery et à sa classe Elements flexible, qui permet une itération sans effort. plongez dans un exemple simple pour illustrer le web scraping avec Jsoup :
import org.jsoup.Jsoup; importer org.jsoup.nodes.Document ; importer org.jsoup.nodes.Element ; importer org.jsoup.select.Elements ; Test de classe publique { public static void main (String[] args) lève une exception { URL de chaîne = "https://stackoverflow.com/questions/2835505" ; Document document = Jsoup.connect(url).get(); Chaîne question = document.select("#question .post-text").text(); System.out.println("Question : " question); Éléments répondeurs = document.select("#answers .user-details a"); pour (Élément répondeur : répondeurs) { System.out.println("Répondeur : " répondeur.text()); } } }
Dans cet exemple, nous nous connectons à une question Stack Overflow spécifique, analysons le contenu HTML et extrayons le texte de la question ainsi que les noms des répondants.import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Test {
public static void main(String[] args) throws Exception {
String url = "https://stackoverflow.com/questions/2835505";
Document document = Jsoup.connect(url).get();
String question = document.select("#question .post-text").text();
System.out.println("Question: " question);
Elements answerers = document.select("#answers .user-details a");
for (Element answerer : answerers) {
System.out.println("Answerer: " answerer.text());
}
}
}
L'expressivité de Jsoup permet un large éventail de scénarios de web scraping. En tirant parti des sélecteurs CSS, vous pouvez cibler des éléments ou des attributs spécifiques sur une page Web. Par exemple, si vous souhaitez récupérer le titre, le prix et la description d'une page produit sur Best Buy, vous pouvez utiliser les sélecteurs CSS suivants :
Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.
Copyright© 2022 湘ICP备2022001581号-3