Web Scraping leicht gemacht: Analysieren Sie jede HTML-Seite mit Puppeteer

Titelseite > Programmierung > Web Scraping leicht gemacht: Analysieren Sie jede HTML-Seite mit Puppeteer

Web Scraping leicht gemacht: Analysieren Sie jede HTML-Seite mit Puppeteer

Veröffentlicht am 05.11.2024

Durchsuche:719

Web Scraping Made Easy: Parse Any HTML Page with Puppeteer

Stellen Sie sich den Aufbau einer E-Commerce-Plattform vor, auf der wir problemlos Produktdaten in Echtzeit von großen Geschäften wie eBay, Amazon und Flipkart abrufen können. Natürlich gibt es Shopify und ähnliche Dienste, aber seien wir ehrlich: Es kann sich etwas umständlich anfühlen, ein Abonnement nur für ein Projekt zu kaufen. Also dachte ich, warum nicht diese Seiten durchsuchen und die Produkte direkt in unserer Datenbank speichern? Dies wäre eine effiziente und kostengünstige Möglichkeit, Produkte für unsere E-Commerce-Projekte zu erhalten.

Was ist Web Scraping?

Beim Web Scraping werden Daten von Websites extrahiert, indem der HTML-Code von Webseiten analysiert wird, um Inhalte zu lesen und zu sammeln. Dabei geht es oft darum, einen Browser zu automatisieren oder HTTP-Anfragen an die Website zu senden und dann die HTML-Struktur zu analysieren, um bestimmte Informationen wie Text, Links oder Bilder abzurufen. Puppeteer ist eine Bibliothek, die zum Scrapen der Websites verwendet wird.

?Was ist Puppenspieler?

Puppeteer ist eine Node.js-Bibliothek. Sie bietet eine High-Level-API zur Steuerung kopfloser Chrome- oder Chromium-Browser. Headless Chrome ist eine Version von Chrome, die alles ohne Benutzeroberfläche ausführt (ideal für die Ausführung von Dingen im Hintergrund).

Wir können verschiedene Aufgaben mit Puppenspieler automatisieren, wie zum Beispiel:

Web Scraping: Das Extrahieren von Inhalten aus Websites erfordert die Interaktion mit dem HTML und JavaScript der Seite. Normalerweise rufen wir den Inhalt ab, indem wir auf die CSS-Selektoren abzielen.
PDF-Generierung: Das programmgesteuerte Konvertieren von Webseiten in PDFs ist ideal, wenn Sie direkt ein PDF aus einer Webseite generieren möchten, anstatt einen Screenshot zu erstellen und den Screenshot dann in ein PDF umzuwandeln. (P.S. Entschuldigung, wenn Sie hierfür bereits Problemumgehungen haben).
Automatisierte Tests: Ausführen von Tests auf Webseiten durch Simulieren von Benutzeraktionen wie Klicken auf Schaltflächen, Ausfüllen von Formularen und Erstellen von Screenshots. Dadurch entfällt der mühsame Prozess, lange Formulare manuell durchzugehen, um sicherzustellen, dass alles an seinem Platz ist.

?Wie fange ich mit dem Puppenspieler an?

Zuerst müssen wir die Bibliothek installieren, machen Sie weiter.
Mit npm:

npm i puppeteer # Downloads compatible Chrome during installation.
npm i puppeteer-core # Alternatively, install as a library, without downloading Chrome.

Garn verwenden:

yarn add puppeteer // Downloads compatible Chrome during installation.
yarn add puppeteer-core // Alternatively, install as a library, without downloading Chrome.

Pnpm verwenden:

pnpm add puppeteer # Downloads compatible Chrome during installation.
pnpm add puppeteer-core # Alternatively, install as a library, without downloading Chrome.

? Beispiel zur Demonstration des Einsatzes des Puppenspielers

Hier ist ein Beispiel für das Scrapen einer Website. (P.S. Ich habe diesen Code verwendet, um für mein E-Commerce-Projekt Produkte von der Myntra-Website abzurufen.)

const puppeteer = require("puppeteer");
const CategorySchema = require("./models/Category");

// Define the scrape function as a named async function
const scrape = async () => {
    // Launch a new browser instance
    const browser = await puppeteer.launch({ headless: false });

    // Open a new page
    const page = await browser.newPage();

    // Navigate to the target URL and wait until the DOM is fully loaded
    await page.goto('https://www.myntra.com/mens-sport-wear?rawQuery=mens sport wear', { waitUntil: 'domcontentloaded' });

    // Wait for additional time to ensure all content is loaded
    await new Promise((resolve) => setTimeout(resolve, 25000));

    // Extract product details from the page
    const items = await page.evaluate(() => {
        // Select all product elements
        const elements = document.querySelectorAll('.product-base');
        const elementsArray = Array.from(elements);

        // Map each element to an object with the desired properties
        const results = elementsArray.map((element) => {
            const image = element.querySelector(".product-imageSliderContainer img")?.getAttribute("src");
            return {
                image: image ?? null,
                brand: element.querySelector(".product-brand")?.textContent,
                title: element.querySelector(".product-product")?.textContent,
                discountPrice: element.querySelector(".product-price .product-discountedPrice")?.textContent,
                actualPrice: element.querySelector(".product-price .product-strike")?.textContent,
                discountPercentage: element.querySelector(".product-price .product-discountPercentage")?.textContent?.split(' ')[0]?.slice(1, -1),
                total: 20, // Placeholder value, adjust as needed
                available: 10, // Placeholder value, adjust as needed
                ratings: Math.round((Math.random() * 5) * 10) / 10 // Random rating for demonstration
            };
        });

        return results; // Return the list of product details
    });

    // Close the browser
    await browser.close();

    // Prepare the data for saving
    const data = {
        category: "mens-sport-wear",
        subcategory: "Mens",
        list: items
    };

    // Create a new Category document and save it to the database
    // Since we want to store product information in our e-commerce store, we use a schema and save it to the database.
    // If you don't need to save the data, you can omit this step.
    const category = new CategorySchema(data);
    console.log(category);
    await category.save();

    // Return the scraped items
    return items;
};

// Export the scrape function as the default export
module.exports = scrape;

?Erläuterung:

In diesem Code verwenden wir Puppeteer, um Produktdaten von einer Website zu extrahieren. Nachdem wir die Details extrahiert haben, erstellen wir ein Schema (CategorySchema), um diese Daten zu strukturieren und in unserer Datenbank zu speichern. Dieser Schritt ist besonders nützlich, wenn wir die gescrollten Produkte in unseren E-Commerce-Shop integrieren möchten. Wenn das Speichern der Daten in einer Datenbank nicht erforderlich ist, können Sie den schemabezogenen Code weglassen.
Vor dem Scraping ist es wichtig, die HTML-Struktur der Seite zu verstehen und zu ermitteln, welche CSS-Selektoren den Inhalt enthalten, den Sie extrahieren möchten.
In meinem Fall habe ich die relevanten CSS-Selektoren verwendet, die auf der Myntra-Website identifiziert wurden, um den Inhalt zu extrahieren, auf den ich abzielte.

Freigabeerklärung Dieser Artikel ist abgedruckt unter: https://dev.to/niharikaa/web-scraping-made-easy-parse-any-html-page-with-puppeteer-3dk8?1 Bei Verstößen wenden Sie sich bitte an Study_golang@163 .com, um es zu löschen

Neuestes Tutorial Mehr>

Wann verwendet CORS eine Preflight-Anfrage in domänenübergreifenden Szenarien?
CORS: Das Verständnis der „Preflight“-Anfrage für domänenübergreifende AnfragenCross-Origin Resource Sharing (CORS) stellt bei der Erstellung von HTTP...

Programmierung Veröffentlicht am 05.11.2024
Wie filtere ich Dateien nach Erweiterung mit der glob()-Funktion von PHP?
Dateien nach Erweiterung in PHP filternBei der Arbeit mit Verzeichnissen ist es oft notwendig, bestimmte Dateien basierend auf ihrer Erweiterung abzur...

Programmierung Veröffentlicht am 05.11.2024
Versprechen und Versprechensverkettung in JavaScript verstehen
Was ist ein Versprechen? Ein Versprechen in JavaScript ist wie ein „Versprechen“, das Sie machen, etwas in der Zukunft zu tun. Es handelt sic...

Programmierung Veröffentlicht am 05.11.2024
Sichere Zuweisung
Es gab heute viel Aufsehen über den neuen Vorschlag für einen sicheren Zuweisungsoperator (?=) in JavaScript. Mir gefällt, wie sich JavaScript im Lauf...

Programmierung Veröffentlicht am 05.11.2024
Erstellen Sie eine Warteschlangenschnittstelle
Erstellung einer Schnittstelle für Charakterwarteschlangen. Drei zu entwickelnde Implementierungen: Lineare Warteschlange mit fester Größe. Zirkuläre...

Programmierung Veröffentlicht am 05.11.2024
Wann ist der bearbeitbare Modus von Pip für die lokale Python-Paketentwicklung nützlich?
Nutzung des bearbeitbaren Modus für die lokale Paketentwicklung in Python mit PipIm Paketverwaltungs-Ökosystem von Python verfügt Pip über das „-e“ (o...

Programmierung Veröffentlicht am 05.11.2024
Was passiert, wenn Sie eine URL in einen Browser eingeben?
Haben Sie sich jemals gefragt, was hinter den Kulissen passiert, wenn Sie eine URL in Ihren Browser eingeben und die Eingabetaste drücken? Der Prozess...

Programmierung Veröffentlicht am 05.11.2024
Wie kann „OutOfMemoryError: GC-Overhead-Limit überschritten“ für zahlreiche kleine HashMap-Objekte effektiv verwaltet werden?
OutOfMemoryError: Handling Garbage Collection OverheadIn Java tritt der Fehler „java.lang.OutOfMemoryError: GC-Overhead-Limit überschritten“ auf, wenn...

Programmierung Veröffentlicht am 05.11.2024
Warum werden Listen miteinander verknüpft, wenn [[]] * n in der Python-Listeninitialisierung verwendet wird?
Problem bei der Listenverknüpfung bei der Listeninitialisierung mit [[]] * nBeim Initialisieren einer Liste von Listen mit [[]] n, Programmierer stoß...

Programmierung Veröffentlicht am 05.11.2024
Python leicht gemacht: Anfänger bis Fortgeschrittene | Blog
Python Course Code Examples This is a Documentation of the python code i used and created , for learning python. Its easy to understand and L...

Programmierung Veröffentlicht am 05.11.2024
Vereinfachen der Typeingrenzung und -schutz in TypeScript
Introduction to Narrowing Concept Typescript documentation explains this topic really well. I am not going to copy and paste the same descrip...

Programmierung Veröffentlicht am 05.11.2024
Wann sollte session_unset() anstelle von session_destroy() verwendet werden und umgekehrt?
Den Unterschied zwischen session_unset() und session_destroy() in PHP verstehenDie PHP-Funktionen session_unset() und session_destroy() dienen untersc...

Programmierung Veröffentlicht am 05.11.2024
Wie wählt man den besten Ansatz zum Parsen von INI-Dateien in C++?
Parsen von INI-Dateien in C: Ein Leitfaden für verschiedene AnsätzeBei der Arbeit mit Initialisierungsdateien (INI) in C stoßen Entwickler häufig auf ...

Programmierung Veröffentlicht am 05.11.2024
Tag/Tage des Codes: Erneuter Fokus
Mo, 19. August 2024 Heute markiert die Hälfte meiner 100-Tage-Code-Reise! ? Neben der Dokumentation meiner Fortschritte liebe ich es, Lern-Hacks zu te...

Programmierung Veröffentlicht am 05.11.2024
Warum erhalte ich in Visual Studio 2015 den Compiler-Fehler C2280 „Versuch, auf eine gelöschte Funktion zu verweisen“?
Compilerfehler C2280 „Versuch, auf eine gelöschte Funktion zu verweisen“ in Visual Studio 2015Der Compiler von Visual Studio 2015 ist im Gegensatz zu ...

Programmierung Veröffentlicht am 05.11.2024

Einstufung Mehr>

Japanisch lernen Koreanisch lernen Chinesisch lernen Fremdsprache lernen Spiel Häufiges Problem Technologie-Peripheriegeräte KI Software-Tutorial Programmierung Artikel