"Si un trabajador quiere hacer bien su trabajo, primero debe afilar sus herramientas." - Confucio, "Las Analectas de Confucio. Lu Linggong"
Página delantera > Programación > Guía para crear una aplicación de raspado web Python simple

Guía para crear una aplicación de raspado web Python simple

Publicado el 2024-08-29
Navegar:438

Guide to Building a Simple Python Web Scraping Application

La extracción de datos web en Python generalmente implica enviar solicitudes HTTP al sitio web de destino y analizar los datos HTML o JSON devueltos. ‌ A continuación se muestra un ejemplo de una aplicación de web scraping sencilla que utiliza la biblioteca de solicitudes para enviar solicitudes HTTP y utiliza BeautifulSouplibrary para analizar HTML. ‌

Python construye un caso simple de web scraping

Primero, asegúrese de haber instalado las solicitudes y las bibliotecas beautifulsoup4. De lo contrario, puede instalarlos con el siguiente comando:‌

la instalación de pip solicita beautifulsoup4
Luego, puedes escribir un script de Python como el siguiente para extraer datos de la red:

import requests 
from bs4 import BeautifulSoup 

# URL of the target website 
url = 'http://example.com' 

# Sending HTTP GET request 
response = requests.get(url) 

# Check if the request was successful 
if response.status_code == 200: 
    # Parsing HTML with BeautifulSoup 
    soup = BeautifulSoup(response.text, 'html.parser') 

    # Extract the required data, for example, extract all the titles 
    titles = soup.find_all('h1') 

    # Print title 
    for title in titles: 
        print(title.text) 
else: 
    print('Request failed,status code:', response.status_code) 

En este ejemplo, primero importamos las solicitudes y las bibliotecas BeautifulSoup. Luego, definimos la URL del sitio web de destino y enviamos una solicitud HTTP GET utilizando el método request.get(). Si la solicitud tiene éxito (el código de estado es 200), analizamos el HTML devuelto usando BeautifulSoup y extraemos todas las etiquetas

, que generalmente contienen el título principal de la página. Finalmente, imprimimos el contenido textual de cada título.

Tenga en cuenta que en un proyecto de web scraping real, debe cumplir con las reglas del archivo robots.txt del sitio web de destino y respetar los derechos de autor y los términos de uso del sitio web. Además, algunos sitios web pueden utilizar técnicas anti-rastreadores, como carga dinámica de contenido, verificación de captcha, etc., lo que puede requerir estrategias de manejo más complejas.

¿Por qué es necesario utilizar un proxy para el web scraping?

El uso de un proxy para rastrear sitios web es un método común para eludir las restricciones de IP y los mecanismos anti-rastreador. Los servidores proxy pueden actuar como intermediarios, reenviando sus solicitudes al sitio web de destino y devolviéndole la respuesta, de modo que el sitio web de destino solo pueda ver la dirección IP del servidor proxy en lugar de su dirección IP real.

Un ejemplo sencillo de web scraping utilizando un proxy

En Python, puedes usar la biblioteca de solicitudes para configurar un proxy. A continuación se muestra un ejemplo sencillo que muestra cómo utilizar un proxy para enviar una solicitud HTTP:

import requests 

# The IP address and port provided by swiftproxy 
proxy = { 
    'http': 'http://45.58.136.104:14123', 
    'https': 'http://119.28.12.192:23529', 
} 

# URL of the target website 
url = 'http://example.com' 

# Sending requests using a proxy 
response = requests.get(url, proxies=proxy) 

# Check if the request was successful 
if response.status_code == 200: 
    print('Request successful, response content:‌', response.text) 
else: 
    print('Request failed,status code:‌', response.status_code) 

Tenga en cuenta que debe reemplazar la IP y el puerto del servidor proxy con la dirección real del servidor proxy. Además, asegúrese de que el servidor proxy sea confiable y admita el sitio web que desea rastrear. Algunos sitios web pueden detectar y bloquear solicitudes de servidores proxy conocidos, por lo que es posible que tengas que cambiar los servidores proxy periódicamente o utilizar un servicio proxy más avanzado.

Declaración de liberación Este artículo se reproduce en: https://dev.to/lewis_kerr_2d0d4c5b886b02/guide-to-building-a-simple-python-web-scraping-application-aj3?1 Si hay alguna infracción, comuníquese con [email protected] para borrarlo
Último tutorial Más>

Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.

Copyright© 2022 湘ICP备2022001581号-3