"Si un trabajador quiere hacer bien su trabajo, primero debe afilar sus herramientas." - Confucio, "Las Analectas de Confucio. Lu Linggong"
Página delantera > Programación > Raspado web: ¡interesante!

Raspado web: ¡interesante!

Publicado el 2024-11-06
Navegar:737

Un término interesante:
CRON = técnica de programación que programa tareas automáticamente en intervalos específicos

¿Web qué?

Cuando investigamos proyectos, etc., normalmente escribimos información de varios sitios, ya sea en un diario/excel/doc, etc.
Estamos raspando la web y extrayendo datos manualmente.

El web scraping está automatizando esto.

Web scraping- Interesting!

Ejemplo

Al buscar en Google, por ejemplo, zapatillas de deporte en línea, se muestra una lista de sitios web con productos y precios. En la pestaña de compras hay un registro más detallado ¿verdad?
Google acaba de eliminar sitios web para que puedas mostrar zapatillas de diferentes sitios.
Esta técnica es utilizada por casi todas las grandes empresas para sus negocios ya que los datos han aumentado exponencialmente.

Rastreador web

Esta es una técnica que, aunque recupera información, se diferencia del scraping en el sentido de que busca los mejores sitios web y los indexa, mientras que el scraping se realiza en un solo sitio web.

Se utiliza para análisis SEO (scraping - recopilación de datos).

Tecnologías de web scraping famosas:

  • Titiritero
  • Hermosa sopa
  • Datos brillantes

¡Asuntos!

Observe que no es un usuario el que realiza solicitudes para obtener información del sitio, ¡es el código escrito! Si los sitios web saben que esta tarea está automatizada, bloquearán rápidamente la dirección IP.
Y este cheque ha dado lugar a

  1. Captchas
  2. Limitación de velocidad
  3. Contenido dinámico

Objetivo: ¡simular cómo trabajan los humanos!

Bright data automatiza el trabajo. Incluso rota las IP para que el usuario sea desconocido y desbloquea sitios (¡versión paga!) para el usuario.

Un agradecimiento a JSM por la maravillosa explicación.
PD:
Web scraping- Interesting!
¡Jajaja!

Declaración de liberación Este artículo se reproduce en: https://dev.to/leg_end/web-scraping-interesting-17bn?1 Si hay alguna infracción, comuníquese con [email protected] para eliminarla.
Último tutorial Más>

Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.

Copyright© 2022 湘ICP备2022001581号-3