Un término interesante:
CRON = técnica de programación que programa tareas automáticamente en intervalos específicos
Cuando investigamos proyectos, etc., normalmente escribimos información de varios sitios, ya sea en un diario/excel/doc, etc.
Estamos raspando la web y extrayendo datos manualmente.
El web scraping está automatizando esto.
Al buscar en Google, por ejemplo, zapatillas de deporte en línea, se muestra una lista de sitios web con productos y precios. En la pestaña de compras hay un registro más detallado ¿verdad?
Google acaba de eliminar sitios web para que puedas mostrar zapatillas de diferentes sitios.
Esta técnica es utilizada por casi todas las grandes empresas para sus negocios ya que los datos han aumentado exponencialmente.
Esta es una técnica que, aunque recupera información, se diferencia del scraping en el sentido de que busca los mejores sitios web y los indexa, mientras que el scraping se realiza en un solo sitio web.
Se utiliza para análisis SEO (scraping - recopilación de datos).
Tecnologías de web scraping famosas:
Observe que no es un usuario el que realiza solicitudes para obtener información del sitio, ¡es el código escrito! Si los sitios web saben que esta tarea está automatizada, bloquearán rápidamente la dirección IP.
Y este cheque ha dado lugar a
Objetivo: ¡simular cómo trabajan los humanos!
Bright data automatiza el trabajo. Incluso rota las IP para que el usuario sea desconocido y desbloquea sitios (¡versión paga!) para el usuario.
Un agradecimiento a JSM por la maravillosa explicación.
PD:
¡Jajaja!
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3