cómo simular el comportamiento del navegador con las solicitudes de Python y los agentes de usuario falsos
La biblioteca de solicitudes de Python es una poderosa herramienta para hacer solicitudes HTTP, pero puede encontrar limitaciones cuando intenta acceder a ciertos sitios web. Esto se debe a que los sitios web pueden implementar medidas anti-Bot que distinguen entre navegadores reales y scripts automatizados. Para omitir estos bloques, los desarrolladores pueden emplear técnicas para imitar el comportamiento del navegador y generar encabezados de agente de usuario personalizados.
proporcionando un encabezado de agente de usuario
un método efectivo es proporcionar un encabezado válido del usuario, que identifica el sistema de avicultura y el sistema operativo utilizado por el solicitante. Al imitar un navegador popular como Chrome o Firefox, las solicitudes pueden mejorar las posibilidades de obtener la respuesta deseada del sitio web de Target.
import requests url = 'http://www.ichangtou.com/#company:data_000008.html' headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'} response = requests.get(url, headers=headers) print(response.content)
usando la biblioteca falsa-useragent
para un enfoque más conveniente, la biblioteca falsa-useragente proporciona una base de datos robusta de cadenas de agentes de usuario. Al utilizar esta biblioteca, los desarrolladores pueden generar agentes de usuarios realistas con facilidad.
from fake_useragent import UserAgent ua = UserAgent() headers = {'User-Agent': ua.chrome} response = requests.get(url, headers=headers)
fingiendo las visitas al navegador y generando encabezados de agente de usuario apropiados, las solicitudes de Python pueden pasar por alto los bloques del sitio web y recuperar información como si viniera de un navegador genuino. Esta técnica abre nuevas posibilidades para automatizar tareas web, acceder a contenido restringido y mejorar la precisión de las operaciones de raspado web.
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3