Exemplo de web scraping dinâmico em Python: aplicação de selênio e webdriver

Primeira página > Programação > Exemplo de web scraping dinâmico em Python: aplicação de selênio e webdriver

Exemplo de web scraping dinâmico em Python: aplicação de selênio e webdriver

Publicado em 2024-09-02

Navegar:213

Python dynamic web scraping example: application of selenium and webdriver

Web scraping dinâmico geralmente usa algumas bibliotecas Python, como solicitações para lidar com solicitações HTTP, selênio para simular o comportamento do navegador ou pyppeteer. O artigo a seguir focará no uso de selênio.

Uma breve introdução ao selênio

Selenium é uma ferramenta para testar aplicativos da web, mas também é frequentemente usado para web scraping, especialmente quando é necessário descartar conteúdo da web gerado dinamicamente por JavaScript. selenium pode simular o comportamento do usuário no navegador, como clicar, inserir texto e obter elementos de páginas da web.

Exemplo de web scraping dinâmico em Python

Primeiro, certifique-se de ter o Selenium instalado. Caso contrário, você pode instalá-lo via pip:

pip install selenium

Você também precisa baixar o WebDriver para o navegador correspondente. ‌Supondo que usemos o navegador Chrome,‌ você precisa baixar o ChromeDriver e certificar-se de que seu caminho foi adicionado às variáveis de ambiente do sistema,‌ ou você pode especificar seu caminho diretamente no código. ‌

Aqui está um exemplo simples para obter o título de uma página da web:‌

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# Setting up webdriver
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

# Open the webpage
driver.get('https://www.example.com')

# Get the webpage title
title = driver.title

print(title)

# Close the browser
driver.quit()

Este script abrirá example.com, obterá seu título e imprimirá. ‌

Observe que ‌webdriver_manager é uma biblioteca de terceiros que gerencia automaticamente as versões do WebDriver. ‌Se não quiser usá-lo, você também pode baixar manualmente o WebDriver e especificar o caminho. ‌

Páginas da web dinâmicas podem envolver conteúdo renderizado em JavaScript. ‌Selenium pode esperar o carregamento desses elementos antes de operar, o que é muito adequado para processar essas páginas da web. ‌

Definir proxy ao copiar páginas da web dinâmicas em python

Ao usar Python para rastrear páginas dinâmicas da web, você geralmente usa um proxy. O uso de um proxy evita muitos obstáculos, por um lado, e acelera a eficiência do trabalho, por outro.

Introduzimos a instalação do selênio acima. Além disso, você também precisa baixar o WebDriver do navegador correspondente e certificar-se de que seu caminho seja adicionado às variáveis de ambiente do sistema, ou você pode especificar seu caminho diretamente no código.
Depois de concluir as etapas acima, podemos configurar o proxy e descartar páginas da web dinâmicas:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# Set Chrome options
chrome_options = Options()
chrome_options.add_argument('--proxy-server=http://your_proxy_ip:port')

# Specify the WebDriver path (if you have added the WebDriver path to the system environment variables, you can skip this step)
# driver_path = 'path/to/your/chromedriver'
# driver = webdriver.Chrome(executable_path=driver_path, options=chrome_options)

# If WebDriver path is not specified, the default path is used (make sure you have added WebDriver to your system environment variables)
driver = webdriver.Chrome(options=chrome_options)

# Open the webpage
driver.get('https://www.example.com')

# Get the webpage title
title = driver.title

print(title)

# Close the browser
driver.quit()

Neste exemplo, ‌--proxy-server=http://your_proxy_ip:port é o parâmetro para configurar o proxy.‌ Você precisa substituir your_proxy_ip e porta pelo endereço IP e número da porta do servidor proxy que você realmente usar

Se o seu servidor proxy exigir autenticação,‌ você pode usar o seguinte formato:‌

chrome_options.add_argument('--proxy-server=http://username:password@your_proxy_ip:port')

Onde nome de usuário e senha são o nome de usuário e a senha do seu servidor proxy. ‌

Depois de executar o código acima, o ‌Selenium acessará a página da web de destino por meio do servidor proxy configurado‌ e imprimirá o título da página da web. ‌
Como especificar o caminho para o ChromeDriver?
ChromeDriver faz parte do Selenium WebDriver. Ele interage com o navegador Chrome por meio da API WebDriver para implementar funções como testes automatizados e rastreadores da web. ‌
Especificar o caminho do ChromeDriver envolve principalmente a configuração de variáveis de ambiente. ‌Aqui estão as etapas específicas: ‌
1. Encontre o local de instalação do Chrome
Você pode encontrá-lo clicando com o botão direito no atalho do Google Chrome na área de trabalho e selecionando “Abrir local do arquivo”. ‌
2. Adicione o caminho de instalação do Chrome à variável de ambiente do sistema Path
Isso permite que o sistema reconheça o ChromeDriver em qualquer local. ‌
3. Baixe e descompacte o ChromeDriver
Certifique-se de baixar o ChromeDriver que corresponde à versão do navegador Chrome e descompacte-o em um programa exe. ‌
4. Copie o arquivo exe do ChromeDriver para o caminho de instalação do Chrome
Desta forma, quando você precisar usar o ChromeDriver, o sistema poderá reconhecê-lo e chamá-lo automaticamente

O texto acima é a aplicação de selenium e webdriver no rastreamento dinâmico da web em python e como evitá-lo ao rastrear páginas da web. Claro, você também pode praticar operações reais através dos exemplos acima.

Declaração de lançamento Este artigo foi reproduzido em: https://dev.to/lewis_kerr_2d0d4c5b886b02/python-dynamic-web-scraping-example-application-of-selenium-and-webdriver-3330?1 Se houver alguma violação, entre em contato com study_golang@163 .com para excluí-lo

Tutorial mais recente Mais>

Por que o Firefox exibe imagens usando a propriedade CSS `Content`?
exibindo imagens com URL de conteúdo em Firefox Um problema foi encontrado onde certos navegadores, especificamente Firefox, falham em exibir ...

Programação Postado em 2025-03-14
Como remover os manipuladores anônimos de eventos JavaScript de maneira limpa?
removendo os ouvintes anônimos do evento adicionando ouvintes de eventos anônimos a elementos fornece flexibilidade e simplicidade, mas quando é...

Programação Postado em 2025-03-14
O Java permite vários tipos de retorno: uma olhada mais próxima dos métodos genéricos?
Tipos de retorno múltiplos em java: um equívoco revelado no reino da programação java, e um método peculiar pode surgir, deixando os desenvolv...

Programação Postado em 2025-03-14
Por que não é um pedido de solicitação de captura de entrada no PHP, apesar do código válido?
abordando o mau funcionamento da solicitação de postagem em php no snippet de código apresentado: action='' Mantenha -se vigilante com a alo...

Programação Postado em 2025-03-14
Tags de formatação HTML
Elementos de formatação HTML **HTML Formatting is a process of formatting text for better look and feel. HTML provides us ability to form...

Programação Postado em 2025-03-14
Como limitar o intervalo de rolagem de um elemento dentro de um elemento pai de tamanho dinâmico?
implementando limites de altura CSS para elementos de rolagem vertical em uma interface interativa, o controle do comportamento de rolagem dos...

Programação Postado em 2025-03-14
Por que não está aparecendo na minha imagem de fundo do CSS?
SOLHAÇÃO DE TRABALHO: CSS Imagem de fundo não apareceu Você encontrou um problema em que sua imagem em segundo plano falha, apesar das seguint...

Programação Postado em 2025-03-14
Quais foram as restrições ao usar o current_timestamp com colunas de registro de data e hora em MySQL antes da versão 5.6.5?
restrições em colunas de timestamp com current_timestamp no padrão ou na atualização de cláusulas nas versões MySQL antes de 5.6.5 historicament...

Programação Postado em 2025-03-14
Como corrigir “Erro geral: o servidor MySQL 2006 desapareceu” ao inserir dados?
Como resolver "Erro geral: o servidor MySQL de 2006 desapareceu" ao inserir registrosIntrodução:A inserção de dados em um banco de dados MyS...

Programação Postado em 2025-03-14
Como definir dinamicamente as teclas em objetos JavaScript?
como criar uma chave dinâmica para uma variável de objeto JavaScript ao tentar criar uma chave dinâmica para um objeto JavaScript, usando essa s...

Programação Postado em 2025-03-14
Como verificar se um objeto tem um atributo específico no Python?
Método para determinar o atributo de objeto Existence Esta consulta busca um método para verificar a presença de um atributo específico em um ...

Programação Postado em 2025-03-14
Como recuperar com eficiência a última linha para cada identificador exclusivo no PostGresql?
postGresql: Extraindo a última linha para cada identificador exclusivo em postgresql, você pode encontrar situações em que você precisa extrai...

Programação Postado em 2025-03-14
Como resolver discrepâncias do caminho do módulo no Go Mod usando a diretiva substituição?
superando a discrepância do caminho do módulo em Go Mod Ao utilizar Go Mod, é possível encontrar um conflito em que um pacote de terceiros imp...

Programação Postado em 2025-03-14
Python Leia o arquivo CSV UnicodedecodeError Ultimate Solution
unicode decodificar erro no arquivo csv lendo Ao tentar ler um arquivo csodo (& sinod) usando o módulo CSV embutido, você pode encontrar um er...

Programação Postado em 2025-03-14
Como você pode usar o Grupo By to Pivot Data in MySQL?
girando resultados de consulta usando o grupo mysql por em um banco de dados relacional, girando dados se referindo ao rearranjo de linhas e c...

Programação Postado em 2025-03-14

Classificação Mais>

Aprenda japonês Aprender coreano Aprenda chinês Aprender língua estrangeira Jogo Problema comum Periféricos de tecnologia IA Tutorial de software Programação Artigo