Python 동적 웹 스크래핑 예: 셀레늄 및 웹드라이버 적용

첫 장 > 프로그램 작성 > Python 동적 웹 스크래핑 예: 셀레늄 및 웹드라이버 적용

Python 동적 웹 스크래핑 예: 셀레늄 및 웹드라이버 적용

2024-09-02에 게시됨

검색:588

Python dynamic web scraping example: application of selenium and webdriver

동적 웹 스크래핑은 일반적으로 HTTP 요청을 처리하기 위한 요청, 브라우저 동작을 시뮬레이션하기 위한 셀레늄 또는 pyppeteer와 같은 일부 Python 라이브러리를 사용합니다. 다음 기사에서는 셀레늄 사용에 중점을 둘 것입니다.

셀레늄에 대한 간략한 소개

셀레늄은 웹 애플리케이션을 테스트하기 위한 도구이지만 특히 JavaScript에 의해 동적으로 생성된 웹 콘텐츠를 스크랩해야 하는 경우 웹 스크래핑에도 자주 사용됩니다. Selenium은 클릭, 텍스트 입력, 웹 페이지 요소 가져오기 등 브라우저에서 사용자 동작을 시뮬레이션할 수 있습니다.

Python 동적 웹 스크래핑 예

먼저 셀레늄이 설치되어 있는지 확인하세요. 그렇지 않은 경우 pip:
를 통해 설치할 수 있습니다.

pip install selenium

해당 브라우저에 맞는 WebDriver도 다운로드해야 합니다. ‌Chrome 브라우저를 사용한다고 가정하면‌ ChromeDriver를 다운로드하고 해당 경로가 시스템 환경 변수에 추가되었는지 확인하거나‌ 코드에서 직접 경로를 지정할 수 있습니다. ‌

다음은 웹페이지 제목을 가져오는 간단한 예입니다.‌

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# Setting up webdriver
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

# Open the webpage
driver.get('https://www.example.com')

# Get the webpage title
title = driver.title

print(title)

# Close the browser
driver.quit()

이 스크립트는 example.com을 열고 제목을 가져와서 인쇄합니다. ‌

‌webdriver_manager는 WebDriver 버전을 자동으로 관리하는 타사 라이브러리입니다. ‌사용하지 않으려면 WebDriver를 수동으로 다운로드하고 경로를 지정할 수도 있습니다. ‌

동적 웹페이지에는 JavaScript로 렌더링된 콘텐츠가 포함될 수 있습니다. ‌셀레늄은 작동하기 전에 이러한 요소가 로드될 때까지 기다릴 수 있으며, 이는 이러한 웹 페이지를 처리하는 데 매우 적합합니다. ‌

Python에서 동적 웹페이지를 스크랩할 때 프록시 설정

Python을 사용하여 동적 웹페이지를 크롤링할 때 프록시를 사용하는 경우가 많습니다. 프록시를 사용하면 한편으로는 많은 장애물을 피하고 다른 한편으로는 작업 효율성을 높일 수 있습니다.

위에서 셀레늄 설치를 소개했습니다. 또한 해당 브라우저의 WebDriver도 다운로드하여 경로가 시스템 환경 변수에 추가되어 있는지 확인하거나 코드에서 직접 경로를 지정할 수 있습니다.
위 단계를 완료한 후 프록시를 구성하고 동적 웹 페이지를 스크랩할 수 있습니다.

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# Set Chrome options
chrome_options = Options()
chrome_options.add_argument('--proxy-server=http://your_proxy_ip:port')

# Specify the WebDriver path (if you have added the WebDriver path to the system environment variables, you can skip this step)
# driver_path = 'path/to/your/chromedriver'
# driver = webdriver.Chrome(executable_path=driver_path, options=chrome_options)

# If WebDriver path is not specified, the default path is used (make sure you have added WebDriver to your system environment variables)
driver = webdriver.Chrome(options=chrome_options)

# Open the webpage
driver.get('https://www.example.com')

# Get the webpage title
title = driver.title

print(title)

# Close the browser
driver.quit()

이 예에서 ‌--proxy-server=http://your_proxy_ip:port는 프록시 구성을 위한 매개변수입니다.‌ your_proxy_ip 및 port를 실제로 프록시 서버의 IP 주소 및 포트 번호로 바꿔야 합니다. 사용

프록시 서버에 인증이 필요한 경우‌ 다음 형식을 사용할 수 있습니다.‌

chrome_options.add_argument('--proxy-server=http://username:password@your_proxy_ip:port')

여기서 사용자 이름과 비밀번호는 프록시 서버의 사용자 이름과 비밀번호입니다. ‌

위 코드를 실행한 후 ‌Selenium은 구성된 프록시 서버‌를 통해 대상 웹 페이지에 액세스하고 웹 페이지 제목을 인쇄합니다. ‌
ChromeDriver 경로를 어떻게 지정하나요?
ChromeDriver는 Selenium WebDriver의 일부입니다. WebDriver API를 통해 Chrome 브라우저와 상호작용하여 자동화된 테스트 및 웹 크롤러와 같은 기능을 구현합니다. ‌
ChromeDriver의 경로 지정에는 주로 환경 변수 구성이 포함됩니다. ‌구체적인 단계는 다음과 같습니다. ‌
1. Chrome 설치 위치 찾기
바탕화면의 구글 크롬 바로가기를 마우스 오른쪽 버튼으로 클릭한 뒤 '파일 위치 열기'를 선택하면 찾을 수 있다. ‌
2. 시스템 환경 변수 Path
에 Chrome 설치 경로를 추가합니다. 이를 통해 시스템은 어느 위치에서나 ChromeDriver를 인식할 수 있습니다. ‌
3. ChromeDriver 다운로드 및 압축 풀기
반드시 Chrome 브라우저 버전에 맞는 ChromeDriver를 다운로드하고 exe 프로그램에 압축을 풀어주세요. ‌
4. ChromeDriver의 exe 파일을 Chrome 설치 경로에 복사합니다.
이런 식으로 ChromeDriver를 사용해야 할 때 시스템이 자동으로 인식하여 호출할 수 있습니다

위는 Python 동적 웹 크롤링에서 Selenium과 webdriver를 적용하는 방법과 웹 페이지를 크롤링할 때 이를 방지하는 방법입니다. 물론, 위의 예시를 통해 실제 동작을 연습해 볼 수도 있습니다.

릴리스 선언문 이 기사는 https://dev.to/lewis_kerr_2d0d4c5b886b02/python-dynamic-web-scraping-example-application-of-selenium-and-webdriver-3330?1에 재현되어 있습니다. 침해가 있는 경우에는 Study_golang@163으로 문의하시기 바랍니다. .com에서 삭제하세요

최신 튜토리얼 더>

Homebrew에서 GO를 설정하면 명령 줄 실행 문제가 발생하는 이유는 무엇입니까?
발생하는 문제를 해결하려면 다음 단계를 따르십시오. 1. 필요한 디렉토리 만들기 mkdir $ home/go mkdir -p $ home/go/src/github.com/user 2. 환경 변수 구성

프로그램 작성 2025-03-14에 게시되었습니다
익명의 JavaScript 이벤트 처리기를 깨끗하게 제거하는 방법은 무엇입니까?
익명 이벤트 리스너를 제거하는 데 익명의 이벤트 리스너 추가 요소를 추가하면 유연성과 단순성을 제공하지만 유연성과 단순성을 제공하지만, 그것들을 제거 할 시간이되면, 요소 자체를 교체하지 않고 도전 할 수 있습니다. 요소? element.addevent...

프로그램 작성 2025-03-14에 게시되었습니다
Java는 여러 반환 유형을 허용합니까 : 일반적인 방법을 자세히 살펴보십시오.
public 목록 getResult (문자열 s); 여기서 foo는 사용자 정의 클래스입니다. 이 방법 선언은 두 가지 반환 유형을 자랑하는 것처럼 보입니다. 목록과 E. 그러나 이것이 사실인가? 일반 방법 : 미스터리 메소드는 단일...

프로그램 작성 2025-03-14에 게시되었습니다
regex를 사용하여 PHP에서 괄호 안에서 텍스트를 추출하는 방법
$ fullstring = "이 (텍스트)을 제외한 모든 것을 무시하는 것"; $ start = strpos ( ', $ fullstring); $ fullString); $ shortstring = substr ($ fulls...

프로그램 작성 2025-03-14에 게시되었습니다
유효한 코드에도 불구하고 PHP의 입력을 캡처하는 사후 요청이없는 이유는 무엇입니까?
post request 오작동 주소 php action='' var_dump를 사용하여 양식 제출 후 $ _post 배열의 내용을 확인합니다. action="<?php echo $_SERVER['PHP_SELF'];?>&...

프로그램 작성 2025-03-14에 게시되었습니다
HTML 서식 태그
HTML 서식 요소 **HTML Formatting is a process of formatting text for better look and feel. HTML provides us ability to format text without...

프로그램 작성 2025-03-14에 게시되었습니다
동적 인 크기의 부모 요소 내에서 요소의 스크롤 범위를 제한하는 방법은 무엇입니까?
문제 : 고정 된 사이드 바로 조정을 유지하면서 사용자의 수직 스크롤과 함께 이동하는 스크롤 가능한 맵 디브가있는 레이아웃을 고려합니다. 그러나 맵의 스크롤은 뷰포트의 높이를 초과하여 사용자가 페이지 바닥 글에 액세스하는 것을 방지합니다. ...

프로그램 작성 2025-03-14에 게시되었습니다
버전 5.6.5 이전에 MySQL의 Timestamp 열을 사용하여 current_timestamp를 사용하는 데 제한 사항은 무엇입니까?
5.6.5 이전에 mysql 버전의 기본적으로 또는 업데이트 클로즈가있는 타임 스탬프 열의 제한 사항 5.6.5 5.6.5 이전에 mySQL 버전에서 Timestamp Holumn에 전적으로 기본적으로 한 제한 사항이 있었는데, 이는 제한적으로 전혀 ...

프로그램 작성 2025-03-14에 게시되었습니다
$\ "일반 오류 : 2006 MySQL Server가 사라졌습니다 \"데이터를 삽입 할 때?$
\ "일반 오류 : 2006 MySQL Server가 사라졌습니다 \"데이터를 삽입 할 때?
를 해결하는 방법 "일반 오류 : 2006 MySQL Server가 사라졌습니다. 이 오류는 일반적으로 MySQL 구성의 두 변수 중 하나로 인해 서버에 대한 연결이 손실 될 때 발생합니다. 솔루션 : 이 오류를 해결하기위한 키는 Wait_Ti...

프로그램 작성 2025-03-14에 게시되었습니다
JavaScript 객체에서 키를 동적으로 설정하는 방법은 무엇입니까?
jsobj = 'example'1; jsObj['key' i] = 'example' 1; 배열은 특수한 유형의 객체입니다. 그것들은 숫자 특성 (인치) + 1의 수를 반영하는 길이 속성을 유지합니다. 이 특별한 동작은 표준 객체에...

프로그램 작성 2025-03-14에 게시되었습니다
PostgreSQL의 각 고유 식별자에 대한 마지막 행을 효율적으로 검색하는 방법은 무엇입니까?
postgresql : 각각의 고유 식별자에 대한 마지막 행을 추출하는 select distinct on (id) id, date, another_info from the_table order by id, date desc; id ...

프로그램 작성 2025-03-14에 게시되었습니다
교체 지시문을 사용하여 GO MOD에서 모듈 경로 불일치를 해결하는 방법은 무엇입니까?
[ github.com/coreos/coreos/client github.com/coreos/etcd/client.test imports github.com/coreos/etcd/integration에 의해 테스트 된 Echoed 메시지에 의해 입증 된 바와...

프로그램 작성 2025-03-14에 게시되었습니다
MySQL에서 데이터를 피벗하여 그룹을 어떻게 사용할 수 있습니까?
select d.data_timestamp, sum (data_id = 1 that data_value else 0 End), 'input_1'로 0 End), sum (data_id = 2 an Els.] d.data_timestamp ...

프로그램 작성 2025-03-14에 게시되었습니다
Google API에서 최신 JQuery 라이브러리를 검색하는 방법은 무엇입니까?
https://code.jquery.com/jquery-latest.min.js (jQuery Hosted, Minified) https://code.jquery.com/jquery-latest.js (JQuery Hosted, Hosted, 비 압축) 압축...

프로그램 작성 2025-03-14에 게시되었습니다
Object-Fit : IE 및 Edge에서 표지가 실패, 수정 방법?
이 문제를 해결하기 위해 문제를 해결하는 영리한 CSS 솔루션을 사용합니다. -50%); 높이 : 100%; 너비 : 자동; // 수직 블록의 경우 높이 : 자동; 너비 : 100%; // 수평 블록의 경우 이 조합은 절대 포지셔닝을 사용하여 중앙에서 ...

프로그램 작성 2025-03-14에 게시되었습니다