Beautiful Soup을 사용하여 공개 웹에서 데이터를 추출하는 방법

첫 장 > 프로그램 작성 > Beautiful Soup을 사용하여 공개 웹에서 데이터를 추출하는 방법

Beautiful Soup을 사용하여 공개 웹에서 데이터를 추출하는 방법

2024-08-01에 게시됨

검색:959

How Beautiful Soup is used to extract data out of the Public Web

Beautiful Soup은 웹페이지에서 데이터를 스크랩하는 데 사용되는 Python 라이브러리입니다. HTML 및 XML 문서를 구문 분석하기 위한 구문 분석 트리를 생성하여 원하는 정보를 쉽게 추출할 수 있습니다.

Beautiful Soup은 웹 스크래핑을 위한 몇 가지 핵심 기능을 제공합니다:

구문 분석 트리 탐색: 구문 분석 트리를 쉽게 탐색하고 요소, 태그 및 속성을 검색할 수 있습니다.
구문 분석 트리 수정: 태그와 속성의 추가, 제거, 업데이트를 포함하여 구문 분석 트리를 수정할 수 있습니다.
출력 형식: 구문 분석 트리를 다시 문자열로 변환하여 수정된 내용을 쉽게 저장할 수 있습니다.

뷰티플수프를 사용하려면 lxml이나 html.parser 등의 파서와 함께 라이브러리를 설치해야 합니다. pip
를 사용하여 설치할 수 있습니다.

#Install Beautiful Soup using pip.
pip install beautifulsoup4 lxml

페이지 매김 처리

여러 페이지에 걸쳐 콘텐츠를 표시하는 웹사이트를 처리할 때 모든 데이터를 스크랩하려면 페이지 매김 처리가 필수적입니다.

페이지 매김 구조 식별: 웹사이트를 검사하여 페이지 매김 구조를 이해합니다(예: 다음 페이지 버튼 또는 번호가 매겨진 링크).
페이지 반복: 루프를 사용하여 각 페이지를 반복하고 데이터를 스크랩합니다.
URL 또는 매개변수 업데이트: 다음 페이지의 콘텐츠를 가져오려면 URL 또는 매개변수를 수정하세요.

import requests
from bs4 import BeautifulSoup

base_url = 'https://example-blog.com/page/'
page_number = 1
all_titles = []

while True:
    # Construct the URL for the current page
    url = f'{base_url}{page_number}'
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Find all article titles on the current page
    titles = soup.find_all('h2', class_='article-title')
    if not titles:
        break  # Exit the loop if no titles are found (end of pagination)

    # Extract and store the titles
    for title in titles:
        all_titles.append(title.get_text())

    # Move to the next page
    page_number  = 1

# Print all collected titles
for title in all_titles:
    print(title)

중첩된 데이터 추출

추출해야 하는 데이터가 여러 태그 레이어 내에 중첩되어 있는 경우가 있습니다. 중첩된 데이터 추출을 처리하는 방법은 다음과 같습니다.

상위 태그로 이동: 중첩된 데이터가 포함된 상위 태그를 찾습니다.
중첩 태그 추출: 각 상위 태그 내에서 중첩 태그를 찾아 추출합니다.
중첩 태그를 통해 반복: 중첩 태그를 반복하여 필요한 정보를 추출합니다.

import requests
from bs4 import BeautifulSoup

url = 'https://example-blog.com/post/123'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Find the comments section
comments_section = soup.find('div', class_='comments')

# Extract individual comments
comments = comments_section.find_all('div', class_='comment')

for comment in comments:
    # Extract author and content from each comment
    author = comment.find('span', class_='author').get_text()
    content = comment.find('p', class_='content').get_text()
    print(f'Author: {author}\nContent: {content}\n')

AJAX 요청 처리

많은 최신 웹사이트에서는 AJAX를 사용하여 데이터를 동적으로 로드합니다. AJAX를 처리하려면 브라우저 개발자 도구를 사용하여 네트워크 요청을 모니터링하고 스크래퍼에서 해당 요청을 복제하는 등 다양한 기술이 필요합니다.

import requests
from bs4 import BeautifulSoup

# URL to the API endpoint providing the AJAX data
ajax_url = 'https://example.com/api/data?page=1'
response = requests.get(ajax_url)
data = response.json()

# Extract and print data from the JSON response
for item in data['results']:
    print(item['field1'], item['field2'])

웹 스크래핑의 위험

웹 스크래핑에는 법적, 기술적, 윤리적 위험을 신중하게 고려해야 합니다. 적절한 보호 장치를 구현하면 이러한 위험을 완화하고 책임감 있고 효과적으로 웹 스크래핑을 수행할 수 있습니다.

서비스 약관 위반: 많은 웹사이트에서는 서비스 약관(ToS)에서 스크래핑을 명시적으로 금지하고 있습니다. 본 약관을 위반할 경우 법적 조치를 받을 수 있습니다.
지적재산권 문제: 허가 없이 콘텐츠를 스크랩하는 경우 지적재산권이 침해되어 법적 분쟁으로 이어질 수 있습니다.
IP 차단: 웹사이트는 스크래핑 동작을 보이는 IP 주소를 감지하고 차단할 수 있습니다.
계정 차단: 사용자 인증이 필요한 웹사이트에서 스크래핑을 수행할 경우, 스크래핑에 사용된 계정이 차단될 수 있습니다.

Beautiful Soup은 HTML 및 XML 문서 탐색 및 검색을 위한 사용하기 쉬운 인터페이스를 제공하여 웹 스크래핑 프로세스를 단순화하는 강력한 라이브러리입니다. 다양한 구문 분석 작업을 처리할 수 있으므로 웹에서 데이터를 추출하려는 모든 사람에게 필수적인 도구입니다.

릴리스 선언문 이 기사는 https://dev.to/marcosconci/how-beautiful-soup-is-used-to-extract-data-out-of-the-public-web-51gg?1 에서 복제됩니다. 침해가 있는 경우 , [email protected]로 문의해주세요.

최신 튜토리얼 더>

Fastapi Custom 404 페이지 제작 가이드
custom 404 fastapi 가없는 페이지를 찾을 수 없습니다. 적절한 방법은 특정 요구 사항에 따라 다릅니다. 404 상태 코드에서 리디렉션 response = await call_next(request) if response.sta...

프로그램 작성 2025-07-12에 게시되었습니다
Java는 여러 반환 유형을 허용합니까 : 일반적인 방법을 자세히 살펴보십시오.
public 목록 getResult (문자열 s); 여기서 foo는 사용자 정의 클래스입니다. 이 방법 선언은 두 가지 반환 유형을 자랑하는 것처럼 보입니다. 목록과 E. 그러나 이것이 사실인가? 일반 방법 : 미스터리 메소드는 단일...

프로그램 작성 2025-07-12에 게시되었습니다
PHP를 사용하여 XML 파일에서 속성 값을 효율적으로 검색하려면 어떻게해야합니까?
옵션> 1 varnum "varnum"을 복원 할 수 있습니다. stumped. 이 기능은 XML 요소의 속성에 대한 액세스를 연관 배열로 제공합니다. $ xml = simplexml_load_file ($ file);...

프로그램 작성 2025-07-12에 게시되었습니다
입력 : "경고 : mysqli_query ()는 왜 매개 변수 1이 mysqli, 주어진 리소스"오류가 발생하고이를 수정하는 방법을 기대 하는가? 출력 : 오류를 해결하는 분석 및 수정 방법 "경고 : MySQLI_QUERY () 매개 변수는 리소스 대신 MySQLI 여야합니다."
mysqli_query () mysqli_query ()는 매개 변수 1이 mysqli, 리소스가 주어진 리소스, mysqli_query () 함수를 사용하여 mysql query를 실행하려고 시도 할 때 "경고 : mysqli_query (...

프로그램 작성 2025-07-12에 게시되었습니다
파이썬에서 문자열에서 이모티콘을 제거하는 방법 : 일반적인 오류 수정에 대한 초보자 가이드?
Codecs 가져 오기. 가져 오기 re text = codecs.decode ( '이 개 \ u0001f602'.encode ('utf-8 '),'utf-8 ') 인쇄 (텍스트) # 이모티콘으로 emoji_patter...

프로그램 작성 2025-07-12에 게시되었습니다
PostgreSQL의 각 고유 식별자에 대한 마지막 행을 효율적으로 검색하는 방법은 무엇입니까?
postgresql : 각각의 고유 식별자에 대한 마지막 행을 추출하는 select distinct on (id) id, date, another_info from the_table order by id, date desc; id ...

프로그램 작성 2025-07-12에 게시되었습니다
유효한 코드에도 불구하고 PHP의 입력을 캡처하는 사후 요청이없는 이유는 무엇입니까?
post request 오작동 주소 php action='' action = "

프로그램 작성 2025-07-12에 게시되었습니다
자바 스크립트 객체의 키를 알파벳순으로 정렬하는 방법은 무엇입니까?
object.keys (...) . .sort () . 정렬 된 속성을 보유 할 새 개체를 만듭니다. 정렬 된 키 어레이를 반복하고 리소셔 함수를 사용하여 원래 객체에서 새 객체에 해당 값과 함께 각 키를 추가합니다. 다음 코드는 프로세...

프로그램 작성 2025-07-12에 게시되었습니다
순수한 CS로 여러 끈적 끈적한 요소를 서로 쌓을 수 있습니까?
순수한 CSS에서 서로 위에 여러 개의 끈적 끈적 요소가 쌓일 수 있습니까? 원하는 동작을 볼 수 있습니다. 여기 : https://webthemez.com/demo/sticky-multi-header-scroll/index.html Java...

프로그램 작성 2025-07-12에 게시되었습니다
익명의 JavaScript 이벤트 처리기를 깨끗하게 제거하는 방법은 무엇입니까?
익명 이벤트 리스너를 제거하는 데 익명의 이벤트 리스너 추가 요소를 추가하면 유연성과 단순성을 제공하지만 유연성과 단순성을 제공하지만, 그것들을 제거 할 시간이되면, 요소 자체를 교체하지 않고 도전 할 수 있습니다. 요소? element.addevent...

프로그램 작성 2025-07-12에 게시되었습니다
두 날짜 사이의 일 수를 계산하는 JavaScript 방법
const date1 = 새로운 날짜 ( '7/13/2010'); const date2 = new 날짜 ('12/15/2010 '); const difftime = math.abs (date2 -date1); const diff...

프로그램 작성 2025-07-12에 게시되었습니다
버전 5.6.5 이전에 MySQL의 Timestamp 열을 사용하여 current_timestamp를 사용하는 데 제한 사항은 무엇입니까?
5.6.5 이전에 mysql 버전의 기본적으로 또는 업데이트 클로즈가있는 타임 스탬프 열의 제한 사항 5.6.5 5.6.5 이전에 mySQL 버전에서 Timestamp Holumn에 전적으로 기본적으로 한 제한 사항이 있었는데, 이는 제한적으로 전혀 ...

프로그램 작성 2025-07-12에 게시되었습니다
Object-Fit : IE 및 Edge에서 표지가 실패, 수정 방법?
이 문제를 해결하기 위해 문제를 해결하는 영리한 CSS 솔루션을 사용합니다. -50%); 높이 : 100%; 너비 : 자동; // 수직 블록의 경우 높이 : 자동; 너비 : 100%; // 수평 블록의 경우 이 조합은 절대 포지셔닝을 사용하여 중앙에서 ...

프로그램 작성 2025-07-12에 게시되었습니다
PYTZ가 처음에 예상치 못한 시간대 오프셋을 표시하는 이유는 무엇입니까?
import pytz pytz.timezone ( 'Asia/Hong_kong') std> discrepancy source 역사 전반에 걸쳐 변동합니다. PYTZ가 제공하는 기본 시간대 이름 및 오프...

프로그램 작성 2025-07-12에 게시되었습니다
MySQL에서 데이터를 피벗하여 그룹을 어떻게 사용할 수 있습니까?
select d.data_timestamp, sum (data_id = 1 that data_value else 0 End), 'input_1'로 0 End), sum (data_id = 2 an Els.] d.data_timestamp ...

프로그램 작성 2025-07-12에 게시되었습니다