Beautiful Soup は、Web ページからデータを収集するために使用される Python ライブラリです。 HTML および XML ドキュメントを解析するための解析ツリーを作成し、必要な情報を簡単に抽出できるようにします。
Beautiful Soup は、Web スクレイピングのためのいくつかの重要な機能を提供します:
Beautiful Soupを使用するには、lxmlやhtml.parserなどのパーサーとともにライブラリをインストールする必要があります。 pip
#Install Beautiful Soup using pip. pip install beautifulsoup4 lxml
複数のページにまたがってコンテンツを表示する Web サイトを扱う場合、すべてのデータを収集するにはページネーションの処理が不可欠です。
import requests from bs4 import BeautifulSoup base_url = '' page_number = 1 all_titles = [] while True: # Construct the URL for the current page url = f'{base_url}{page_number}' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # Find all article titles on the current page titles = soup.find_all('h2', class_='article-title') if not titles: break # Exit the loop if no titles are found (end of pagination) # Extract and store the titles for title in titles: all_titles.append(title.get_text()) # Move to the next page page_number = 1 # Print all collected titles for title in all_titles: print(title)
import requests from bs4 import BeautifulSoup url = '' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # Find the comments section comments_section = soup.find('div', class_='comments') # Extract individual comments comments = comments_section.find_all('div', class_='comment') for comment in comments: # Extract author and content from each comment author = comment.find('span', class_='author').get_text() content = comment.find('p', class_='content').get_text() print(f'Author: {author}\nContent: {content}\n')
最近の Web サイトの多くは AJAX を使用してデータを動的に読み込みます。 AJAX を処理するには、ブラウザ開発者ツールを使用してネットワーク リクエストを監視し、スクレイパーでそれらのリクエストを複製するなど、さまざまなテクニックが必要です。
import requests from bs4 import BeautifulSoup # URL to the API endpoint providing the AJAX data ajax_url = '' response = requests.get(ajax_url) data = response.json() # Extract and print data from the JSON response for item in data['results']: print(item['field1'], item['field2'])
Web スクレイピングでは、法的、技術的、倫理的なリスクを慎重に検討する必要があります。適切な安全対策を実装することで、これらのリスクを軽減し、責任を持って効果的に Web スクレイピングを実行できます。
Beautiful Soup は、HTML および XML ドキュメントをナビゲートおよび検索するための使いやすいインターフェイスを提供することで、Web スクレイピングのプロセスを簡素化する強力なライブラリです。さまざまな解析タスクを処理できるため、Web からデータを抽出したい人にとって不可欠なツールになります。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3