Beautiful Soup を使用してパブリック Web からデータを抽出する方法

表紙 > プログラミング > Beautiful Soup を使用してパブリック Web からデータを抽出する方法

Beautiful Soup を使用してパブリック Web からデータを抽出する方法

2024 年 8 月 1 日に公開

ブラウズ：804

How Beautiful Soup is used to extract data out of the Public Web

Beautiful Soup は、Web ページからデータを収集するために使用される Python ライブラリです。 HTML および XML ドキュメントを解析するための解析ツリーを作成し、必要な情報を簡単に抽出できるようにします。

Beautiful Soup は、Web スクレイピングのためのいくつかの重要な機能を提供します:

解析ツリーの移動: 解析ツリーを簡単に移動して、要素、タグ、属性を検索できます。
解析ツリーの変更: タグや属性の追加、削除、更新など、解析ツリーを変更できます。
出力形式: 解析ツリーを文字列に変換して戻すことができるため、変更したコンテンツを簡単に保存できます。

Beautiful Soupを使用するには、lxmlやhtml.parserなどのパーサーとともにライブラリをインストールする必要があります。 pip
を使用してインストールできます。

#Install Beautiful Soup using pip.
pip install beautifulsoup4 lxml

ページネーションの処理

複数のページにまたがってコンテンツを表示する Web サイトを扱う場合、すべてのデータを収集するにはページネーションの処理が不可欠です。

ページネーションの構造を特定する: Web サイトを検査して、ページネーションの構造 (次のページボタンや番号付きリンクなど) を理解します。
ページの反復: ループを使用して各ページを反復し、データをスクレイピングします。
URL またはパラメータを更新します: URL またはパラメータを変更して、次のページのコンテンツを取得します。

import requests
from bs4 import BeautifulSoup

base_url = 'https://example-blog.com/page/'
page_number = 1
all_titles = []

while True:
    # Construct the URL for the current page
    url = f'{base_url}{page_number}'
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Find all article titles on the current page
    titles = soup.find_all('h2', class_='article-title')
    if not titles:
        break  # Exit the loop if no titles are found (end of pagination)

    # Extract and store the titles
    for title in titles:
        all_titles.append(title.get_text())

    # Move to the next page
    page_number  = 1

# Print all collected titles
for title in all_titles:
    print(title)

ネストされたデータの抽出

抽出する必要があるデータが複数のタグ層内にネストされている場合があります。ネストされたデータ抽出を処理する方法は次のとおりです。

親タグに移動: ネストされたデータを含む親タグを見つけます。
ネストされたタグの抽出: 各親タグ内で、ネストされたタグを検索して抽出します。
ネストされたタグを反復処理する: ネストされたタグを反復処理して、必要な情報を抽出します。

import requests
from bs4 import BeautifulSoup

url = 'https://example-blog.com/post/123'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Find the comments section
comments_section = soup.find('div', class_='comments')

# Extract individual comments
comments = comments_section.find_all('div', class_='comment')

for comment in comments:
    # Extract author and content from each comment
    author = comment.find('span', class_='author').get_text()
    content = comment.find('p', class_='content').get_text()
    print(f'Author: {author}\nContent: {content}\n')

AJAXリクエストの処理

最近の Web サイトの多くは AJAX を使用してデータを動的に読み込みます。 AJAX を処理するには、ブラウザ開発者ツールを使用してネットワークリクエストを監視し、スクレイパーでそれらのリクエストを複製するなど、さまざまなテクニックが必要です。

import requests
from bs4 import BeautifulSoup

# URL to the API endpoint providing the AJAX data
ajax_url = 'https://example.com/api/data?page=1'
response = requests.get(ajax_url)
data = response.json()

# Extract and print data from the JSON response
for item in data['results']:
    print(item['field1'], item['field2'])

Webスクレイピングのリスク

Web スクレイピングでは、法的、技術的、倫理的なリスクを慎重に検討する必要があります。適切な安全対策を実装することで、これらのリスクを軽減し、責任を持って効果的に Web スクレイピングを実行できます。

利用規約違反: 多くの Web サイトでは、利用規約 (ToS) でスクレイピングを明示的に禁止しています。これらの規約に違反すると、法的措置が講じられる可能性があります。
知的財産の問題: 許可なくコンテンツをスクレイピングすると、知的財産権が侵害され、法的紛争につながる可能性があります。
IP ブロック: ウェブサイトは、スクレイピング動作を示す IP アドレスを検出してブロックする場合があります。
アカウントの禁止: ユーザー認証が必要な Web サイトでスクレイピングが実行された場合、スクレイピングに使用されたアカウントが禁止される可能性があります。

Beautiful Soup は、HTML および XML ドキュメントをナビゲートおよび検索するための使いやすいインターフェイスを提供することで、Web スクレイピングのプロセスを簡素化する強力なライブラリです。さまざまな解析タスクを処理できるため、Web からデータを抽出したい人にとって不可欠なツールになります。

リリースステートメントこの記事は、https：//dev.to/marcosconci/how-beautiful-side-extract-out-of the-public-51ggに再現されています

最新のチュートリアルもっと>

オブジェクトフィット：IEとEdgeでカバーが失敗します、修正方法は？
object-fit：カバーがIEとEDGEで失敗します。 CSSでは、一貫した画像の高さを維持するために、ブラウザ全体でシームレスに動作します。ただし、IEとEdgeでは、独特の問題が発生します。ブラウザをスケーリングすると、画像は高さをズームするのではなく幅でサイズを変更し、外観を歪め...

プログラミング 2025-04-23に投稿されました
顔を検出するための原因とソリューション：エラー-215
エラー処理： "エラー：（-215）！empty（）in function detectectmultiscale" in opencv の解決済みの誤報を検出しようとする場合、 "関数DetectMultiscale。」このエラーは、通常、顔の検出のため...

プログラミング 2025-04-23に投稿されました
PHPの配列からランダムな要素をどのように抽出しますか？
配列からのランダム選択は、配列からランダムなアイテムを取得することができます。次の配列を検討してください： $items = [523, 3452, 334, 31, 5346]; この配列からランダムなアイテムを取得するために、array_rand（）関数を利用することは効果的なソリューシ...

プログラミング 2025-04-23に投稿されました
バージョン5.6.5の前にMySQLのタイムスタンプ列を使用してcurrent_timestampを使用することの制限は何でしたか？
の制限current_timestampがデフォルトまたは5.6.5より前のmysqlバージョンのcurrent_timestampの更新条項の制限は歴史的に、5.6.5以前のmysqlバージョンでは、デフォルトの列のみを制限しました。 current_timestamp句。この制限は、20...

プログラミング 2025-04-23に投稿されました
C＃でインデントのために文字列文字を効率的に繰り返す方法は？
インデンテーションのために文字列を繰り返すアイテムの深さに基づいて文字列をインデントするとき、文字列を繰り返します。 Constructor 同じ文字を繰り返すだけの場合、文字を受け入れる文字列コンストラクターを使用してそれを繰り返すことができます： string indent = ...

プログラミング 2025-04-23に投稿されました
順序付けられていないコレクションにタプルの一般的なハッシュ関数を実装する方法は？
std :: unordered_mapとunordered_setコンテナは、ハスド値に基づいて効率的なルックアップと元素の挿入を提供します。ただし、カスタムハッシュ関数を定義せずにこれらのコレクションのキーとしてタプルを使用すると、予期しない動作につながる可能性があります。 st...

プログラミング 2025-04-23に投稿されました
Pandas DataFrame列を日付ごとにデータフレーム形式とフィルターに変換するにはどうすればよいですか？
パンダのデータフレーム列をdatetime形式に変換シナリオ：データは、ストリングを含むさまざまな形式でしばしば存在します。時間データを操作する場合、タイムスタンプは最初は文字列として表示されますが、正確な分析のためにデータタイム形式に変換する必要があります。この関数は、文字列列の予想...

プログラミング 2025-04-23に投稿されました
GO言語をスライスするときにメモリの漏れを避ける方法は？
メモリリークがGo Slices = nil //またはtのゼロ値 } a = a [：len（a）-j i] この2番目のアプローチは、不要な元のバッキングアレイの要素に明示的にnil-ing（またはゼロ値を割り当てる）により、メモリリークのポテンシャルに対処します。これにより、ぶ...

プログラミング 2025-04-23に投稿されました
Pandas DataFramesで列を効率的に選択するにはどうすればよいですか？
Pandas DataFrames の列の選択データ操作タスクを扱うと、特定の列の選択が必要になります。パンダでは、列を選択するためのさまざまなオプションがあります。数値インデックス列インデックスがわかっている場合、ILOC関数を使用してそれらを選択します。 Pythonインデック...

プログラミング 2025-04-23に投稿されました
GOでSQLクエリを構築するときに、テキストと値を安全に連結するにはどうすればよいですか？
go sql queries のテキストと値を連結するgoのテキストsqlクエリを構築する際に、特に文字列を使用した場合、文字列を使用した場合に、文字列を使用する場合、アプローチはGOでは有効ではなく、文字列としてパラメーターをキャストしようとすると、タイプのミスマッチエラーが発生しま...

プログラミング 2025-04-23に投稿されました
Javaの「DD/MM/YYYY HH：MM：SS.SS」形式で現在の日付と時刻を正しく表示するにはどうすればよいですか？
「dd/mm/yyyy hh：mm：ss.ss」形式で現在の日付と時刻を表示する方法。異なるフォーマットパターンを持つさまざまなSimpleDateFormatインスタンスの使用にあります。 java.text.simpledateformat; java.util.calendarをインポ...

プログラミング 2025-04-23に投稿されました
Appengineでは、エラー「ファイルタイプを推測できない、アプリケーション/Octet-Streamを使用できません...」を解くにはどうすればよいですか？
appengine static file mime mime type override appengine、静的ファイルハンドラーは正しいマイムタイプを時々オーバーライドすることができます。 Application/Octet-Stream ... " 問題解決 ...

プログラミング 2025-04-23に投稿されました
ネストされた機能とPythonの閉鎖の違いは何ですか
ネストされた関数とpython の閉鎖と閉鎖は、表面的に閉鎖に似ている一方で、キー差のために根本的に異なります： [非閉ざされた Pythonのネストされた関数は、以下の要件を満たしていないため閉鎖とは見なされません：は、それらは、エンクルの外側に実行される場合、に実行...

プログラミング 2025-04-23に投稿されました
ChatBotコマンドの実行のためにリアルタイムでstdoutをキャプチャしてストリーミングする方法は？
コマンド実行からリアルタイムでstdoutをキャプチャする再起動のライン（コマンド）： print（line）このコードでは、subprocess.popen（）関数を使用して指定されたコマンドを実行します。 stdoutパラメーターは、subprocess....

プログラミング 2025-04-23に投稿されました
formdata（）で複数のファイルアップロードを処理するにはどうすればよいですか？
formdata（）を使用して複数のファイルアップロードを処理すると、複数のファイルアップロードを処理する必要があることがよくあります。 fd.append("fileToUpload[]", files[x]);メソッドはこの目的に使用でき、単一のリクエストで複数...

プログラミング 2025-04-23に投稿されました