Python で Web データをスクレイピングするには、通常、HTTP リクエストをターゲット Web サイトに送信し、返された HTML または JSON データを解析することが含まれます。以下は、リクエスト ライブラリを使用して HTTP リクエストを送信し、BeautifulSouplibrary を使用して HTML を解析する単純な Web スクレイピング アプリケーションの例です。
まず、リクエストと beautifulsoup4 ライブラリがインストールされていることを確認してください。そうでない場合は、次のコマンドを使用してインストールできます:
pip インストール リクエスト beautifulsoup4
次に、次のような Python スクリプトを記述してネットワーク データを収集できます:
import requests from bs4 import BeautifulSoup # URL of the target website url = 'http://example.com' # Sending HTTP GET request response = requests.get(url) # Check if the request was successful if response.status_code == 200: # Parsing HTML with BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') # Extract the required data, for example, extract all the titles titles = soup.find_all('h1') # Print title for title in titles: print(title.text) else: print('Request failed,status code:', response.status_code)
この例では、最初にリクエストと BeautifulSouplibraries をインポートしました。次に、ターゲット Web サイトの URL を定義し、requests.get() メソッドを使用して HTTP GET リクエストを送信しました。リクエストが成功した場合 (ステータス コードが 200)、BeautifulSoup を使用して返された HTML を解析し、通常はページのメイン タイトルを含むすべての
実際の Web スクレイピング プロジェクトでは、ターゲット Web サイトの robots.txt ファイルのルールに準拠し、Web サイトの著作権と利用規約を尊重する必要があることに注意してください。さらに、一部の Web サイトでは、コンテンツの動的ロード、キャプチャ検証などのクローラー対策技術を使用している場合があり、より複雑な処理戦略が必要になる場合があります。
プロキシを使用して Web サイトをクロールすることは、IP 制限やクローラー対策メカニズムを回避する一般的な方法です。プロキシ サーバーは仲介者として機能し、リクエストをターゲット Web サイトに転送し、応答を返すことができます。これにより、ターゲット Web サイトは実際の IP アドレスではなくプロキシ サーバーの IP アドレスのみを認識できるようになります。
Python では、requestslibrary を使用してプロキシを設定できます。以下は、プロキシを使用して HTTP リクエストを送信する方法を示す簡単な例です:
import requests # The IP address and port provided by swiftproxy proxy = { 'http': 'http://45.58.136.104:14123', 'https': 'http://119.28.12.192:23529', } # URL of the target website url = 'http://example.com' # Sending requests using a proxy response = requests.get(url, proxies=proxy) # Check if the request was successful if response.status_code == 200: print('Request successful, response content:', response.text) else: print('Request failed,status code:', response.status_code)
プロキシ サーバーの IP とポートを実際のプロキシ サーバーのアドレスに置き換える必要があることに注意してください。また、プロキシ サーバーが信頼でき、クロールする Web サイトをサポートしていることを確認してください。一部の Web サイトでは、既知のプロキシ サーバーからのリクエストを検出してブロックする場合があるため、プロキシ サーバーを定期的に変更するか、より高度なプロキシ サービスを使用する必要がある場合があります。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3