如何使用 Beautiful Soup 從公共網路中提取數據

首頁 > 程式設計 > 如何使用 Beautiful Soup 從公共網路中提取數據

如何使用 Beautiful Soup 從公共網路中提取數據

發佈於2024-08-01

How Beautiful Soup is used to extract data out of the Public Web

Beautiful Soup 是用於從網頁擷取資料的 Python 函式庫。它會建立用於解析 HTML 和 XML 文件的解析樹，從而可以輕鬆提取所需的資訊。

Beautiful Soup 為網頁擷取提供了幾個關鍵功能：

導航解析樹：您可以輕鬆導航解析樹並蒐索元素、標籤和屬性。
修改解析樹：它允許您修改解析樹，包括新增、刪除和更新標籤和屬性。
輸出格式：可以將解析樹轉換回字串，方便保存修改後的內容。

要使用 Beautiful Soup，您需要安裝該程式庫以及解析器，例如 lxml 或 html.parser。您可以使用 pip
安裝它們

#Install Beautiful Soup using pip.
pip install beautifulsoup4 lxml

處理分頁

當處理跨多個頁面顯示內容的網站時，處理分頁對於抓取所有資料至關重要。

識別分頁結構：檢查網站以了解分頁的結構（例如，下一頁按鈕或編號連結）。
迭代頁面：使用循環迭代每個頁面並抓取資料。
更新URL或參數：修改URL或參數以取得下一頁的內容。

import requests
from bs4 import BeautifulSoup

base_url = 'https://example-blog.com/page/'
page_number = 1
all_titles = []

while True:
    # Construct the URL for the current page
    url = f'{base_url}{page_number}'
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Find all article titles on the current page
    titles = soup.find_all('h2', class_='article-title')
    if not titles:
        break  # Exit the loop if no titles are found (end of pagination)

    # Extract and store the titles
    for title in titles:
        all_titles.append(title.get_text())

    # Move to the next page
    page_number  = 1

# Print all collected titles
for title in all_titles:
    print(title)

提取嵌套數據

有時，您需要提取的資料嵌套在多層標籤中。以下是如何處理嵌套資料提取。

導覽至父標籤： 尋找包含嵌套資料的父標籤。
提取嵌套標籤： 在每個父標籤中，尋找並提取嵌套標籤。
迭代嵌套標籤：迭代嵌套標籤以提取所需資訊。

import requests
from bs4 import BeautifulSoup

url = 'https://example-blog.com/post/123'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Find the comments section
comments_section = soup.find('div', class_='comments')

# Extract individual comments
comments = comments_section.find_all('div', class_='comment')

for comment in comments:
    # Extract author and content from each comment
    author = comment.find('span', class_='author').get_text()
    content = comment.find('p', class_='content').get_text()
    print(f'Author: {author}\nContent: {content}\n')

處理 AJAX 請求

許多現代網站使用 AJAX 動態載入資料。處理 AJAX 需要不同的技術，例如使用瀏覽器開發人員工具監視網路請求並在抓取工具中複製這些請求。

import requests
from bs4 import BeautifulSoup

# URL to the API endpoint providing the AJAX data
ajax_url = 'https://example.com/api/data?page=1'
response = requests.get(ajax_url)
data = response.json()

# Extract and print data from the JSON response
for item in data['results']:
    print(item['field1'], item['field2'])

網頁抓取的風險

網路抓取需要仔細考慮法律、技術和道德風險。透過實施適當的保護措施，您可以減輕這些風險並負責任且有效地進行網路抓取。

違反服務條款：許多網站在其服務條款 (ToS) 中明確禁止抓取。違反這些條款可能會導致法律訴訟。
智慧財產權問題：未經許可抓取內容可能侵害智慧財產權，引發法律糾紛。
IP 封鎖：網站可能會偵測並封鎖表現出抓取行為的 IP 位址。
帳號封鎖：如果在需要使用者驗證的網站上進行抓取，則用於抓取的帳號可能會被封鎖。

Beautiful Soup 是一個功能強大的庫，它透過提供易於使用的介面來導航和搜尋 HTML 和 XML 文檔，從而簡化了網頁抓取過程。它可以處理各種解析任務，使其成為任何想要從網路中提取資料的人的必備工具。

版本聲明本文轉載於：https://dev.to/marcosconci/how-beautiful-soup-is-used-to-extract-data-out-of-the-public-web-51gg?1如有侵犯，請聯絡study_golang @163.com刪除

最新教學更多>

為什麼我的CSS背景圖像出現？
故障排除：CSS背景圖像未出現，您的背景圖像儘管遵循教程說明，但您的背景圖像仍未加載。圖像和样式表位於相同的目錄中，但背景仍然是空白的白色帆布。而不是不棄用的，您已經使用了CSS樣式： bockent {背景：封閉圖像文件名：背景圖：url（nickcage.jpg）; 如果您的html，cs...

程式設計發佈於2025-03-26
如何在Java中正確顯示“ DD/MM/YYYY HH：MM：SS.SS”格式的當前日期和時間？
如何在“ dd/mm/yyyy hh：mm：mm：ss.ss”格式“ gormat 解決方案：的，請訪問量很大，並應為procectiquiestate的，並在整個代碼上正確格式不多： java.text.simpledateformat; 導入java.util.calendar; 導入java...

程式設計發佈於2025-03-26
可以在純CS中將多個粘性元素彼此堆疊在一起嗎？
[2这里： https：//webthemez.com/demo/sticky-multi-header-scroll/index.html </main> <section> { display：grid; grid-template-...

程式設計發佈於2025-03-26
如何使用組在MySQL中旋轉數據？
在關係數據庫中使用mySQL組使用mySQL組進行查詢結果，在關係數據庫中使用MySQL組，轉移數據的數據是指重新排列的行和列的重排以增強數據可視化。在這裡，我們面對一個共同的挑戰：使用組的組將數據從基於行的基於列的轉換為基於列。 Let's consider the following ...

程式設計發佈於2025-03-26
如何簡化PHP中的JSON解析以獲取多維陣列？
php 試圖在PHP中解析JSON數據的JSON可能具有挑戰性，尤其是在處理多維數組時。 To simplify the process, it's recommended to parse the JSON as an array rather than an object.To do...

程式設計發佈於2025-03-26
如何在Java字符串中有效替換多個子字符串？
在java 中有效地替換多個substring，需要在需要替換一個字符串中的多個substring的情況下，很容易求助於重複應用字符串的刺激力量。 However, this can be inefficient for large strings or when working with nu...

程式設計發佈於2025-03-26
在GO中構造SQL查詢時，如何安全地加入文本和值？
在go中構造文本sql查詢時，在go sql queries 中，在使用conting and contement和contement consem per時，尤其是在使用integer per當per當per時，per per per當per. [&&&&&&&&&&&&&&&&默元組方法在...

程式設計發佈於2025-03-26
如何將PANDAS DataFrame列轉換為DateTime格式並按日期過濾？
Transform Pandas DataFrame Column to DateTime FormatScenario:Data within a Pandas DataFrame often exists in various formats, including strings.使用時間數據時...

程式設計發佈於2025-03-26
如何在Java中執行命令提示命令，包括目錄更改，包括目錄更改？
在java 通過Java通過Java運行命令命令可能很具有挑戰性。儘管您可能會找到打開命令提示符的代碼段，但他們通常缺乏更改目錄並執行其他命令的能力。 solution：使用Java使用Java，使用processBuilder。這種方法允許您：啟動一個過程，然後將其標準錯誤重定向到其標準輸出...

程式設計發佈於2025-03-26
Java是否允許多種返回類型：仔細研究通用方法？
在Java中的多個返回類型：一種誤解類型：在Java編程中揭示，在Java編程中，Peculiar方法簽名可能會出現，可能會出現，使開發人員陷入困境，使開發人員陷入困境。 getResult（string s）; ，其中foo是自定義類。該方法聲明似乎擁有兩種返回類型：列表和E。但這確實是如此嗎...

程式設計發佈於2025-03-26
為什麼我在Silverlight Linq查詢中獲得“無法找到查詢模式的實現”錯誤？
查詢模式實現缺失：解決“無法找到”錯誤在Silverlight應用程序中，嘗試使用LINQ建立LINQ連接以錯誤而實現的數據庫”，無法找到查詢模式的實現。”當省略LINQ名稱空間或查詢類型缺少IEnumerable 實現時，通常會發生此錯誤。解決問題來驗證該類型的質量是至關重要的。在此特定實例...

程式設計發佈於2025-03-26
如何在GO編譯器中自定義編譯優化？
在GO編譯器中自定義編譯優化 GO中的默認編譯過程遵循特定的優化策略。 However, users may need to adjust these optimizations for specific requirements.Optimization Control in Go Compi...

程式設計發佈於2025-03-26
$\“（1）vs.（;;）：編譯器優化是否消除了性能差異？\”$
\“（1）vs.（;;）：編譯器優化是否消除了性能差異？\”
答案：在大多數現代編譯器中，while（1）和（1）和（;;）之間沒有性能差異。編譯器： perl： 1 輸入 - > 2 2 NextState（Main 2 -E：1）V-> 3 9 Leaveloop VK/2-> A 3 toterloop（next-> 8 last-> 9 ...

程式設計發佈於2025-03-26
為什麼我會收到MySQL錯誤＃1089：錯誤的前綴密鑰？
mySQL錯誤＃1089：錯誤的前綴鍵錯誤descript [＃1089-不正確的前綴鍵在嘗試在表中創建一個prefix鍵時會出現。前綴鍵旨在索引字符串列的特定前綴長度長度，可以更快地搜索這些前綴。了解prefix keys `這將在整個Movie_ID列上創建標準主鍵。主密鑰對於唯一識...

程式設計發佈於2025-03-26
如何從PHP中的Unicode字符串中有效地產生對URL友好的sl。
為有效的slug生成首先，該函數用指定的分隔符替換所有非字母或數字字符。此步驟可確保slug遵守URL慣例。隨後，它採用ICONV函數將文本簡化為us-ascii兼容格式，從而允許更廣泛的字符集合兼容性。接下來，該函數使用正則表達式刪除了不需要的字符，例如特殊字符和空格。此步驟可確保slug僅包...

程式設計發佈於2025-03-26