Beautiful Soup 是用於從網頁擷取資料的 Python 函式庫。它會建立用於解析 HTML 和 XML 文件的解析樹,從而可以輕鬆提取所需的資訊。
Beautiful Soup 為網頁擷取提供了幾個關鍵功能:
要使用 Beautiful Soup,您需要安裝該程式庫以及解析器,例如 lxml 或 html.parser。您可以使用 pip
安裝它們
#Install Beautiful Soup using pip. pip install beautifulsoup4 lxml
當處理跨多個頁面顯示內容的網站時,處理分頁對於抓取所有資料至關重要。
import requests from bs4 import BeautifulSoup base_url = 'https://example-blog.com/page/' page_number = 1 all_titles = [] while True: # Construct the URL for the current page url = f'{base_url}{page_number}' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # Find all article titles on the current page titles = soup.find_all('h2', class_='article-title') if not titles: break # Exit the loop if no titles are found (end of pagination) # Extract and store the titles for title in titles: all_titles.append(title.get_text()) # Move to the next page page_number = 1 # Print all collected titles for title in all_titles: print(title)
有時,您需要提取的資料嵌套在多層標籤中。以下是如何處理嵌套資料提取。
import requests from bs4 import BeautifulSoup url = 'https://example-blog.com/post/123' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # Find the comments section comments_section = soup.find('div', class_='comments') # Extract individual comments comments = comments_section.find_all('div', class_='comment') for comment in comments: # Extract author and content from each comment author = comment.find('span', class_='author').get_text() content = comment.find('p', class_='content').get_text() print(f'Author: {author}\nContent: {content}\n')
許多現代網站使用 AJAX 動態載入資料。處理 AJAX 需要不同的技術,例如使用瀏覽器開發人員工具監視網路請求並在抓取工具中複製這些請求。
import requests from bs4 import BeautifulSoup # URL to the API endpoint providing the AJAX data ajax_url = 'https://example.com/api/data?page=1' response = requests.get(ajax_url) data = response.json() # Extract and print data from the JSON response for item in data['results']: print(item['field1'], item['field2'])
網路抓取需要仔細考慮法律、技術和道德風險。透過實施適當的保護措施,您可以減輕這些風險並負責任且有效地進行網路抓取。
Beautiful Soup 是一個功能強大的庫,它透過提供易於使用的介面來導航和搜尋 HTML 和 XML 文檔,從而簡化了網頁抓取過程。它可以處理各種解析任務,使其成為任何想要從網路中提取資料的人的必備工具。
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3