ब्यूटीफुल सूप एक पायथन लाइब्रेरी है जिसका उपयोग वेब पेजों से डेटा को स्क्रैप करने के लिए किया जाता है। यह HTML और XML दस्तावेज़ों को पार्स करने के लिए एक पार्स ट्री बनाता है, जिससे वांछित जानकारी निकालना आसान हो जाता है।
ब्यूटीफुल सूप वेब स्क्रैपिंग के लिए कई प्रमुख कार्यक्षमताएं प्रदान करता है:
ब्यूटीफुल सूप का उपयोग करने के लिए, आपको लाइब्रेरी को lxml या html.parser जैसे पार्सर के साथ स्थापित करना होगा। आप उन्हें पिप
का उपयोग करके स्थापित कर सकते हैं
#Install Beautiful Soup using pip. pip install beautifulsoup4 lxml
कई पृष्ठों पर सामग्री प्रदर्शित करने वाली वेबसाइटों से निपटते समय, सभी डेटा को स्क्रैप करने के लिए पेजिनेशन को संभालना आवश्यक है।
import requests from bs4 import BeautifulSoup base_url = 'https://example-blog.com/page/' page_number = 1 all_titles = [] while True: # Construct the URL for the current page url = f'{base_url}{page_number}' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # Find all article titles on the current page titles = soup.find_all('h2', class_='article-title') if not titles: break # Exit the loop if no titles are found (end of pagination) # Extract and store the titles for title in titles: all_titles.append(title.get_text()) # Move to the next page page_number = 1 # Print all collected titles for title in all_titles: print(title)
कभी-कभी, आपको जो डेटा निकालने की आवश्यकता होती है वह टैग की कई परतों में निहित होता है। नेस्टेड डेटा निष्कर्षण को संभालने का तरीका यहां बताया गया है।
import requests from bs4 import BeautifulSoup url = 'https://example-blog.com/post/123' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # Find the comments section comments_section = soup.find('div', class_='comments') # Extract individual comments comments = comments_section.find_all('div', class_='comment') for comment in comments: # Extract author and content from each comment author = comment.find('span', class_='author').get_text() content = comment.find('p', class_='content').get_text() print(f'Author: {author}\nContent: {content}\n')
कई आधुनिक वेबसाइटें डेटा को गतिशील रूप से लोड करने के लिए AJAX का उपयोग करती हैं। AJAX को संभालने के लिए विभिन्न तकनीकों की आवश्यकता होती है, जैसे ब्राउज़र डेवलपर टूल का उपयोग करके नेटवर्क अनुरोधों की निगरानी करना और उन अनुरोधों को अपने स्क्रैपर में दोहराना।
import requests from bs4 import BeautifulSoup # URL to the API endpoint providing the AJAX data ajax_url = 'https://example.com/api/data?page=1' response = requests.get(ajax_url) data = response.json() # Extract and print data from the JSON response for item in data['results']: print(item['field1'], item['field2'])
वेब स्क्रैपिंग के लिए कानूनी, तकनीकी और नैतिक जोखिमों पर सावधानीपूर्वक विचार करने की आवश्यकता होती है। उचित सुरक्षा उपायों को लागू करके, आप इन जोखिमों को कम कर सकते हैं और जिम्मेदारीपूर्वक और प्रभावी ढंग से वेब स्क्रैपिंग का संचालन कर सकते हैं।
ब्यूटीफुल सूप एक शक्तिशाली लाइब्रेरी है जो HTML और XML दस्तावेज़ों को नेविगेट करने और खोजने के लिए उपयोग में आसान इंटरफ़ेस प्रदान करके वेब स्क्रैपिंग की प्रक्रिया को सरल बनाती है। यह विभिन्न पार्सिंग कार्यों को संभाल सकता है, जिससे यह वेब से डेटा निकालने के इच्छुक किसी भी व्यक्ति के लिए एक आवश्यक उपकरण बन जाता है।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3