In diesem Leitfaden untersuchen wir, wie Sie mit Python Anwaltsdaten von juristischen Websites extrahieren können, wobei wir uns auf Anwälte in Atlanta, Georgia, konzentrieren. Diese Informationen können für diejenigen wertvoll sein, die einen Anwalt finden, nach Anwaltskanzleien suchen oder Daten über Anwälte in der Nähe sammeln möchten. Wir verwenden beliebte Python-Bibliotheken, um einen robusten Scraper zu erstellen, der Ihnen beim Sammeln von Informationen über Rechtsanwälte im Raum Atlanta helfen kann.
Voraussetzungen
Bevor wir beginnen, stellen Sie sicher, dass Sie Folgendes installiert haben:
Sie müssen diese Bibliotheken installieren:
pip install requests lxml csv
Einrichten des Scrapers
Zuerst importieren wir die notwendigen Bibliotheken und richten unsere Header und Cookies ein:
from lxml import html import os import csv import requests cookies = { ‘OptanonAlertBoxClosed’: ‘2024–08–29T14:38:29.268Z’, ‘_ga’: ‘GA1.2.1382693123.1724942310’, ‘_gid’: ‘GA1.2.373246331.1724942310’, ‘_gat’: ‘1’, ‘OptanonConsent’: ‘isIABGlobal=false&datestamp=Fri Aug 30 2024 00:17:14 GMT+0600 (Bangladesh Standard Time)&version=5.9.0&landingPath=NotLandingPage&groups=0_106263:1,0_116595:1,0_104533:1,101:1,1:1,0_116597:1,103:1,104:1,102:1,3:1,0_104532:1,2:1,4:1&AwaitingReconsent=false’, ‘_ga_JHNLZ3FY7V’: ‘GS1.2.1724954588.3.1.1724955436.0.0.0’, } headers = { ‘accept’: ‘text/html,application/xhtml xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7’, ‘accept-language’: ‘en-US,en;q=0.9,bn;q=0.8’, ‘cache-control’: ‘no-cache’, ‘dnt’: ‘1’, ‘pragma’: ‘no-cache’, ‘sec-ch-ua’: ‘“Chromium”;v=”128", “Not;A=Brand”;v=”24", “Google Chrome”;v=”128"’, ‘sec-ch-ua-mobile’: ‘?0’, ‘sec-ch-ua-platform’: ‘“Windows”’, ‘sec-fetch-dest’: ‘document’, ‘sec-fetch-mode’: ‘navigate’, ‘sec-fetch-site’: ‘cross-site’, ‘sec-fetch-user’: ‘?1’, ‘upgrade-insecure-requests’: ‘1’, ‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36’, }
Anfrage stellen
Stellen wir nun eine Anfrage an die Website, um Anwaltsdaten abzurufen:
response = requests.get( ‘https://www.kslaw.com/people?capability_id=&locale=en&office_id=1&page=1&per_page=400&q=&school_id=&starts_with=&title_id', cookies=cookies, headers=headers, )
Parsen des HTML
Wir verwenden lxml, um den HTML-Inhalt zu analysieren:
webp = html.fromstring(response.content) all_people_elems = webp.xpath(“//*[@id=’people_grid’]/div[@class=’person’]”)
Daten im CSV-Format speichern
Erstellen wir eine Funktion zum Speichern unserer Scraped-Daten in einer CSV-Datei:
def save_csv(filename, data_list, isFirst=False, removeAtStarting=True): “””Save data to csv file””” if isFirst: if os.path.isfile(filename): if removeAtStarting: os.remove(filename) else: pass with open(f’{filename}’, “a”, newline=’’, encoding=’utf-8-sig’) as fp: wr = csv.writer(fp, dialect=’excel’) wr.writerow(data_list) # Initialize the CSV file people_file = f”kslaw_people.csv” save_csv(people_file, [‘URL’, ‘Name’, ‘Status’, ‘Fax’, ‘Telephone’, ‘Email’, ‘Address’], isFirst=True)
Anwaltsdaten extrahieren
Lassen Sie uns nun die Anwaltselemente durchgehen und die relevanten Informationen extrahieren:
for each_people in all_people_elems: name = each_people.xpath(“.//h2/a/text()”)[0] href = each_people.xpath(“.//h2/a/@href”)[0] full_url = f”https://www.kslaw.com{href}" if href else “URL not found” status = each_people.xpath(“.//p/text()”)[0].strip() fax = ‘ — ‘ address = ‘ — ‘ # Extract the Atlanta telephone number phone_numbers = each_people.xpath(“.//p[@class=’contacts’]/a[starts-with(@href, ‘tel:’)]/text()”) phone_numbers = [phone.strip() for phone in phone_numbers] phone_numbers_str = ‘, ‘.join(phone_numbers) if phone_numbers else “Phone numbers not found” # Extract the email address email = each_people.xpath(“.//p[@class=’contacts’]/a[contains(@href, ‘mailto:’)]/text()”) email = email[0].strip() if email else “Email not found” data_list = [full_url, name, status, fax, phone_numbers_str, email, address] save_csv(people_file, data_list) print(data_list)
Abschluss
Mit diesem Python-Skript können Sie Anwaltsdaten von einer bestimmten juristischen Website extrahieren, wobei der Schwerpunkt auf Anwälten in Atlanta, Georgia, liegt. Durch Ausführen dieses Skripts können Sie schnell eine Liste von Anwaltskanzleien erstellen und Anwälte in der Nähe finden. Diese Daten können für diejenigen von unschätzbarem Wert sein, die mit Rechtsanwälten in Kontakt treten oder Recherchen zur Rechtslandschaft in Atlanta durchführen möchten.
Denken Sie daran, diese Daten verantwortungsvoll und in Übereinstimmung mit den Nutzungsbedingungen der Website und den einschlägigen Gesetzen zu verwenden. Respektieren Sie stets die Privatsphäre der Personen, deren Daten Sie sammeln.
Für diejenigen, die einen Anwalt finden oder nach Anwaltskanzleien suchen, können diese abgekratzten Daten einen Ausgangspunkt bieten. Es ist jedoch wichtig, diese Informationen durch zusätzliche Recherchen zu ergänzen, z. B. durch das Lesen von Rezensionen, das Überprüfen von Aufzeichnungen der Anwaltskammern und die persönliche Kontaktaufnahme mit den Anwälten, um sicherzustellen, dass sie für Ihre rechtlichen Anforderungen geeignet sind.
Durch den Einsatz von Python und Web-Scraping-Techniken können Sie effizient Informationen über Anwälte in Atlanta, Georgia, sammeln und so den Prozess der Suche nach einer Rechtsvertretung oder der Durchführung von Marktforschungen im Rechtsbereich optimieren.
Ich bin auf die Erstellung reaktionsfähiger React.js-Webanwendungen spezialisiert, die auf Ihre individuellen Anforderungen zugeschnitten sind. Lassen Sie uns Ihre Vision zum Leben erwecken!
Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.
Copyright© 2022 湘ICP备2022001581号-3