Python では、BeautifulSoup は HTML ドキュメントを解析するための強力なメソッドを提供します。テーブルから特定のデータを取得する必要があるこのようなシナリオに直面した場合、BeautifulSoup が役に立ちます。
ターゲットの項目テーブルを抽出するには、suup.find() を利用し、適切な属性を指定します。括弧。この場合、次のものが必要になります:
table = soup.find("table", {"class": "lineItemsTable"})
次に、次のことを繰り返すことができます。 table.findAll("tr") を使用してテーブル内の各行を取得します。各行内では、 row.findAll("td") を使用してテーブル セル (td) にアクセスできます。
拡張コード スニペットは次のとおりです:
data = []
table_body = table.find('tbody')
rows = table_body.find_all('tr')
for row in rows:
cols = row.find_all('td')
cols = [ele.text.strip() for ele in cols]
data.append([ele for ele in cols if ele]) # Remove empty values
このコードは、各サブリストがテーブル内の行を表すリストのリストを生成します。ウェブサイトから必要なデータを効率的に取得します。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3