在Python中,BeautifulSoup提供了强大的解析HTML文档的方法。当遇到这样的场景,您需要从表中检索特定数据时,BeautifulSoup 就派上用场了。
要提取目标行项目表,请使用 soup.find(),在表中指定适当的属性括号。在这种情况下,您需要:
table = soup.find("table", {"class": "lineItemsTable"})
接下来,您可以迭代表中的每一行使用 table.findAll("tr")。在每一行中,您可以使用 row.findAll("td") 访问表格单元格 (td)。
以下是增强的代码片段:
data = []
table_body = table.find('tbody')
rows = table_body.find_all('tr')
for row in rows:
cols = row.find_all('td')
cols = [ele.text.strip() for ele in cols]
data.append([ele for ele in cols if ele]) # Remove empty values
此代码将生成一个列表列表,每个子列表代表表中的一行。它将有效地从网站捕获必要的数据。
免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。
Copyright© 2022 湘ICP备2022001581号-3