要使用BeautifulSoup解析表格數據,首先需要使用BeautifulSoup庫來解析HTML頁面,然后找到包含表格數據的標簽,最常見的是<table>
標簽。接著可以通過遍歷表格中的行和列來提取數據。
以下是一個簡單的示例,演示如何使用BeautifulSoup解析網頁中的表格數據:
from bs4 import BeautifulSoup
# 假設html是一個包含表格數據的HTML頁面
html = """
<table>
<tr>
<th>姓名</th>
<th>年齡</th>
</tr>
<tr>
<td>張三</td>
<td>25</td>
</tr>
<tr>
<td>李四</td>
<td>30</td>
</tr>
</table>
"""
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, 'html.parser')
# 找到表格標簽
table = soup.find('table')
# 遍歷表格中的行和列
for row in table.find_all('tr'):
cells = row.find_all('td')
if cells:
name = cells[0].get_text()
age = cells[1].get_text()
print(f'姓名:{name}, 年齡:{age}')
上述代碼首先使用BeautifulSoup解析了一個包含表格數據的HTML頁面,然后找到了表格標簽,并遍歷了表格中的行和列,提取并打印了姓名和年齡數據。
通過類似的方法,您可以根據實際情況修改代碼來解析更復雜的表格數據。