要用Python爬取多個網頁內容,可以使用requests庫來發送HTTP請求,然后使用BeautifulSoup庫來解析HTML頁面。以下是一個示例代碼,用于爬取多個網頁的標題和正文內容:
import requests
from bs4 import BeautifulSoup
# 定義要爬取的多個網頁URL列表
urls = [
'http://www.example.com/page1',
'http://www.example.com/page2',
'http://www.example.com/page3'
]
for url in urls:
# 發送HTTP GET請求獲取網頁內容
response = requests.get(url)
# 使用BeautifulSoup解析HTML頁面
soup = BeautifulSoup(response.content, 'html.parser')
# 獲取網頁標題
title = soup.title.string
# 獲取網頁正文內容
content = soup.find('body').get_text()
# 打印網頁標題和正文內容
print('標題:', title)
print('正文內容:', content)
上述代碼中,首先定義了要爬取的多個網頁URL列表。然后使用循環遍歷每個URL,發送HTTP GET請求獲取網頁內容。接著使用BeautifulSoup庫解析HTML頁面,獲取網頁標題和正文內容。最后打印出標題和正文內容。
請注意,代碼中使用的是requests庫來發送HTTP請求,所以需要先安裝這個庫。可以使用pip命令進行安裝:
pip install requests
同樣地,還需要安裝BeautifulSoup庫:
pip install beautifulsoup4
需要根據自己的需求對代碼進行適當的修改,例如處理異常、保存數據等。