亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python怎么爬蟲lxml庫解析xpath網頁

發布時間:2022-05-10 13:54:03 來源:億速云 閱讀:184 作者:zzz 欄目:開發技術

這篇文章主要介紹“python怎么爬蟲lxml庫解析xpath網頁”,在日常操作中,相信很多人在python怎么爬蟲lxml庫解析xpath網頁問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”python怎么爬蟲lxml庫解析xpath網頁”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!

(一)xpath是什么

xpath是一門在XML文檔中查找信息的語言,xpath可用來在XML 文檔中對元素和屬性進行遍歷,主流的瀏覽器都支持xpath,因為html頁面在DOM中表示為XHTML文檔。

xpath語言是基于XML文檔的樹結構,并提供了瀏覽樹的能力,通過多樣的標準來選擇節點。從而找到我們想要的數據。

首先我們需要在chrome瀏覽器中安裝xpath插件。
可以到谷歌應用商店搜索下載。

python怎么爬蟲lxml庫解析xpath網頁

安裝好之后重啟瀏覽器按下快捷鍵Ctrl +Shift+X網頁上會出現黑色的框就表示成功啦!

(二)xpath的基本語法 路徑查詢。

// : 查找所有子孫節點,不考慮層級關系
/ : 找直接子節點

謂詞查詢

//div[@id]
//div[@id=“maincontent”]

屬性查詢

//@class

模糊查詢

//div[contains(@id, “he”)]
//div[starts -with(@id, “he”)]

內容查詢

//div/h2/text()

(三) lxml庫

lxml是python的一個解析庫,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
在使用前我們需要在pycharm里安裝lxml庫。
在終端輸入指令即可:

pip install lxml -i https://pypi.douban.com/simple

注意:必須安裝在我們當前所使用的環境下

(四)lxml庫的使用 導入lxml.etree

from lxml import etree

解析本地文件

tree = etree.parse(xxx.html) #解析本地文件

解析服務器響應文件

tree = etree.HTML(content) #解析網頁文件

返回結果

result = tree.xpath('//div/div/@aria-label')[0]

注:xpath返回的結果類型為列表,當結果有許多值時我們可以使用下標來取我們想要的值。

(五)實例演示

import urllib.request
from lxml import etree
import urllib.parse
url ='https://www.baidu.com/s?'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
cre_data = {
    'wd' : '這里寫關鍵詞'
}
data = urllib.parse.urlencode(cre_data)
url = url + data
request = urllib.request.Request(url = url , headers = headers )
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)
# tree = etree.parse(xxx.html) #解析本地文件
tree = etree.HTML(content)  #解析網頁文件
result = tree.xpath('//div/div/@aria-label')[0]
print(result)

到此,關于“python怎么爬蟲lxml庫解析xpath網頁”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

洛浦县| 佛山市| 老河口市| 上思县| 綦江县| 郁南县| 合水县| 尖扎县| 都安| 潍坊市| 新竹市| 内乡县| 新巴尔虎右旗| 廊坊市| 上蔡县| 双柏县| 汨罗市| 舟山市| 南投市| 莆田市| 若尔盖县| 丘北县| 瑞安市| 金坛市| 雷州市| 周口市| 云浮市| 会昌县| 舒城县| 平乡县| 灵台县| 郁南县| 新巴尔虎右旗| 泸溪县| 赤壁市| 白水县| 湟源县| 扎囊县| 新巴尔虎右旗| 九台市| 哈巴河县|