Python網絡爬蟲 -- scrapy的選擇器Xpath

發布時間：2020-07-06 09:11:02 來源：網絡閱讀：329 作者：Python熱愛者欄目：編程語言

Xpath簡介

一般來說，使用id、name、class等屬性就能對節點進行定位就能解決絕大部分解析需求，但有時候遇到以下情況，使用Xpath就更方便：

沒有id、name、class等

標簽的屬性或者文本特征不顯著

標簽嵌套層次太復雜

Xpath是XMLPath的簡介，基于XML樹狀結構，可以在整個樹中尋找鎖定目標節點。由于HTML文檔本身就是一個標準的XML頁面，因此我們可以使用XPath的語法來定位頁面元素。

Xpath定位方法

一、Xpath路徑

Python網絡爬蟲 -- scrapy的選擇器Xpath

Xpath路徑案例

定位節點

Python網絡爬蟲 -- scrapy的選擇器Xpath

通配符*選擇未知的節點

Python網絡爬蟲 -- scrapy的選擇器Xpath

二、使用索引

如果篩選時元素時出現多個節點，但我們想確定唯一節點。可以使用類似于列表索引的方式精確定位。

案例

Python網絡爬蟲 -- scrapy的選擇器Xpath

三、使用屬性

為了讓定位更精準，跟使用索引類似，我們要增加信息量，那么還可以使用屬性。@符號是屬性符

Python網絡爬蟲 -- scrapy的選擇器Xpath

四、常用函數

除了索引、屬性外，Xpath還可以使用便捷的函數來增強定位的準確性。下面試常用的幾個函數：

Python網絡爬蟲 -- scrapy的選擇器Xpath

Python網絡爬蟲 -- scrapy的選擇器Xpath

五、Xpath軸

這部分類似BeautifulSoup中的sibling、parents、children方法。

Python網絡爬蟲 -- scrapy的選擇器Xpath

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看