亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Link Extractors在python分布式爬蟲中的使用方法

發布時間:2020-11-30 13:56:19 來源:億速云 閱讀:190 作者:小新 欄目:編程語言

這篇文章將為大家詳細講解有關Link Extractors在python分布式爬蟲中的使用方法,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

LinkExtractors

class scrapy.linkextractors.LinkExtractor

Link Extractors 的目的很簡單: 提取鏈接?

每個LinkExtractor有唯一的公共方法是 extract_links(),它接收一個 Response 對象,并返回一個 scrapy.link.Link 對象。

Link Extractors要實例化一次,并且 extract_links 方法會根據不同的 response 調用多次提取鏈接?

class scrapy.linkextractors.LinkExtractor(
    allow = (),
    deny = (),
    allow_domains = (),
    deny_domains = (),
    deny_extensions = None,
    restrict_xpaths = (),
    tags = ('a','area'),
    attrs = ('href'),
    canonicalize = True,
    unique = True,
    process_value = None
)

主要參數: 

  • allow:滿足括號中“正則表達式”的值會被提取,如果為空,則全部匹配。

  • deny:與這個正則表達式(或正則表達式列表)不匹配的URL一定不提取。

  • allow_domains:會被提取的鏈接的domains。

  • deny_domains:一定不會被提取鏈接的domains。

  • restrict_xpaths:使用xpath表達式,和allow共同作用過濾鏈接。

關于Link Extractors在python分布式爬蟲中的使用方法就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

兴和县| 什邡市| 淮北市| 闽清县| 任丘市| 沐川县| 山丹县| 磐安县| 威信县| 东丽区| 松溪县| 德昌县| 北京市| 昌图县| 邓州市| 广宁县| 衡东县| 鸡东县| 休宁县| 望江县| 农安县| 长治县| 花莲市| 酒泉市| 乐至县| 双流县| 湖北省| 沙河市| 咸阳市| 连江县| 大姚县| 邵武市| 扎囊县| 海盐县| 什邡市| 阿尔山市| 开江县| 康保县| 汝城县| 吴旗县| 淳安县|