scrapy框架ItemPipeline如何使用

發布時間：2022-08-15 16:23:11 來源：億速云閱讀：148 作者：iii 欄目：開發技術

本篇內容主要講解“scrapy框架ItemPipeline如何使用”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“scrapy框架ItemPipeline如何使用”吧!

Item Pipeline簡介

Item管道的主要責任是負責處理有蜘蛛從網頁中抽取的Item，他的主要任務是清晰、驗證和存儲數據。
當頁面被蜘蛛解析后，將被發送到Item管道，并經過幾個特定的次序處理數據。
每個Item管道的組件都是有一個簡單的方法組成的Python類。
他們獲取了Item并執行他們的方法，同時他們還需要確定的是是否需要在Item管道中繼續執行下一步或是直接丟棄掉不處理。

調用時間：當Item在Spider中被收集之后，它將會被傳遞到Item Pipeline，一些組件會按照一定的順序執行對Item的處理。

功能:

清理HTML數據
驗證爬取的數據(檢查item包含某些字段)
查重(并丟棄)
將爬取結果保存到數據庫中

一、一個自己的Pipeline類

必須實現以下方法：

process_item(self, item**,** spider**)**

每個item pipeline組件都需要調用該方法，這個方法必須返回一個具有數據的dict，或是 Item(或任何繼承類)對象，或是拋出 DropItem 異常，被丟棄的item將不會被之后的pipeline組件所處理。

參數:

item （Item 對象或者一個dict) – 被爬取的item
spider (Spider 對象) – 爬取該item的spider

open_spider(self, spider)

當spider被開啟時，這個方法被調用。參數:spider (Spider對象) – 被開啟的spider

from_crawler(cls,crawler)

如果存在，則調用該類方法以從中創建管道實例Crawler。它必須返回管道的新實例。搜尋器對象提供對所有Scrapy核心組件（如設置和信號）的訪問；這是管道訪問它們并將其功能掛鉤到Scrapy中的一種方法。

close_spider(self, spider)

當spider被關閉時，這個方法被調用參數:spider (Spider對象) – 被關閉的spider

二、啟用一個Item Pipeline組件

為了啟用一個Item Pipeline組件，你必須將它的類添加到 ITEM_PIPELINES 配置，就像下面這個例子:

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

分配給每個類的整型值，確定了他們運行的順序，item按數字從低到高的順序，通過pipeline，通常將這些數字定義在0-1000范圍內。

將item寫入JSON文件

以下pipeline將所有爬取到的item，存儲到一個獨立地items.json 文件，每行包含一個序列化為'JSON'格式的'item':

import json
class JsonWriterPipeline(object):
    def __init__(self):
        self.file = open('items.json', 'wb')
    def process_item(self, item, spider):
        line = json.dumps(dict(item),ensure_ascii=False) + "\n"
        self.file.write(line)
        return item

在這里優化：

以下pipeline將所有爬取到的item，存儲到一個獨立地items.json 文件，每行包含一個序列化為'JSON'格式的'item':

import json
import codecs
class JsonWriterPipeline(object):
    def __init__(self):
        self.file = codecs.open('items.json', 'w', encoding='utf-8')
    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item
    def spider_closed(self, spider):
        self.file.close()

針對spider里面的utf-8編碼格式去掉.encode('utf-8')

item = RecruitItem()
item['name']=name.encode('utf-8')
item['detailLink']=detailLink.encode('utf-8')
item['catalog']=catalog.encode('utf-8')
item['recruitNumber']=recruitNumber.encode('utf-8')
item['workLocation']=workLocation.encode('utf-8')
item['publishTime']=publishTime.encode('utf-8')

將item寫入MongoDB

from_crawler(cls, crawler)

如果使用，這類方法被調用創建爬蟲管道實例。必須返回管道的一個新實例。crawler提供存取所有Scrapy核心組件配置和信號管理器；對于pipelines這是一種訪問配置和信號管理器的方式。

在這個例子中，我們將使用pymongo將Item寫到MongoDB。MongoDB的地址和數據庫名稱在Scrapy setttings.py配置文件中；

這個例子主要是說明如何使用from_crawler()方法

import pymongo
class MongoPipeline(object):
    collection_name = 'scrapy_items'
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
    def close_spider(self, spider):
        self.client.close()
    def process_item(self, item, spider):
        self.db[self.collection_name].insert(dict(item))
        return item

到此，相信大家對“scrapy框架ItemPipeline如何使用”有了更深的了解，不妨來實際操作一番吧！這里是億速云網站，更多相關內容可以進入相關頻道進行查詢，關注我們，繼續學習！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

scrapy框架ItemPipeline如何使用

Item Pipeline簡介

功能:

一、一個自己的Pipeline類

二、啟用一個Item Pipeline組件

將item寫入JSON文件

將item寫入MongoDB

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

scrapy框架ItemPipeline如何使用

Item Pipeline簡介

功能:

一、一個自己的Pipeline類

二、啟用一個Item Pipeline組件

將item寫入JSON文件

將item寫入MongoDB

猜你喜歡

最新資訊

相關推薦

相關標簽