python3中scrapy框架執行流程是怎樣的

發布時間：2022-05-18 11:31:55 來源：億速云閱讀：135 作者：iii 欄目：大數據

本篇內容介紹了“python3中scrapy框架執行流程是怎樣的”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

scrapy框架概述：Scrapy，Python開發的一個快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛，可以用于數據挖掘、監測和自動化測試。

創建項目

由于pycharm不能直接創建scrapy項目，必須通過命令行創建，所以相關操作在pycharm的終端進行：
1、安裝scrapy模塊：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
2、創建一個scrapy項目：scrapy startproject test_scrapy
4、生成一個爬蟲：scrapy genspider itcast "itcast.cn”
5、提取數據：完善spider，使用xpath等方法
6、保存數據：pipeline中保存數據

常用的命令

創建項目：scrapy startproject xxx
進入項目：cd xxx #進入某個文件夾下
創建爬蟲：scrapy genspider xxx（爬蟲名） xxx.com （爬取域）
生成文件：scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運行爬蟲：scrapy crawl XXX
列出所有爬蟲：scrapy list
獲得配置信息：scrapy settings [options]

Scrapy項目下文件

scrapy.cfg: 項目的配置文件
test_scrapy/: 該項目的python模塊。在此放入代碼（核心）
test_scrapy/items.py: 項目中的item文件.（這是創建容器的地方，爬取的信息分別放到不同容器里）
test_scrapy/pipelines.py: 項目中的pipelines文件.
test_scrapy/settings.py: 項目的設置文件.（我用到的設置一下基礎參數，比如加個文件頭，設置一個編碼）
test_scrapy/spiders/: 放置spider代碼的目錄. （放爬蟲的地方）

python3中scrapy框架執行流程是怎樣的

scrapy框架的整體執行流程

1.spider的yeild將request發送給engine
2.engine對request不做任何處理發送給scheduler
3.scheduler，生成request交給engine
4.engine拿到request，通過middleware發送給downloader
5.downloader在\獲取到response之后，又經過middleware發送給engine
6.engine獲取到response之后，返回給spider，spider的parse()方法對獲取到的response進行處理，解析出items或者requests
7.將解析出來的items或者requests發送給engine
8.engine獲取到items或者requests，將items發送給ItemPipeline，將requests發送給scheduler（ps，只有調度器中不存在request時，程序才停止，及時請求失敗scrapy也會重新進行請求）

關于yeild函數介紹

簡單地講，yield 的作用就是把一個函數變成一個 generator（生成器），帶有 yield 的函數不再是一個普通函數，Python 解釋器會將其視為一個 generator，帶有yeild的函數遇到yeild的時候就返回一個迭代值，下次迭代時，代碼從 yield 的下一條語句繼續執行，而函數的本地變量看起來和上次中斷執行前是完全一樣的，于是函數繼續執行，直到再次遇到 yield。

通俗的講就是：在一個函數中，程序執行到yield語句的時候，程序暫停，返回yield后面表達式的值，在下一次調用的時候，從yield語句暫停的地方繼續執行，如此循環，直到函數執行完。

“python3中scrapy框架執行流程是怎樣的”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

python3中scrapy框架執行流程是怎樣的

創建項目

常用的命令

Scrapy項目下文件

scrapy框架的整體執行流程

關于yeild函數介紹

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

python3中scrapy框架執行流程是怎樣的

創建項目

常用的命令

Scrapy項目下文件

scrapy框架的整體執行流程

關于yeild函數介紹

猜你喜歡

最新資訊

相關推薦

相關標簽