Scrapy爬蟲的參數可以在settings.py文件中進行設置。以下是一些常見的參數設置:
1. ROBOTSTXT_OBEY:設置為False可以忽略網站的robots.txt文件限制,默認為True。
2. DOWNLOAD_DELAY:設置一個下載延遲,即每個請求之間的等待時間,以防止對網站造成過大負載,默認為0(不延遲)。
3. USER_AGENT:設置用戶代理,模擬不同的瀏覽器請求,默認為Scrapy。
4. COOKIES_ENABLED:設置為False可以禁用Cookie,如果網站需要登錄或使用Cookie進行訪問,需要設置為True,默認為True。
5. CONCURRENT_REQUESTS:設置同時發送的請求數量,默認為16。
6. DOWNLOAD_TIMEOUT:設置下載超時時間,默認為180秒。
7. CONCURRENT_REQUESTS_PER_DOMAIN:設置對每個域名并發請求的最大數量,默認為8。
8. ITEM_PIPELINES:設置用于處理爬取到的數據的管道,默認為空,需要自定義管道進行數據處理時需進行設置。
9. LOG_LEVEL:設置日志的級別,如:'CRITICAL'、'ERROR'、'WARNING'、'INFO'、'DEBUG'等,默認為'DEBUG'。
10. DEPTH_LIMIT:設置爬取的最大深度,超過該深度的鏈接將不會被跟進,默認為0(無限制)。
這只是一些常見的參數設置,還有其他許多參數可以根據具體需求進行設置。可以在settings.py文件中找到這些參數,并根據需要進行修改。