您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關如何基于python分布式爬蟲并解決假死的問題,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
python版本:3.5.4
系統:win10 x64
放函數只需要兩個參數即可下載相應內容到本地,一個是網址,一個是保存位置
import urllib.request url = 'http://xxx.com/xxx.mp4' file = 'xxx.mp4' urllib.request.retrieve(url, file)
但是博主在使用過程中發現,該函數沒有timeout方法。使用時,可能由于網絡問題導致假死!
使用方法如下:
import urllib.request url = 'http://xxx.com/xxx.mp4' file = 'xxx.mp4' response = urllib.request.urlopen(url, timeout=5) data = response.read() with open(file, 'wb') as video: video.write(data)
此函數有timeout設置,可以避免假死。
偽代碼如下:
import urllib.request import socket from urllib import error from queue import Queue from threading import Thread import os class DownloadWorker(Thread): #定義一個類,繼承自thread類,重寫其run函數 def __init__(self, queue): Thread.__init__(self) self.queue = queue #標準的多線程實現方法都使用了queue def run(self): while True: link, file = self.queue.get() #從隊列中獲取一組網址以及對應的保存位置 try: #使用try except方法進行各種異常處理 response = urllib.request.urlopen(link, timeout=5) data = response.read() with open(file, 'wb') as video: video.write(data) except error.HTTPError as err: print('HTTPerror, code: %s' % err.code) except error.URLError as err: print('URLerror, reason: %s' % err.reason) except socket.timeout: print('Time Out!') except: print('Unkown Error!') self.queue.task_done() #標記隊列中的一個元素已經被處理 def main(): queue = Queue() #定義隊列 for x in range(8): #開啟8個線程 worker = DownloadWorker(queue) worker.daemon = True worker.start() for lineData in txtData: #向隊列中放入數據 link = lineData[0] file = lineData[1] queue.put((link, file)) queue.join() #等待隊列中的數據被處理完畢 if __name__ == '__main__': main()
補充:基于python的一個大規模爬蟲遇到的一些問題總結
前些天在某個論壇看到一些很感興趣的信息,想要將其爬取下來,預估了下規模,想要做的是:將整個論壇的所有文章爬取下來,保存為本地的txt。
一開始寫了個爬蟲,大致思路是:
先從論壇的起始頁開始爬起,得到所有分區版面的網址
然后從分區版面得到該區總共的頁碼數,根據網址規律得到分區版面所有頁數的網頁
從上面的分區版面的某一頁的網頁中得到該頁所有文章的網址,然后抓取這些文章,保存為本地txt
上面的思路是典型的自上而下的思路,這樣第一版本的代碼就寫好了。
下面進入正題,總結一下遇到的問題:
上面的爬蟲在調試階段表現還是不錯的,后來實測中,跑起來發現,跑了一段時間后就會發生http錯誤,由于使用的是有線網,且檢查后不是網絡本身的錯誤,所以判定為本網站封禁了,于是開始研究這個問題。
一般來說,python爬蟲將自己偽裝為瀏覽器時,使用的方法是在urllib2.Request函數中加入headers參數,也即類似于
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"
的user_agent代碼片段,但是這樣在大規模爬取中,就會被網站判定為一個用于長期快速訪問,容易被封禁。本來在開始的代碼中,爬蟲訪問兩個網頁之間是加入了0.5s的時間延時,就是為了防止這一問題的,結果還是不可以,而如果將延時加大,將會影響到爬蟲的效率,而且如此大規模的爬取更是不知要何時才能結束。
于是,考慮偽裝成多個瀏覽器的訪問的方法來解決這一問題,具體做的就是,找許多user_agent,保存為一個列表,而在訪問網頁時,輪流使用以上user_agent,這樣就偽裝成了許多瀏覽器。附上具體子函數如下:
user_agent_list = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1", "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.2; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; Media Center PC 6.0; InfoPath.2; MS-RTC LM 8)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; InfoPath.2)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0 Zune 3.0)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; MS-RTC LM 8)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; MS-RTC LM 8)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET CLR 4.0.20402; MS-RTC LM 8)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET CLR 1.1.4322; InfoPath.2)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; Tablet PC 2.0)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET CLR 3.0.04506; Media Center PC 5.0; SLCC1)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; Tablet PC 2.0; .NET CLR 3.0.04506; Media Center PC 5.0; SLCC1)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; FDM; Tablet PC 2.0; .NET CLR 4.0.20506; OfficeLiveConnector.1.4; OfficeLivePatch.1.3)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET CLR 3.0.04506; Media Center PC 5.0; SLCC1; Tablet PC 2.0)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET CLR 1.1.4322; InfoPath.2)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.3029; Media Center PC 6.0; Tablet PC 2.0)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 6.0)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; Media Center PC 3.0; .NET CLR 1.0.3705; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.1)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; FDM; .NET CLR 1.1.4322)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.1.4322; InfoPath.1; .NET CLR 2.0.50727)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.1.4322; InfoPath.1)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.1.4322; Alexa Toolbar; .NET CLR 2.0.50727)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.1.4322; Alexa Toolbar)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.40607)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.1.4322)', 'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.0.3705; Media Center PC 3.1; Alexa Toolbar; .NET CLR 1.1.4322; .NET CLR 2.0.50727)', 'Mozilla/5.0 (Windows; U; MSIE 7.0; Windows NT 6.0; en-US)', 'Mozilla/5.0 (Windows; U; MSIE 7.0; Windows NT 6.0; el-GR)', 'Mozilla/5.0 (MSIE 7.0; Macintosh; U; SunOS; X11; gu; SV1; InfoPath.2; .NET CLR 3.0.04506.30; .NET CLR 3.0.04506.648)', 'Mozilla/5.0 (compatible; MSIE 7.0; Windows NT 6.0; WOW64; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; c .NET CLR 3.0.04506; .NET CLR 3.5.30707; InfoPath.1; el-GR)', 'Mozilla/5.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; c .NET CLR 3.0.04506; .NET CLR 3.5.30707; InfoPath.1; el-GR)', 'Mozilla/5.0 (compatible; MSIE 7.0; Windows NT 6.0; fr-FR)', 'Mozilla/5.0 (compatible; MSIE 7.0; Windows NT 6.0; en-US)', 'Mozilla/5.0 (compatible; MSIE 7.0; Windows NT 5.2; WOW64; .NET CLR 2.0.50727)', 'Mozilla/4.79 [en] (compatible; MSIE 7.0; Windows NT 5.0; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 1.1.4322; .NET CLR 3.0.04506.30; .NET CLR 3.0.04506.648)', 'Mozilla/4.0 (Windows; MSIE 7.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)', 'Mozilla/4.0 (Mozilla/4.0; MSIE 7.0; Windows NT 5.1; FDM; SV1; .NET CLR 3.0.04506.30)', 'Mozilla/4.0 (Mozilla/4.0; MSIE 7.0; Windows NT 5.1; FDM; SV1)', 'Mozilla/4.0 (compatible;MSIE 7.0;Windows NT 6.0)', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0)', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0;)', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; YPC 3.2.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; InfoPath.2; .NET CLR 3.5.30729; .NET CLR 3.0.30618)', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; YPC 3.2.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506)', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; WOW64; SLCC1; Media Center PC 5.0; .NET CLR 2.0.50727)', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; WOW64; SLCC1; .NET CLR 3.0.04506)', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; WOW64; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; InfoPath.2; .NET CLR 3.5.30729; .NET CLR 3.0.30618; .NET CLR 1.1.4322)', ]
上面大概有60多個user_agent,這樣就偽裝成了60多個瀏覽器。嘗試這種方法后,發現在此長時間爬取,出錯或者訪問速度變慢的情況就很少出現了,基本解決了這一問題。
但是,需要注意的是,如果網站不是根據user_agent,而是根據用戶的IP來封禁的話,那就不好辦了,網上的一些解決辦法是云計算之類的,貌似略麻煩,不太適合個人用戶,有興趣的可以看一下相關資料。
由于規模略大,不可能一直守在電腦前,所以,代碼的穩定性(容錯性)需要較高,這里,python的try……except……語法就發揮了很好的作用。
前幾天的實踐證明,出錯大多數是由于一時的網絡不穩定而出現的,而解決辦法也很簡單,重新訪問以下就好了,于是將抓取網頁的函數寫成下面的形式
def get_page_first(url): global user_agent_index user_agent_index+=1 user_agent_index%=len(user_agent_list) user_agent = user_agent_list[user_agent_index] #print user_agent print user_agent_index headers = { 'User-Agent' : user_agent } print u"正在抓取"+url req = urllib2.Request(url,headers = headers) try: response = urllib2.urlopen(req,timeout=30) page = response.read() except: response = urllib2.urlopen(req,timeout=30) page = response.read() print u"抓取網頁"+url return page
這里,如果訪問一個網頁30s無響應,就重新訪問。基本解決了這一問題。
由于txt的命名采用的是 “日期--作者——標題”的形式,而一些帖子的標題含有諸如?等txt中不允許出現的命名,這樣就會發生報錯。這里解決辦法是,如果保存文件出錯,則先嘗試將名稱改為“日期--作者——編號”形式,仍然出錯,而保存為“日期--編號”的形式。具體代碼如下:
try: if news_author[0]=='': save_file(path+'//'+news_time[0]+'--'+news_title+'.txt',news) else: save_file(path+'//'+news_time[0]+'--'+news_author[0]+u"——"+news_title+'.txt',news) except: try: save_file(path+'//'+news_time[0]+'--'+news_title+'.txt',news) except: save_file(path+'//'+news_time[0]+'--'+str(j)+'-'+str(index)+'.txt',news)
開始的代碼考慮不周,沒有想到同一天的帖子中會出現作者和名稱都相同的情況,于是后來發現一些版面的總文章數和保存的txt數目不同,后來發現了這一問題。于是將保存文件的子函數修改如下,大致思路就是保存前先檢查同名文件是否存在,不存在直接保存;存在的話,在名稱后加(i)(i從1開始遞增變化),重復上述步驟,直至同名文件不存在:
def save_file(path,inf): if not os.path.exists(path): f = file(path, 'w') f.write(inf) f.close else: i=0 while(1): i+=1 tpath=path[:-4] tpath+='('+str(i)+')'+'.txt' if not os.path.exists(tpath): break f = file(tpath, 'w') f.write(inf) f.close
理論上,大規模的爬蟲可以采用多線程的方法加快抓取速度,但是考慮到不要對網站造成過大的壓力,也為避免被網站封禁IP,所以主程序中未引入多線程的概念。但是又為了加快進度,就手動打開多個命令行窗口運行爬蟲,來同時抓取不同的版面的文章。這樣,當一個程序報錯,其他的仍然能運行,也是增強了程序的容錯性。
實際運行一段時間后,發現該程序的時間延遲最主要是發生在抓取網頁的環節,也就是下載網頁的時間上,想要提高效率也就是需要改善這一環節。當我正考慮應該采用什么辦法解決這一問題時,忽然發現,原來該論壇還提供了無圖版的網頁(也就是類似于手機版),這樣,每個網頁的大小就減小了很多,而且文章內容之類所需信息仍然存在,所以就重新修改了代碼。然后,發現速度確實有了極大的提升。所以,以后 抓取網頁前一定要先看看是否存在類似于無圖版(手機版)的網頁,這樣就可以很大的提高速度。
關于“如何基于python分布式爬蟲并解決假死的問題”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。