亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python多協程爬蟲示例

發布時間:2020-06-26 11:17:10 來源:網絡 閱讀:533 作者:wx5d72071a58c07 欄目:編程語言

寫python協程時使用gevent模塊和queue模塊可以大大提高爬蟲速度。在同時爬取多個網站時,原來用for循環一個網站一個網站按循序順序爬,就像先燒飯后燒菜,兩個步驟異步進行。使用多協程可以讓爬蟲自己選擇爬取順序,就像邊燒飯邊燒菜,兩個步驟同步進行,速度自然快了。
不多說了,來看下代碼吧:

from gevent import monkey
monkey.patch_all()
#打上多協程布丁,下面的程序就可以執行多協程了

import requests,gevent,csv
from gevent.queue import Queue
from bs4 import BeautifulSoup

#把所有URL都放到一個列表里:
url_list=[]
i=1
for i in range(10):
    i=i+1
    url='http://www.mtime.com/top/tv/top100/index-'+str(i)+'.html'
    url_list.append(url)
#第一個url和別的不一樣,需要單獨加入
url_0='http://www.mtime.com/top/tv/top100/'
url_list.append(url_0)

headers={
    'User-Agent': 
}

csv_file=open('時光網電影列表.csv','a+',newline='',encoding='utf-8')
writer=csv.writer(csv_file)
file_head=['電影名稱','導演','主演','簡介']
writer.writerow(file_head)

def list(movies):
    for movie in movies:
        title=movie.find('h3',class_="px14 pb6").find('a').text
        acts=movie.find_all('p')
        try:
            dic=acts[0].text
        except IndexError:
            dic='none'

        try:
            actor=acts[1].text
        except IndexError:
            actor='none'

        try:
            bief=movie.find('p',class_="mt3").text
        except AttributeError:
            bief='none'
        writer.writerow([title,dic,actor,bief])

#所有url都放到‘不用等’房間里:
work=Queue()
for url in url_list:
    work.put_nowait(url)

#爬蟲對象:
def crawler():
    while not work.empty():
        url=work.get_nowait()
        res=requests.get(url,headers=headers)
        soup=BeautifulSoup(res.text,'html.parser')
        movies=soup.find_all('div',class_="mov_con")
        list(movies)
        print(url,work.qsize(),res.status_code)        

#建立多協程任務,任務不用建太多,2個就夠,太多的話對方服務器承受不了
tasks_list=[]
for x in range(2):
    task=gevent.spawn(crawler)
    tasks_list.append(task)

gevent.joinall(tasks_list)
csv_file.close()
向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

封开县| 海晏县| 平远县| 淮阳县| 柏乡县| 城步| 五大连池市| 昭平县| 达州市| 霞浦县| 天津市| 泸西县| 池州市| 西畴县| 法库县| 华蓥市| 乌拉特前旗| 昔阳县| 万载县| 西充县| 托里县| 时尚| 南召县| 乌鲁木齐县| 丹棱县| 海原县| 汉沽区| 汤原县| 尉氏县| 元阳县| 东源县| 垦利县| 建湖县| 涟源市| 松江区| 阿图什市| 濮阳县| 遂昌县| 涪陵区| 东丰县| 西贡区|