亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python爬蟲之如何抓取高匿ip代理

發布時間:2020-11-30 14:15:57 來源:億速云 閱讀:312 作者:小新 欄目:編程語言

小編給大家分享一下python爬蟲之如何抓取高匿ip代理,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

很多網站都有反爬蟲機制,只用一個ip去頻繁訪問網站的話,很容易引起網站管理員的注意,如果管理員將這個ip加入黑名單,那么這個爬蟲就廢掉了。所以,想要做大型的爬蟲的話,基本上是必須要面對ip的問題。

那么問題來了,我們去哪里搞代理ip呢??第一種方法就是買買買!!沒有什么事情是用錢解決不了的,如果有,那就加倍。

當然,網上也有一堆免費的ip代理,但是,免費的質量參差不齊,所以就需要進行篩選。以西刺代理為例:用爬蟲爬取國內的高匿代理IP,并進行驗證。(只爬取前五頁,后面的失效太多,沒有必要去驗證了。)

class XiciSpider(scrapy.Spider):
    name = 'xici'
    allowed_domains = ['xicidaili.com']
    start_urls = []
    for i in range(1, 6):
        start_urls.append('http://www.xicidaili.com/nn/' + str(i))
 
    def parse(self, response):
        ip = response.xpath('//tr[@class]/td[2]/text()').extract()
        port = response.xpath('//tr[@class]/td[3]/text()').extract()
        agreement_type = response.xpath('//tr[@class]/td[6]/text()').extract()
        proxies = zip(ip, port, agreement_type)
        # print(proxies)
 
        # 驗證代理是否可用
        for ip, port, agreement_type in proxies:
            proxy = {'http': agreement_type.lower() + '://' + ip + ':' + port,
                     'https': agreement_type.lower() + '://' + ip + ':' + port}
            try:
                # 設置代理鏈接  如果狀態碼為200 則表示該代理可以使用
                print(proxy)
                resp = requests.get('http://icanhazip.com', proxies=proxy, timeout=2)
                print(resp.status_code)
                if resp.status_code == 200:
                    print(resp.text)
                    # print('success %s' % ip)
                    item = DailiItem()
                    item['proxy'] = proxy
                    yield item
            except:
                print('fail %s' % ip)

Pipeline:

class DailiPipeline(object):
 
    def __init__(self):
        self.file = open('proxy.txt', 'w')
 
    def process_item(self, item, spider):
        self.file.write(str(item['proxy']) + '\n')
        return item
 
    def close_spider(self, spider):
        self.file.close()

以上是“python爬蟲之如何抓取高匿ip代理”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

留坝县| 甘肃省| 宜宾县| 昌平区| 深泽县| 玛纳斯县| 华蓥市| 句容市| 涿鹿县| 若尔盖县| 大连市| 铜梁县| 沙湾县| 泰州市| 普格县| 漾濞| 南阳市| 永仁县| 平乡县| 德兴市| 建始县| 长宁县| 博白县| 甘谷县| 安龙县| 大邑县| 宜春市| 杨浦区| 抚顺县| 乌鲁木齐市| 甘南县| 治多县| 大冶市| 土默特左旗| 玉田县| 黄陵县| 铜陵市| 鸡泽县| 贵港市| 岫岩| 博兴县|