您好,登錄后才能下訂單哦!
在國內利用Python從Internet上爬取數據時,有些網站或API接口被限速或屏蔽,這時使用代理可以加速爬取過程,減少請求失敗,Python程序使用代理的方法主要有以下幾種:
(1)如果是在代碼中使用一些網絡庫或爬蟲框架進行數據爬取,一般這種框架都會支持設置代理,例如:
<span >import urllib.request as urlreq # 設置https代理 ph = urlreq.ProxyHandler({'https': 'https://127.0.0.1:1080'}) oper = urlreq.build_opener(ph) # 將代理安裝到全局環境,這樣所有請求都會自動使用代理 urlreq.install_opener(oper) res = oper.open("https://www.google.com") print(res.read())</span>
<span >import requests as req print(req.get("https://www.google.com", proxies={'https': 'https://127.0.0.1:1080'}).content)</span>
(2)如果使用的庫沒有提供設置代理的接口,但是底層使用了urllib、requests等庫,可以嘗試設置HTTP_PROXY 和HTTPS_PROXY環境變量,常用的網絡庫會自動識別這些環境變量,使用變量設置的代理發起請求,設置如下:
import os os.environ['http_proxy'] = 'http://127.0.0.1:1080' os.environ['https_proxy'] = 'https://127.0.0.1:1080'
(3)如果上述兩種方法都沒有用,那么還可以使用一些可以監聽、攔截和修改網絡包的工具和庫如(Fiddler、mitmproxy)來攔截http請求包并修改地址,達到使用代理的效果。
以上這篇對python使用http、https代理的實例講解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。