亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

用python爬取圖片的方法

發布時間:2020-08-06 11:48:35 來源:億速云 閱讀:463 作者:小新 欄目:編程語言

小編給大家分享一下用python爬取圖片的方法,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

都知道Python的語法很簡單易上手,也很適合拿來做爬蟲等等,這里就簡單講解一下爬蟲入門——簡單地爬取下載網站圖片。

代碼:

其實很簡單,我們直接看下整體的代碼:

#coding = utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = 'src="(.+?\.jpg)" alt='
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x+=1
    return imglist

html = getHtml("http://pic.yxdown.com/list/0_0_1.html")

print getImg(html)

效果

就像這樣自動爬取下載圖片到本地:

用python爬取圖片的方法

導入庫:

第一行的utf-8是為了支持中文。

這里我們導入了兩個庫,分別是 urllib 和 re。urllib 是用來進行 url 網絡請求的,而 re 是一個正則表達式匹配的庫。這里我們要先對網站進行模擬請求,然后找到網站中的圖片進行下載。

請求網站:

第一個方法:getHtml。

這就是用來模擬瀏覽器訪問網站的,參數 url 是要訪問的網站鏈接,這里我們在下面的變量 html 處調用了這個方法,其訪問的 url 是一個圖片網站,關于選擇訪問網站還有一點等下要說一下。

在這個方法中,我們先用了 urllib 庫的 urlopen 方法來打開網站,然后通過 read 方法來獲取網站的源代碼,其實就跟在網頁中“右鍵–>檢查“是一個意思。最后返回了讀取到的網站源代碼。

上面說了要注意的一點是,由于很多網站會禁止人們隨意爬取數據,有反爬蟲的技術,所以在選擇要爬取的網站的時候,最好先通過這個方法獲取網站源代碼,然后 print 輸出 html 變量看一下獲取到的內容是否是正常的網頁源代碼,而不是403之類的禁止訪問,如果被禁止了,那么自然也不可能爬取到數據了。

看完了這篇文章,相信你對用python爬取圖片的方法有了一定的了解,想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

许昌市| 绿春县| 安达市| 霍邱县| 朝阳区| 娄烦县| 嘉祥县| 嘉黎县| 吉林省| 嘉鱼县| 青川县| 杂多县| 宁晋县| 嘉善县| 利津县| 平乐县| 巨野县| 婺源县| 临汾市| 文安县| 碌曲县| 六盘水市| 昂仁县| 绥江县| 马关县| 太康县| 常山县| 黄陵县| 长汀县| 甘谷县| 逊克县| 宜城市| 阿合奇县| 灵璧县| 寿阳县| 乌鲁木齐市| 彭山县| 高邑县| 长岛县| 枣阳市| 长宁县|