亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python爬蟲中獲取百科段子的案例

發布時間:2020-11-12 09:21:13 來源:億速云 閱讀:119 作者:小新 欄目:編程語言

這篇文章將為大家詳細講解有關Python爬蟲中獲取百科段子的案例,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

糗事百科在前一段時間進行了改版,導致之前的代碼沒法用了,會導致無法輸出和 CPU 占用過高的情況,是因為正則表達式沒有匹配到的緣故。 現在,博主已經對程序進行了重新修改,代碼親測可用。

 首先我們確定好頁面的URL。初步構建如下的代碼來打印頁面代碼內容試試看,先構造最基本的頁面抓取方式,看看會不會成功。

# -*- coding:utf-8 -*-
import urllib
import urllib2
 
 
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
try:
    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    print response.read()
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

運行程序,哦不,它竟然報錯了,真是時運不濟,命途多舛啊

line 373, in _read_status
 raise BadStatusLine(line)
httplib.BadStatusLine: ''

好吧,應該是 headers 驗證的問題,我們加上一個 headers 驗證試試看吧,將代碼修改如下

# -*- coding:utf-8 -*-
import urllib
import urllib2
 
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    print response.read()
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

嘿嘿,這次運行終于正常了,打印出了第一頁的 HTML 代碼,大家可以運行下代碼試試看。在這里運行結果太長就不貼了。

關于Python爬蟲中獲取百科段子的案例就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

临朐县| 湘阴县| 晋城| 清徐县| 武平县| 鞍山市| 花莲县| 米林县| 嘉定区| 双城市| 元阳县| 界首市| 惠来县| 博乐市| 盖州市| 大埔县| 绵阳市| 辛集市| 秦皇岛市| 依安县| 长垣县| 鹤峰县| 万安县| 井研县| 柞水县| 平谷区| 长白| 库车县| 钦州市| 从化市| 明溪县| 涿鹿县| 金川县| 湖口县| 西和县| 襄樊市| 天津市| 周口市| 镇原县| 缙云县| 阳朔县|