亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python爬蟲怎么爬取豆瓣影評

發布時間:2021-11-22 16:45:26 來源:億速云 閱讀:513 作者:iii 欄目:編程語言

本篇內容主要講解“Python爬蟲怎么爬取豆瓣影評”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“Python爬蟲怎么爬取豆瓣影評”吧!

一、學習開始前需安裝模塊

pip install requests
pip install lxml
pip install pandas

二、講解概要

利用requests+xpath爬取豆瓣影評------適合0基礎同學學習

三、正式開始,豎起你的小眼睛

1.requests + xpath 爬取豆瓣影評
   (1)獲取頁面內容

# 爬取頁面 url
douban_url = 'https://movie.douban.com/subject/26647117/comments?status=P'
# requests 發送請求
get_response = requests.get(douban_url)
# 將返回的響應碼轉換成文本(整個網頁)
get_data = get_response.text
'''
到這里我們就已經獲取了整個網頁的內容,
可以‘算’是完成了爬蟲
'''

    (2)分析頁面內容,獲取我們想要的內容

  • 瀏覽器中打開我們要爬取的頁面

  • 按F12進入開發者工具,查看我們想要的數據在哪里

  • 分析我們獲取的 xpath值
    '/html/body/div[3]/div[1]/div/div[1]/div[4]/div[1]/div[2]/h4/span[2]/a'
    '/html/body/div[3]/div[1]/div/div[1]/div[4]/div[2]/div[2]/h4/span[2]/a'
    '/html/body/div[3]/div[1]/div/div[1]/div[4]/div[3]/div[2]/h4/span[2]/a'

  • 通過觀察我們發現,這幾個xpath只有細微不同,上面加粗的部分已數加的格式改變,所以我們要爬取所有的 commentator(評論者),只需把xpath改為:
            '/html/body/div[3]/div[1]/div/div[1]/div[4]/div/div[2]/h4/span[2]/a'
    即不要后面的序號,當我們查詢時,會自動捕獲類似的xpath。

  • 同樣的分析,我們可以得到評論內容的xpath為:
    '/html/body/div[3]/div[1]/div/div[1]/div[4]/div/div[2]/p'

# (跟在上面代碼后)解析頁面,并輸出獲取內容
a = etree.HTML(get_data)
commentator = s.xpath('/html/body/div[3]/div[1]/div/div[1]/div[4]/div/div[2]/h4/span[2]/a/text()')
comment_content = a.xpath('/html/body/div[3]/div[1]/div/div[1]/div[4]/div/div[2]/p/text()')
# 解析獲取內容,去除多余內容
for i in range(0,len(files)):
   print(commentator[i]+'說:')
   files[i].strip(r'\n')
   files[i].strip(' ')
   print(comment_content[i])

  • 運行結果(一部分數據)

Oriol Paulo說: 'Wrath of silence' is quite different from the crime movies I've seen. It's a mix of genres. It's a crime movie,a mystery movie,an action movie,it's also a social realistic movie. Xin Yu Kun plays very well the mix of different genres in this film,and it has a powerful ending.

文文周說: 對于平均水準以上的年輕導演,應毫不吝嗇予以鼓勵,對于年齡一大把了還言之無物的導演,才要無情打擊。

西樓塵說: 老板兒子吃真空羊肉,貪婪絞入碎肉機;屠夫兒子喝污染井水,正義只在電視屏。戳瞎左眼,被戳傷的同鄉都能包庇;咬斷舌頭,被救助的律師卻不敢發聲。憑蠻力壘不成金字塔,靠假聲變不成兔子媽。超人面具如同良心咒,送不回原主;尋子告示像是招魂符,在風里飄搖。真相埋進泥土,藏入山洞,終于再無人知。

#85說: 忻鈺坤第二部作品不是一部秀操作的《心迷宮2.0》,要說風格像誰,都像也都不像:凝視山洞的庫布里克單點透視、像科恩兄弟一樣塑造的神經質殺手、《老男孩》一樣的長廊Fight…不一樣的是,不只是想告訴你兇手是誰,而是他的選擇,以及像手術刀一樣劃開上層失態、中層失德、底層失語、人間失格的社會癥結

一口吃掉小蛋糕說: 結尾太贊,配樂非常喜歡,如果能去掉字幕就好了。從姜武拿起煙灰缸的時候就猜到了結尾。只不過細思極恐,井水為什么越來越咸?為什么那么多人都水腫?村長是知道的,不然不會喝礦泉水。然而這個梗,最后卻沒有過多的交代

大大肉罐說: 上層偽善殘暴,中層冷漠自私,下層失語無力。

武俠小王子說: 當年摩托羅拉的電量還是大大不如諾基亞。

劉瀟陽說: 僅僅是80%成片,已經精彩絕倫。中國類型片就該這么拍。良好的多線敘事控制力,深穴映射人性,爆炸增長的經濟,暴裂難控的社會問題,男人無聲的憤恨和傷痛,就像無法發聲的底層人民。黑暗結尾,孩子沒有尋回,真相沒有昭顯,這卻是社會真相。有時惡人作惡,僅是為了與相同利益者變成真正的同盟。

木衛二說: 不斷向下,墮入黑暗的那種片子,鞭撻了社會主要矛盾,且不負責提供解謎快感,所以看完會很沉,很堵。如果《心迷宮》還是手工時代的自發創作,《暴裂無聲》明顯是工業時代(卡司動作特效)的考量,三人較勁,律師一角太弱,宋洋戰力太強,姜武模式化。優點和缺陷都比較明顯。

巴伐利亞酒神說: 結局太他媽的屌了,看完在影院倒吸一口涼氣。影射也很牛逼啊,1984的摩托牌照,一個底層屌絲的人設為啞巴(沒有話語權),律師(代表中產和法律)和煤老板(代表權貴和黑惡勢力)的相互勾結。所以即便張保民擁有《黃海》里綿正赫那樣爆表的武力值,也只能淪為這個殘酷社會的犧牲品。

凌睿說: 當你望著深淵的時候,深淵也在望著你。

frozenmoon說: 昌萬年是食肉者,徐文杰是喝湯的,而張保民本人就是“肉”,原本他們在食物鏈的一個位置安之若素的扮演自己的角色,但意外沖垮了一切。失控之后,每個人都發現自己不過都是“肉”,昌摘下假發和西裝,也得臣服于暴力和運氣,徐走出金錢和言辭的保護也要面對殘酷,張的代價或許更大。人性暴裂的悶響。

無恥不混蛋說: 影片最打動我的,不是那些顯而易見、甚至昭然若揭的隱喻,而是整部影片的“失語”。我們屬于“失語的一代”,對應片中,不僅僅只是表層的啞巴張保民的“生理性失語”,更是,精英階層律師在片尾所選擇的“主動性失語”。而影片對“失語”的精準展示,不僅敏感捕捉到了時代痛點,而且極為戳痛人心。

    (3)實現翻頁,并把評論人和評論內容存入csv文件

  • 翻頁(1)
    和前面分析xpath不同,我們只要找出每頁之間url的不同之處和規律即可。

    # start 屬性表示開始位置
    turn_page1 = 'https://movie.douban.com/subject/26647117/comments?status=P'
    turn_page2 = 'https://movie.douban.com/subject/26647117/comments?start=20&limit=20&sort=new_score&status=P'
    turn_page3 = 'https://movie.douban.com/subject/26647117/comments?start=40&limit=20&sort=new_score&status=P'
    turn_page4 = 'https://movie.douban.com/subject/26647117/comments?start=60&limit=20&sort=new_score&status=P'

    觀察發現,除了第一個,每個url就只有 start的值不同,而且每次增加20,上面已經說了start屬性,通過觀察我們也不難發現,每個頁面只有20條評論,這個是由 limit這個屬性控制的(小編已經試過,人為改動是沒有用的,估計是豆瓣的反爬,但并不影響我們),我這里想說明的是這個start的值之所以會以20為增量,就是這個 limit 控制的。

  • 翻頁(2)

 # 獲取評論總數
 comment_counts = a.xpath('/html/body/div[3]/div[1]/div/div[1]/div[1]/ul/li[1]/span/text()')
 comment_counts = int(comment_counts[0].strip("看過()"))
 # 計算出總的的頁面數(每頁有20條評論)
 page_counts = int(comment_counts/20)
 # 請求訪問,并把爬取數據存入csv文件
 for i in range(0,page_counts):
    turn_page_url = 'https://movie.douban.com/subject/26647117/comments?start={}&limit=20&sort=new_score&status=P'.format(i*20)
    get_respones_data(turn_page_url)

在完成上面之前,我們肯定要把之前寫的代碼進行修改,讓代碼看起,我們可以把前面寫的代碼封裝成一個函數get_respones_data(),傳入一個訪問url參數,獲得返回的HTML。

代碼大整改:

import requests
from lxml import etree
import pandas as pd
def get_respones_data(douban_url = 'https://movie.douban.com/subject/26647117/comments?status=P'):
     # requests 發送請求
     get_response = requests.get(douban_url)
     # 將返回的響應碼轉換成文本(整個網頁)
     get_data = get_response.text
     # 解析頁面
     a = etree.HTML(get_data)
     return a
 first_a = get_respones_data()
 # 翻頁
 comment_counts = first_a.xpath('/html/body/div[3]/div[1]/div/div[1]/div[1]/ul/li[1]/span/text()')
 comment_counts = int(comment_counts[0].strip("看過()"))
 page_counts = int(comment_counts / 20)
#小編已經測試過了,如果沒有登入的話最多只能訪問10個頁面,也就是200條評論
#下一期小編將教大家如何應對反爬
 for i in range(0, page_counts+1):
     turn_page_url = 'https://movie.douban.com/subject/26647117/comments?start={}&limit=20&sort=new_score&status=P'.format(
         i * 20)
     print(turn_page_url)
     a = get_respones_data(turn_page_url)
     # 獲取評論人和評論內容
     commentator = a.xpath('/html/body/div[3]/div[1]/div/div[1]/div[4]/div/div[2]/h4/span[2]/a/text()')
     comment_content = a.xpath('/html/body/div[3]/div[1]/div/div[1]/div[4]/div/div[2]/p/text()')
     # 解析內容,并存入csv文件
     content = [' ' for i in range(0, len(commentator))]
     for i in range(0, len(commentator)):
         comment_content[i].strip(r'\n')
         comment_content[i].strip(' ')
         content_s = [commentator[i],comment_content[i]]
         content[i] = content_s
     name = ['評論人','評論內容']
     file_test = pd.DataFrame(columns=name, data=content)
     if i == 0:
         file_test.to_csv(r'H:\PyCoding\FlaskCoding\Test_all\test0609\app\comment_content.cvs',encoding='utf-8',index=False)
     else:
         file_test.to_csv(r'H:\PyCoding\FlaskCoding\Test_all\test0609\app\comment_content.cvs',mode='a+',encoding='utf-8',index=False)

四、來點進階的(和爬蟲無關)

新安裝模塊

1pip install jieba
2pip install re
3pip install csv
4pip install pyecharts
5pip install numpy

  1. 解析數據

1    with codecs.open(r'H:\PyCoding\FlaskCoding\Test_all\test0609\app\comment_content.cvs', 'r', 'utf-8') as csvfile:
2        content = ''
3        reader = csv.reader(csvfile)
4        i =0
5        for file1 in reader:
6            if i == 0 or i ==1:
7                pass
8            else:
9                content =content + file1[1]
10            i = i +1
11        # 去除所有評論里多余的字符
12        content = re.sub('[,,。. \r\n]', '', content)

2.分析數據

# 切詞,將整個評論分解成一個個的詞語
1segment = jieba.lcut(content)
2words_df = pd.DataFrame({'segment': segment})
3# quoting=3 表示stopwords.txt里的內容全部不引用
4stopwords = pd.read_csv(r"H:\PyCoding\FlaskCoding\Test_all\test0609\app\stopwords.txt", index_col=False, quoting=3, sep="\t", names=['stopword'], encoding='utf-8')
5words_df = words_df[~words_df.segment.isin(stopwords.stopword)]
# 計算每個詞語重復出現次數
6words_stat = words_df.groupby(by=['segment'])['segment'].agg({"計數": numpy.size})
7words_stat = words_stat.reset_index().sort_values(by=["計數"], ascending=False)

3.數據可視化

1test = words_stat.head(1000).values
# 獲取所有詞語
2words = [test[i][0] for i in range(0,len(test))]
# 獲取詞語對于的出現次數
3counts = [test[i][1] for i in range(0,len(test))]
4wordcloud = WordCloud(width=1300, height=620)
# 生成詞云圖
5wordcloud.add("爆裂無聲", words, counts, word_size_range=[20, 100])
6wordcloud.render()

到此,相信大家對“Python爬蟲怎么爬取豆瓣影評”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

青铜峡市| 梨树县| 民和| 岳普湖县| 石门县| 灵宝市| 宁强县| 正定县| 方山县| 望奎县| 嘉荫县| 日照市| 鄂托克前旗| 玉环县| 库尔勒市| 广州市| 山东省| 马公市| 安顺市| 河间市| 邻水| 股票| 当阳市| 新巴尔虎右旗| 彝良县| 伊金霍洛旗| 万盛区| 湟源县| 蕉岭县| 章丘市| 广饶县| 利辛县| 信丰县| 黑河市| 蒙阴县| 阳曲县| 宁河县| 长顺县| 石首市| 洞头县| 旬阳县|