如何用Python爬取B站上1.4w條馬老師視頻數據來分析

發布時間：2021-10-26 09:22:51 來源：億速云閱讀：186 作者：柒染欄目：大數據

這篇文章給大家介紹如何用Python爬取B站上1.4w條馬老師視頻數據來分析，內容非常詳細，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

看到標題

啪的一下你就進來了吧！

如果有經常刷B站的小伙伴，肯定都知道B站鬼畜現在的頂流是誰？

印度：沒錯正是在下

那必須是當代大師渾元形意太極拳掌門人「馬保國」先生啊！

實話講，馬保國走進大家視野還是他5月份PK被人連續KO三次。

不過現在他在鬼畜區的主要素材卻是馬保國更早時候的一些視頻。

比如2020年一月份，右眼被蹭了一下的馬老師面帶微笑，為我們生動形象地講述了健身房里的年輕人是如何不講武德，偷襲他的故事。

在視頻里，他控訴踢館的年輕人 “ 不講武德 ” ，勸他 “ 耗子尾汁 ” 。可以作為B站入站題目，建議全文背誦。

B站這個小機靈鬼，甚至還給馬老師專門開了專欄，這為我們后續爬取數據也帶來了便利。

跟平時爬取B站不太一樣，在B站的馬保國專欄下，F12可以輕松找到接口。

https://api.bilibili.com/x/web-interface/web/channel/multiple/list?channel_id=3503796&sort_type=hot&page_size=30

解析JSON后我們需要的數據都可以獲得。

其中要提到一點，url中的offest從解析上一個url的json中獲取，如如下圖所示。

通過簡短的爬蟲代碼，

很快啊，很快就爬取了1.4萬條馬保國先生的視頻數據。

def get_data(url,headers):
    data_m = pd.DataFrame(columns=['id','name','view_count','like_count','duration','author_name','author_id','bvid'])
    html = requests.get(url,headers=headers).content
    data = json.loads(html.decode('utf-8'))
    offset = data['data']['offset']
    print(offset)
    for j in range(30):
        data_m = data_m.append({'id':data['data']['list'][j]['id'],'name':data['data']['list'][j]['name'],
                            'view_count':data['data']['list'][j]['view_count'],'like_count':data['data']['list'][j]['like_count'],
                            'duration':data['data']['list'][j]['duration'],'author_name':data['data']['list'][j]['author_name'],
                            'author_id':data['data']['list'][j]['author_id'],'bvid':data['data']['list'][j]['bvid']},ignore_index=True)
    return(offset,data_m)

我們先進行簡單的數據整理（播放量有的是萬為單位）后，將1.4萬個視頻按照播放量和點贊量制作了一個散點圖。

可以看到什么才是“頂流”的話題，播放量幾百萬，點贊量幾十萬的相關視頻特別多。

按照播放量排序一下。

第一名就是今年一月份相聲泰斗馬老師經典單口相聲！！！

那按照點贊量呢？如何用Python爬取B站上1.4w條馬老師視頻數據來分析

第一名是來自鬼畜up主的伊麗莎白鼠“武林高手”！

而懂王與馬老師的聯動表現也很優秀！

其中幾個特效向的表現更是突出！

由于馬老師的語錄太過經典，我決定再補充爬一下它的彈幕。

# 繪制詞云圖
stylecloud.gen_stylecloud(text=' '.join(text1), 
                          collocations=False,
                          font_path=r'?C:\Windows\Fonts\msyh.ttc',
                          icon_name='fas fa-play-circle',
                          size=653,
                          output_name='馬保國詞云圖.png')

Image(filename='馬保國詞云圖.png')

耗子尾汁真是門面擔當！

婷婷、英國大理石、塔門說也夾雜其中。

關于如何用Python爬取B站上1.4w條馬老師視頻數據來分析就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

如何用Python爬取B站上1.4w條馬老師視頻數據來分析

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

如何用Python爬取B站上1.4w條馬老師視頻數據來分析

猜你喜歡

最新資訊

相關推薦

相關標簽