亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何使用Python統計180班QQ群聊文本可視化分析

發布時間:2021-10-19 10:21:07 來源:億速云 閱讀:127 作者:柒染 欄目:大數據

如何使用Python統計180班QQ群聊文本可視化分析,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

如何使用Python統計180班QQ群聊文本可視化分析

如何使用Python統計180班QQ群聊文本可視化分析

今天是八月三號  
 
習慣性的身邊復習的同學離開  
 
人越來越少
亞軍是我老鄉,也回家了  
 
寢室剩下我一人   如何使用Python統計180班QQ群聊文本可視化分析  
近幾天一直沒去復習  
 
復習狀態一直不太好  
 
只能看看課外書
學學Python,機器學習,數據挖掘...  
 
相關的書籍,為以后數據分析積累知識  
 
如何使用Python統計180班QQ群聊文本可視化分析
今天給大家講講我們班  
 
2016級統計學180班  
 
我們班有來自不同的地方  
 
標紅點的為來源的地方  
 
其中以河南省的同學人數最多

如何使用Python統計180班QQ群聊文本可視化分析

轉眼就到大四年級,留在學校的時日不多了

    
首先要獲取QQ群聊的文本數據
而爬蟲可以很好的實現網頁數據的爬取
一般爬取數據流程如下所示

如何使用Python統計180班QQ群聊文本可視化分析

分為網站請求、偽裝、解析、存儲四個過程

更為詳細的爬取流程如下所示

如何使用Python統計180班QQ群聊文本可視化分析

需要添加一些規則

然而,本文的文本數據

是我從QQ電腦端后臺導出的

目前對于網絡爬蟲的學習

我只會豆瓣影評、書評、淘寶價格的爬取

等具體學習成熟了

發一篇網絡爬蟲的推文

敬請期待

如何使用Python統計180班QQ群聊文本可視化分析

導出文本數據后

編寫程序,調試代碼,做可視化分析

詳細代碼如下所示

#QQ群聊數據分析代碼import reimport datetimeimport seaborn as snsimport matplotlib.pyplot as pltimport jiebafrom wordcloud import WordCloud, STOPWORDSfrom scipy.misc import imread# 日期def get_date(data): # 日期   dates = re.findall(r'\d{4}-\d{2}-\d{2}', data)   # 天   days = [date[-2:] for date in dates]   plt.subplot(221)   sns.countplot(days)   plt.title('Days')   # 周幾   weekdays = [datetime.date(int(date[:4]), int(date[5:7]), int(date[-2:])).isocalendar()[-1]               for date in dates]   plt.subplot(222)   sns.countplot(weekdays)   plt.title('WeekDays')# 時間def get_time(data):   times = re.findall(r'\d{2}:\d{2}:\d{2}', data)   # 小時   hours = [time[:2] for time in times]   plt.subplot(223)   sns.countplot(hours, order=['06', '07', '08', '09', '10', '11', '12', '13', '14', '15', '16', '17',                               '18', '19', '20', '21', '22', '23', '00', '01', '02', '03', '04', '05'])   plt.title('Hours')代碼演示:# 詞云def get_wordclound(text_data):   word_list = [" ".join(jieba.cut(sentence)) for sentence in text_data]   new_text = ' '.join(word_list)   pic_path = 'QQ.jpg'   mang_mask = imread(pic_path)   plt.subplot(224)   wordcloud = WordCloud(background_color="white", font_path='/home/shen/Downloads/fonts/msyh.ttc',                         mask=mang_mask, stopwords=STOPWORDS).generate(new_text)   plt.imshow(wordcloud)   plt.axis("off")# 內容及詞云def get_content(data):   pa = re.compile(r'\d{4}-\d{2}-\d{2}.*?\(\d+\)\n(.*?)\n\n', re.DOTALL)   content = re.findall(pa, data)   get_wordclound(content)def run():   filename = '新建文本文檔.txt'   with open(filename) as f:       data = f.read()   get_date(data)   get_time(data)   get_content(data)   plt.show()
 

如何使用Python統計180班QQ群聊文本可視化分析

做出文本可視話圖后,可以得出如下結論

在2018年1月1日~1月31日統計180班群聊中

1月2日這一天群聊次數最多

每周的星期二群聊次數做多

每天的16時群聊次數最多

做詞云圖發現

“全體成員”出現的詞頻最多


關于如何使用Python統計180班QQ群聊文本可視化分析問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

开化县| 文化| 盐山县| 靖安县| 禹城市| 福鼎市| 三明市| 东至县| 吐鲁番市| 衡东县| 泊头市| 同心县| 彭州市| 新巴尔虎右旗| 伊春市| 延津县| 汉沽区| 新泰市| 禹州市| 新邵县| 资源县| 清水县| 平定县| 新平| 上饶市| 岱山县| 邳州市| 随州市| 灵宝市| 全南县| 化德县| 诸暨市| 汶上县| 石景山区| 霸州市| 个旧市| 本溪| 柳江县| 寻乌县| 军事| 龙口市|