亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何進行NLP基本工具jieba的關鍵詞提取及詞性標注

發布時間:2021-12-08 15:17:15 來源:億速云 閱讀:371 作者:柒染 欄目:大數據

如何進行NLP基本工具jieba的關鍵詞提取及詞性標注,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。

jieba還可以進行關鍵詞提取以及詞性標注

使用:

importjieba  # 導入 jieba

importjieba.analyse as anls  #關鍵詞提取

importjieba.posseg as pseg  #詞性標注

其中,關鍵詞提取有兩種算法:

第一種是TF-IDF算法(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率),其基本思想為:一個詞語在一篇文章中出現次數越多,同時在所有文檔中出現次數越少,越說明該詞語能夠代表該文章。

第二種是TextRank算法,基本思想:

  1. 將待抽取關鍵詞的文本進行分詞

  2. 以固定窗口大小(默認為5,通過span屬性調整),詞之間的共現關系,構建圖

  3. 計算圖中節點的PageRank,無向帶權圖

代碼:

TF-IDF: jieba.analyse.extract_tags(sentence,topK=20, withWeight=True, allowPOS=())

TextRank:jieba.analyse.textrank(sentence, topK=20, withWeight=True)

其中,topK是輸出多少個關鍵詞,withWeight是否輸出每個關鍵詞的權重。

輸入語句“jieba除了最重要的功能--分詞之外,還可以進行關鍵詞提取以及詞性標注”:

TF-IDF輸出的關鍵詞:

詞性 0.91

jieba0.85

-- 0.85

分詞 0.84

標注 0.66

關鍵詞 0.64

提取 0.54

之外 0.42

功能 0.39

除了 0.37

重要 0.29

以及 0.29

進行 0.27

可以 0.25

TextRank輸出的關鍵詞:

詞性 1.00

提取 0.99

關鍵詞 0.99

功能 0.90

分詞 0.90

進行 0.76

標注 0.75

相對而言,TextRank輸出的關鍵詞更規整一些。

詞性標注

使用jieba.posseg進行詞性的標注。

代碼:

importjieba.posseg

words =jieba.posseg.cut("我來到北京清華大學")

for x, win words:

    print('%s %s' % (x, w))

輸出:

我 r

來到 v

北京 ns

清華大學 nt

如何進行NLP基本工具jieba的關鍵詞提取及詞性標注

看完上述內容,你們掌握如何進行NLP基本工具jieba的關鍵詞提取及詞性標注的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

高邮市| 旺苍县| 且末县| 湛江市| 宜宾县| 长顺县| 奇台县| 钟山县| 黄山市| 晋城| 河北省| 麻江县| 崇阳县| 武夷山市| 金秀| 广安市| 西乌珠穆沁旗| 新晃| 商城县| 阳原县| 马尔康县| 西城区| 宁都县| 绵阳市| 彩票| 濉溪县| 东丽区| 朔州市| 洪泽县| 新宁县| 鹤庆县| 合山市| 吉安市| 新昌县| 武宁县| 交口县| 和林格尔县| 静乐县| 德令哈市| 北流市| 通榆县|