Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

發布時間：2023-03-02 13:37:28 來源：億速云閱讀：130 作者：iii 欄目：開發技術

這篇“Python jieba分詞怎么添加自定義詞和去除不需要長尾詞”文章的知識點大部分人都不太理解，所以小編給大家總結了以下內容，內容詳細，步驟清晰，具有一定的借鑒價值，希望大家閱讀完這篇文章能有所收獲，下面我們一起來看看這篇“Python jieba分詞怎么添加自定義詞和去除不需要長尾詞”文章吧。

通過如下代碼，讀取一個txt的高頻詞匯：

            # 找到高頻詞匯
            tmp_content = self.getContent(tmp_path)
            keyword_list = tmp_content.split('\n')
            word_count = dict()
            for keyword in keyword_list:
                for word,flag in jp.cut(keyword):
                    if word in word_count:
                        word_count[word] = word_count[word] +1
                    else:
                        word_count[word] =1
            for word, count in word_count.items():
                print('%s\t%s' % (word,count))

很多情況下 jieba它不知道一些詞匯，比如說獲得的詞匯如下

建立 和 可視化 是2個獨立的單詞

Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

一、添加自定義詞

通過添加自定義詞

import jieba
import jieba.posseg as jp
jieba.load_userdict(r'jieba_dict.txt')

Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

就可以看到，統計出來的詞是這個自定義詞

Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

二、去除不需要長尾詞

有時統計出來的某些詞匯jieba認為是一個詞匯但是此時我想讓他變為多個詞匯，可以通過如下代碼實現：

import jieba
import jieba.posseg as jp
jieba.del_word('創建活動')

此時 jieba 就會不認定 創建活動 是一個詞，它會將它們分開統計

Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

以上就是關于“Python jieba分詞怎么添加自定義詞和去除不需要長尾詞”這篇文章的內容，相信大家都有了一定的了解，希望小編分享的內容對大家有幫助，若想了解更多相關的知識內容，請關注億速云行業資訊頻道。

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

一、添加自定義詞

二、去除不需要長尾詞

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Python?jieba分詞怎么添加自定義詞和去除不需要長尾詞

一、添加自定義詞

二、去除不需要長尾詞

猜你喜歡

最新資訊

相關推薦

相關標簽