TF-IDF算法的原理是什么

發布時間：2021-12-16 15:01:56 來源：億速云閱讀：224 作者：iii 欄目：云計算

本篇內容主要講解“TF-IDF算法的原理是什么”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“TF-IDF算法的原理是什么”吧!

概念

TF-IDF（term frequency–inverse document frequency）

是一種用于資訊檢索與資訊探勘的常用加權技術。
TF-IDF是一種統計方法，用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。
字詞的重要性隨著它在文件中出現的次數成正比增加，但同時會隨著它在語料庫中出現的頻率成反比下降。
TF-IDF加權的各種形式常被搜尋引擎應用，作為文件與用戶查詢之間相關程度的度量或評級。除了TF-IDF以外，因特網上的搜尋引擎還會使用基于連結分析的評級方法，以確定文件在搜尋結果中出現的順序。

原理

詞頻 (term frequency, TF)

指的是某一個給定的詞語在一份給定的文件中出現的次數。這個數字通常會被歸一化（分子一般小于分母區別于IDF），以防止它偏向長的文件。（同一個詞語在長文件里可能會比短文件有更高的詞頻，而不管該詞語重要與否。）
逆向文件頻率 (inverse document frequency, IDF) 是一個詞語普遍重要性的度量。某一特定詞語的IDF，可以由總文件數目除以包含該詞語之文件的數目，再將得到的商取對數得到。
某一特定文件內的高詞語頻率，以及該詞語在整個文件集合中的低文件頻率，可以產生出高權重的TF-IDF。因此，TF-IDF傾向于過濾掉常見的詞語，保留重要的詞語。

逆向文件頻率（inverse document frequency，IDF）

一個詞語普遍重要性的度量。某一特定詞語的IDF，可以由總文件數目除以包含該詞語之文件的數目，再將得到的商取對數得到：
其中：|D|：語料庫中的文件總數
：包含詞語的文件數目（即如果該詞語不在語料庫中，就會導致被除數為零，因此一般情況下使用
然后
某一特定文件內的高詞語頻率，以及該詞語在整個文件集合中的低文件頻率，可以產生出高權重的TF-IDF。因此，TF-IDF傾向于過濾掉常見的詞語，保留重要的詞語。

TFIDF的主要思想是

如果某個詞或短語在一篇文章中出現的頻率TF高，并且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。TFIDF實際上是：TF * IDF，TF詞頻(Term Frequency)，IDF反文檔頻率(Inverse Document Frequency)。TF表示詞條在文檔d中出現的頻率（另一說：TF詞頻(Term Frequency)指的是某一個給定的詞語在該文件中出現的次數）。IDF的主要思想是：如果包含詞條t的文檔越少，也就是n越小，IDF越大，則說明詞條t具有很好的類別區分能力。如果某一類文檔C中包含詞條t的文檔數為m，而其它類包含t的文檔總數為k，顯然所有包含t的文檔數n=m+k，當m大的時候，n也大，按照IDF公式得到的IDF的值會小，就說明該詞條t類別區分能力不強。（另一說：IDF反文檔頻率(Inverse Document Frequency)是指果包含詞條的文檔越少，IDF越大，則說明詞條具有很好的類別區分能力。）但是實際上，如果一個詞條在一個類的文檔中頻繁出現，則說明該詞條能夠很好代表這個類的文本的特征，這樣的詞條應該給它們賦予較高的權重，并選來作為該類文本的特征詞以區別與其它類文檔。這就是IDF的不足之處.
在一份給定的文件里，詞頻（termfrequency，TF）指的是某一個給定的詞語在該文件中出現的頻率。這個數字是對詞數(termcount)的歸一化，以防止它偏向長的文件。（同一個詞語在長文件里可能會比短文件有更高的詞數，而不管該詞語重要與否。）對于在某一特定文件里的詞語來說，它的重要性可表示為：
以上式子中是該詞在文件中的出現次數，而分母則是在文件中所有字詞的出現次數之和。