亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Mahout中怎么實現相似度計算

發布時間:2021-08-11 14:36:22 來源:億速云 閱讀:151 作者:Leah 欄目:云計算

這篇文章給大家介紹Mahout中怎么實現相似度計算,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。

     在現實中廣泛使用的推薦系統一般都是基于協同過濾算法的,這類算法通常都需要計算用戶與用戶或者項目與項目之間的相似度,對于數據量以及數據類型不同的數據源,需要不同的相似度計算方法來提高推薦性能,在mahout提供了大量用于計算相似度的組件,這些組件分別實現了不同的相似度計算方法。下圖用于實現相似度計算的組件之間的關系:

Mahout中怎么實現相似度計算

圖1、項目相似度計算組件

Mahout中怎么實現相似度計算

圖2、用戶相似度計算組件

下面就幾個重點相似度計算方法做介紹:

皮爾森相關度

類名:PearsonCorrelationSimilarity

原理:用來反映兩個變量線性相關程度的統計量

范圍:[-1,1],絕對值越大,說明相關性越強,負相關對于推薦的意義小。

說明:1、 不考慮重疊的數量;2、 如果只有一項重疊,無法計算相似性(計算過程被除數有n-1);3、 如果重疊的值都相等,也無法計算相似性(標準差為0,做除數)。

    該相似度并不是最好的選擇,也不是最壞的選擇,只是因為其容易理解,在早期研究中經常被提起。使用Pearson線性相關系數必須假設數據是成對地從正態分布中取得的,并且數據至少在邏輯范疇內必須是等間距的數據。Mahout中,為皮爾森相關計算提供了一個擴展,通過增加一個枚舉類型(Weighting)的參數來使得重疊數也成為計算相似度的影響因子。

歐式距離相似度

類名:EuclideanDistanceSimilarity

原理:利用歐式距離d定義的相似度s,s=1 / (1+d)。

范圍:[0,1],值越大,說明d越小,也就是距離越近,則相似度越大。

說明:同皮爾森相似度一樣,該相似度也沒有考慮重疊數對結果的影響,同樣地,Mahout通過增加一個枚舉類型(Weighting)的參數來使得重疊數也成為計算相似度的影響因子。

余弦相似度

類名:PearsonCorrelationSimilarity和UncenteredCosineSimilarity

原理:多維空間兩點與所設定的點形成夾角的余弦值。

范圍:[-1,1],值越大,說明夾角越大,兩點相距就越遠,相似度就越小。

說明:在數學表達中,如果對兩個項的屬性進行了數據中心化,計算出來的余弦相似度和皮爾森相似度是一樣的,在mahout中,實現了數據中心化的過程,所以皮爾森相似度值也是數據中心化后的余弦相似度。另外在新版本中,Mahout提供了UncenteredCosineSimilarity類作為計算非中心化數據的余弦相似度。

Spearman秩相關系數

類名:SpearmanCorrelationSimilarity

原理:Spearman秩相關系數通常被認為是排列后的變量之間的Pearson線性相關系數。

范圍:{-1.0,1.0},當一致時為1.0,不一致時為-1.0。

說明:計算非常慢,有大量排序。針對推薦系統中的數據集來講,用Spearman秩相關系數作為相似度量是不合適的。

曼哈頓距離

類名:CityBlockSimilarity

原理:曼哈頓距離的實現,同歐式距離相似,都是用于多維數據空間距離的測度

范圍:[0,1],同歐式距離一致,值越小,說明距離值越大,相似度越大。

說明:比歐式距離計算量少,性能相對高。

Tanimoto系數

類名:TanimotoCoefficientSimilarity

原理:又名廣義Jaccard系數,是對Jaccard系數的擴展,等式為

范圍:[0,1],完全重疊時為1,無重疊項時為0,越接近1說明越相似。

說明:處理無打分的偏好數據。

對數似然相似度

類名:LogLikelihoodSimilarity

原理:重疊的個數,不重疊的個數,都沒有的個數

范圍:具體可去百度文庫中查找論文《Accurate Methods for the Statistics of Surprise and Coincidence》

說明:處理無打分的偏好數據,比Tanimoto系數的計算方法更為智能。

關于Mahout中怎么實現相似度計算就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

山丹县| 东阳市| 多伦县| 阳信县| 从化市| 濮阳县| 嘉荫县| 天峻县| 威海市| 泾源县| 自治县| 微山县| 灵武市| 阿勒泰市| 永泰县| 耒阳市| 周至县| 闵行区| 内黄县| 巫山县| 洛川县| 峨眉山市| 双柏县| 永德县| 盐亭县| 洪江市| 平湖市| 无极县| 丘北县| 谷城县| 潜山县| 镇康县| 东海县| 长顺县| 调兵山市| 泸定县| 扎兰屯市| 营山县| 江川县| 靖宇县| 秦皇岛市|