亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

數據挖掘中的KNN

發布時間:2020-06-29 21:10:47 來源:網絡 閱讀:718 作者:1039972866 欄目:開發技術

  K最近鄰算法是分類問題中經常使用的一種非參數方法。算法的思路清晰簡潔:對于待分類的樣本,找出與其最近的K個樣本(即訓練樣本中的K個)。然后對這K個樣本進行投票,待分樣本與多數樣本的類別一致。

 在該算法中有兩個最主要的問題:1、最近怎么評價?2、到底K等于多少?

 對于第一個問題,我們分三種情況討論:

 A.標稱屬性:如果樣本的屬性值相同,則兩個樣本的距離為0,否則為1。舉例:有兩個樣本,其中有個屬性是性別,如果兩個樣本的性別都是男,則距離為0,若一個為男一個為女,則距離為1。

 B.序數屬性:如考慮學生的成績評定有如下的等級{poor,fair,ok,good,perfect}。我們可以這樣處理,將每個等級映射到從0開始的相繼整數{poor=0,fair=1,ok=2,good=3,perfect=4}。如何兩個學生的成績分別是good和fair,我們可以定義距離distance=3-1=2。

 C.連續屬性:可以用歐氏距離來衡量√∑(〔x-y〕(x-y))。如兩個點(1,2)和(3,4)之間的距離distance = √((1-3)*(1-3) + (2-4)*(2-4)) = √8 = 2√2 .

 假如一個樣本中包含以上三種屬性,我們需要對各屬性做歸一化之后再求距離。或者是選擇其他算法如決策樹、樸素貝葉斯等。

 對于第二個問題,我覺得比較好的辦法就是試探。設立一個確認樣本集,然后試探看看選定哪個K值的效果比較好。當然對于大規模數據這種方法可能不太行,這時工程師的經驗和判斷就顯得尤為重要了。很多資料建議K值在3-10之間,經驗顯示這樣的K值能較好的控制噪聲的干擾。

 K最近鄰算法的特點:a.不需要建立模型(也稱消極學習方法),但是計算開銷很大,每次判斷一個樣本都要計算該樣本到所有訓練樣本的距離。

 b.可以生成任意形狀的邊界,而像決策樹算法只能生成線性的邊界。

 c.適當的距離度量準則非常重要。

 

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

永康市| 乐至县| 会理县| 肥东县| 宝丰县| 荣成市| 高密市| 高雄县| 湘潭市| 赣榆县| 大方县| 九龙坡区| 庄河市| 马关县| 灵山县| 北京市| 诏安县| 固安县| 封开县| 庆云县| 中山市| 天等县| 内乡县| 汉源县| 巫山县| 芦山县| 奉新县| 潮州市| 建宁县| 安化县| 铁岭县| 迁安市| 西昌市| 齐齐哈尔市| 安仁县| 隆化县| 高雄市| 荥阳市| 五峰| 义乌市| 察隅县|