您好,登錄后才能下訂單哦!
上一節我們介紹了監督學習的整體框架和基本的要點,按照總分的思考方式,接下來我們要分別介紹相應的一些算法了。今天這節我們來看看貝葉斯定理在機器學習中的應用。本章要點如下:
1. 貝葉斯定理;
2. 分類中的貝葉斯定理;
3. 風險和效用度量;
4. 關聯規則;
一、貝葉斯定理
貝葉斯定理來源于統計學中的條件概率,它可以揭示兩個變量間的對應關系,基本公式如下:
其中,P(C|x)表示觀測到數據x時事件C發生的條件概率,我們稱為后驗概率(posterior probability);P(C)=P(C=1)是事件C=1發生時的概率,稱為先驗概率(prior probabilty),因為這是在觀察到數據x之前就已經得到的關于C的知識;P(x|C)稱為類似然,與P(C|x)相反,表示屬于事件C的樣本觀測 值為x的概率;P(x)表示證據(evidence),是觀測到x的邊緣概率,即:
這里的邊緣概率可以理解為是x與C的聯合概率,即同時發生時的概率,由乘法原理可得上面的公式。
二、分類中的貝葉斯定理
貝葉斯定理在分類問題中主要用來計算類的概率,即所觀測的樣本數據x屬于類C的概率。一般情況下,我們可以假設有K個互斥和窮舉的類集合C,元素個數K個,我們可以得到先驗概率滿足:
我們根據觀測到的樣本數據x可以計算某個類的后驗概率,即:
為了將誤差最小化,貝葉斯分類器(Bayes' classfier)當然選擇具有最高后驗概率的類,即:
三、風險與效用度量
有了貝葉斯定理,我們就可以試著對決策中的風險進行度量。比如我們可以定義動作α-i表示把輸入指派到類C-i的決策,而λ-ik表示實際屬于類C-k時卻指派到類C-i時的動作造成的損失,因此我們可以計算動作α-i的期望風險(expected risk):
我們的目標就是從中選擇具有最小風險的動作。同樣,我們也可以定義效用函數:
這里同風險度量相反,我們來求使得效用最大的動作α-i。
四、關聯規則
關聯性分析也是機器學習中非常關注的一個方面,就貝葉斯定理應用來說,以常見的”購物籃“作為實例,比如X和Y分別表示購買兩種商品的顧客,那么我們有以下三個重要的度量其關聯性:
1. 關聯規則X->Y的置信度(confidence),即購買X的顧客有多大比例會同時購買Y:
2. 關聯規則X->Y的提升度(lift),又稱為興趣度(interest),即購買X對購買Y的作用:
3. 關聯規則X->Y的支持度(support),表示規則的顯著性:
好了,今天先到這里,我們明天繼續!
Refer:
《機器學習導論》,Ethen Alpaydin(土耳其),機械工業出版社
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。