您好,登錄后才能下訂單哦!
在大致了解了機器學習的算法分類(監督式、非監督式以及增強學習)和梯度算法后,今天我們來了解下擬合度和最大似然估計的相關問題。
一、最小二乘法的擬合度
監督式學習中一類典型的應用就是回歸問題,基本的就是線性回歸,即用一條直線去逼近訓練集合。最小二乘法就是根據已有的訓練集樣本來確定擬合度最好的函數 曲線。但是由于選擇一個什么樣的曲線是人工決定的,而不同的曲線又具有不同的性質,從而導致不同函數模型使用最小二乘法的擬合度是不同的。以一個m個樣本 的房屋價格和大小數據M為例,我們可以選擇線性回歸(用一條直線模擬),也可以選擇使用一個三次曲線來模擬(存在上下峰值),但是最好的擬合或許是一個二 次曲線(拋物線)。對于一個本身分布近似拋物線的訓練集來說,線性擬合明顯是“欠擬合”的,而三次曲線則是“過擬合”的,效果都不如拋物線要來的好。所以 說,即便是監督式學習的回歸問題,也存在一個擬合度的把握,而這非常依賴于研究人員自身的經驗。這類函數模型確定后運用最小二乘法擬合的方法稱作參數學 習,其要點是在訓練學習前已經有了關于函數模型的一個判斷(參數的個數是確定的);但是還有一類情況,訓練集很復雜,我們很難直接假設一個模型,因此參數 的個數也許是隨著樣本集動態變化的,這類問題稱作非參數學習。我們的方法是采用局部加權回歸。
二、局部加權回歸
對于線性回歸問題LR來說,對于給定的假設函數H(X,θ),我們的目標是找到θ使得(H(X,θ)-Y)的平方最小,其實也就是要求針對已知訓練集M來說H(X,θ)與樣本的偏差最小,最后返回θ。
對于局部加權回歸LWR來說,找到θ使得的值最小,其中的權值的意義在于,當我們測試一個新的樣本值的時候,距離測試屬性最近的一些樣本訓練集將發揮作用,權重較大,而距離該位置較遠的樣本值的影響則較小。因此局部加權回歸的做法就是每次只使用新的數值位置附近的訓練樣本來進行擬合,每次計算都需要針對所有的訓練集進行擬合。
三、最大似然概率
上述算法可以用最大似然概率進行推導,由于涉及較多的數學公式,這里不再證明。借著這個機會來復習下最大似然概率的知識。最大似然概率可以用來解決非參數模型的回歸。其主要的思想就是,將含參數的概率函數H(X,θ)看作是θ的函數,當X已知的時候,就意味著從全體樣本中隨機抽出了m個樣本,假設它們都是獨立的,那么我從一個樣本集中隨機抽出這m個樣本的概率應該是它們的概率乘積P(θ);若存在一個這樣的函數假設模型,則這個模型中的參數θ應當使得P的值最大,即重新抽出這m個樣本的可能最大。然后用這個似然估計去代替真實的θ。
這里講的未免過于簡單,詳細的內容可以參考CSDN博友的文章:最大似然估計總結
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。