亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

r語言線性回歸實例分析

發布時間:2022-04-22 14:14:20 來源:億速云 閱讀:513 作者:iii 欄目:大數據

本篇內容主要講解“r語言線性回歸實例分析”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“r語言線性回歸實例分析”吧!

回歸分析是一種廣泛使用的統計工具,利用已有的實驗數據,通過一個方程來定量的描述變量之間的關系,其中的變量可以分為兩類

  1. 自變量,也稱之為預測變量

  2. 因變量,也稱之為響應變量

自變量可以有多個,而因變量只有一個,回歸的本質就是構建因變量和自變量之間的方程。回歸分析有兩個經典的用法,第一個就是建模預測,通過構建的回歸方程來對新的數據集進行預測,第二個就是用于定量描述變量間的相關性,在GWAS中,就是利用了回歸分析的這一用法,本文首先來看下線性回歸。

顧名思義,線性回歸用線性方程來描述變量之間的關系,根據自變量的個數,又可以劃分為一元線性回歸和多元線性回歸。這里的一元和多元指的就是自變量的個數。以一元線性回歸為例,其方程如下

y = ax + b + c

其中x是自變量,y是因變量,a稱之為回歸系數,b稱之為回歸常數. c稱之為誤差,也叫做殘差,a和b合稱為回歸參數,線性回歸的目的就是求解回歸參數。以探討身高和體重間的線性關系為例,數據如下

r語言線性回歸實例分析

其分布如下所示

r語言線性回歸實例分析

從圖上可以直觀的感覺到,二者是一個線性關系,線性回歸的本質就是根據實際的數據來擬合出一條最佳的直線,這里的最佳非常的重要,對于相同的數據,可以擬合出多條直線,示意如下

r語言線性回歸實例分析

圖中兩條直線的效果看著差不多,那么如何來定量的比較不同直線的擬合效果,從而選擇最優的呢?

通常有兩種方法,第一種稱之為最小二乘法,利用實際值和擬合值之間的差值,也就是殘差值來構建衡量擬合效果的統計量,圖示如下

r語言線性回歸實例分析
圖中的散點是實際觀測值,直線上為擬合值,實際觀測值和擬合值之間的線段代表的就是殘差。對應的統計量為殘差平方和,英文如下

residual sum of squares (RSS)
sum of squared estimate of errors (SSE)
sum of squared residuals (SSR)

計算公式如下
r語言線性回歸實例分析

可以看做是一個歐式距離的求解,最小二乘法將殘差平方和最小的直線作為最佳直線。第二種稱之為最大似然法,似然其實就是概率,對于擬合出的直線,計算實際觀測值出現的概率,將這個概率值作為擬合效果的標記量,概率最大的直線就認為擬合效果最佳。

其中,最小二乘法可以看做是最大似然的一個特例,可以由最大似然推導出來,在簡單的線性回歸中,最小二乘法應用廣泛。以R語言為例,進行一元線性回歸的代碼如下

r語言線性回歸實例分析

其中intercept稱之為截距,對應回歸方程中的回歸常數,對于height這個自變量,其回歸系數為0.6746。這里我們直接得到了最終的回歸參數,其實在這里還有很多的細節,通過summary可以進行查看

r語言線性回歸實例分析

第一個是殘差的分布情況,用五個數字來表示,分別是最小值,第一四分位數,中位數,第三四分位數,最大值。在R中,可以通過quantile這個函數來進行計算

r語言線性回歸實例分析

第二個是對回歸參數的檢驗,通過t檢驗來分析回歸方程中每個變量和因變量之間的相關性,對應Pr(>|t|)的部分, p值小于0.01認為是相關的。

第三個殘差標準誤,residual standard error,  標準誤是衡量總體離散程度的統計量,計算公式如下

r語言線性回歸實例分析

殘差平方和除以自由度再開根號即可得到殘差標準誤,所以最佳的擬合直線其對應的殘差標準誤的值應該也是最小的。

第四個是R2,R-squared, 計算公式如下

r語言線性回歸實例分析

SST是實際觀測值的方差,SSR是擬合值的方差,R2為擬合值的方差占實際觀測值方差的比例,取值范圍為0-1。R2也稱之為擬合優度,數值越接近1,說明擬合效果越好。對于一個回歸方程的解而言,其差標準誤和R2值是確定的,對于最佳的擬合直線而言,其殘差標準誤一定是最小,R2值一定是最大。

R2除了表征擬合效果外,還有一個用途,那就是表征自變量和因變量相關性的大小,只適用于一元線性回歸,此時R2的值為自變量x和因變量y的相關系數的平方,所以在單位點的關聯分析中,可以根據R2的值篩選相關性強的位點。

這里還有一個校正之后的R2, 計算公式如下

r語言線性回歸實例分析

最后一個是整體方程的顯著性檢驗,通過F檢驗來判斷顯著性。在GWAS中,利用線性回歸可以分析SNP位點和連續型的表型性狀之間的關聯,利用pvalue來確定顯著關聯的位點,進一步可以根據R2來篩選關聯性強的snp位點。

到此,相信大家對“r語言線性回歸實例分析”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

松溪县| 黄龙县| 凭祥市| 天祝| 东兰县| 柯坪县| 温宿县| 盐池县| 察哈| 林州市| 淮北市| 哈巴河县| 马关县| 霞浦县| 邮箱| 水城县| 乌审旗| 弥勒县| 汽车| 临武县| 两当县| 五原县| 山东省| 红河县| 安顺市| 仁寿县| 西吉县| 勐海县| 恩施市| 南康市| 莱芜市| 定远县| 大宁县| 崇文区| 遵义县| 芦溪县| 乌拉特中旗| 张家口市| 江达县| 莱西市| 茂名市|