亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

chip_seq質量評估中的PCA分析是怎樣的

發布時間:2021-12-28 14:21:47 來源:億速云 閱讀:210 作者:柒染 欄目:大數據

chip_seq質量評估中的PCA分析是怎樣的,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。

PCA我們稱之為主成分分析,是一種經典的數據降維算法,通過將高維數據用幾個主成分表示,從而將其映射到低維空間。在實際處理中,由于我們只能對二維和三維數據有直觀的感受,所以通常繪制二維和三維的散點圖。

PCA本質上屬于排序分析的一種,降維之后的數據在二維或者三維平面通過散點圖進行展示,兩個樣本點間的距離越接近,說明這兩個樣本越一致, PCA圖在生物信息學中應用的非常廣泛,該算法適用范圍廣泛,在基因組,轉錄組等多種數據分析中都有應用,本文主要介紹在chip_seq數據分析中的PCA分析。

在轉錄組中,我們可以通過基因表達譜來對樣本進行PCA分析,在chip_seq數據分析中,為了得到類似基因表達譜的數據,研究人員提出了一種思想,將基因組劃分為等長的區間,稱之為bin,然后計算每個區間內的coverage。得到樣本中所有bin的coverage之后,就可以利用該數據進行PCA分析。具體的操作步驟如下,通過deeptools來實現

1. 計算bin的coverage

輸入文件為比對基因組產生的bam文件,用法示意如下

multiBamSummary bins \
--bamfiles file1.bam file2.bam \
--binSize 10000 \
--numberOfProcessors 10 \
--outRawCounts results.txt \
-o results.npz \
2. PCA分析

通過plotPCA命令實現,用法示意如下

plotPCA \
-in results.npz \
-o PCA.png

輸出結果示意如下

chip_seq質量評估中的PCA分析是怎樣的

軟件默認選擇第一和第二主成分來繪制二維的散點圖,在該圖中通過觀測樣本點之間的距離,可以對數據質量做出一些基本判斷,理論上講,input和抗體處理的樣本之間應該有較大距離,而生物學重復樣本之間應該比較接近。

需要注意的是,前兩個主成分的貢獻率是一個比較重要的指標,假設兩個主成分的貢獻率之和為90%, 意味著二維散點圖只能表征原始樣本90%的信息,當貢獻率太低時,散點圖上表示的信息和原始樣本的信息相去甚遠,就不具有太大的參考意義了。

下半部分的Scree plot, 類似碎石圖,只不過采用了雙坐標軸的形式,藍色柱狀圖表征了前5個主成分的特征值,紅色曲線代表累計的特征值,每個點代表累計特征值的比例。當紅色曲線趨于平緩時,說明即使再添加后面其他的主成分,所展示的信息也不會有顯著變化了,即前幾個主成分已經可以有效代表總體的信息了,在上圖中,前4個主成分能夠有效代表總體的信息。

雖然通過碎石圖我們可以篩選出主成分,但是由于我們最多只能直觀觀察三維空間,所以PCA分析中最多只能繪制3維散點圖,如果前3個主成分不能有效代表總體的信息,我們只能考慮使用其他降維算法了,這個問題也是所有降維算法的一個通病。

看完上述內容,你們掌握chip_seq質量評估中的PCA分析是怎樣的的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

九龙坡区| 武夷山市| 卓资县| 大同县| 犍为县| 桑植县| 泸溪县| 博乐市| 永善县| 巴彦县| 思茅市| 张家界市| 育儿| 东阳市| 桂阳县| 武定县| 沧州市| 微山县| 平顶山市| 安塞县| 双江| 务川| 邯郸县| 呼玛县| 遂川县| 济南市| 莱芜市| 兴安盟| 南涧| 巴东县| 西乌珠穆沁旗| 石屏县| 兰西县| 漠河县| 关岭| 蓬安县| 平山县| 通海县| 静安区| 洛川县| 高淳县|