您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關怎么使用rmats進行可變剪切的分析,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
rmats是目前使用的最廣泛的可變剪切分析軟件,該軟件不僅可以識別可變剪切事件,還提供了定量和組間差異分析的功能,功能強大。該軟件前后經歷了多個版本,目前最新版本為v4.0.2, 相比之前的版本,v4.0之后的版本在運行速度,內存消耗,磁盤占用等方面進行了優化,最明顯的就是運行速度,比之前快了100多倍。
安裝也很簡單,直接下載解壓縮即可使用,這里不贅述。rmats可以識別以下五種類型的可變剪切事件
軟件的基本用法如下
python rmats.py \ --b1 b1.txt --b2 b2.txt \ --gtf ref.transcript.gtf \ --od out_dir \ -t paired \ --readLength 101 \ --cstat 0.1 \ --libType fr-unstranded
b1.txt中保存的是每個樣本比對參考基因組的bam文件的路徑,示例如下
/bams/rep1.bam,/bams/rep2.bam
這種用法從bam文件開始,實用性更強,除此之外,也支持從fastq文件開始,用法如下
python rmats.py \ --s1 s1.txt --s2 s2.txt \ --gtf ref.transcript.gtf \ --bi /STARindex/hg19 \ --od out_dir \ -t paired \ --nthread 6 \ --readLength 151
S1.txt中保存的是每個樣本fastq文件的路徑,rmats會自動調用STAR進行比對,bi
參數指定參考基因組STAR的索引,更多參數和細節請參考官方文檔。
rmats中核心功能就是定量和差異分析,解釋如下
rmats采用exon inclusion level 來定義樣本中可變剪切事件的表達量,以外顯子跳躍為例,正常的isoform稱之為Exon Inclusion Isofrom, 發生了外顯子跳躍的轉錄本稱之為Exon Skipping Isofrom, 示意如下
比對到inclusion isoform上的reads用I
表示,比對到skipping isoform上的reads用S
表示, 則該外顯子跳躍的可變剪切事件的表達量如下
可以看到,exon inclusion level實際上是inclusion isofrom所占的比例,計算時,用長度校正了原始的reads數。其他類型的可變剪切事件也可以劃分成上述兩種isoform, 示意圖如下
可以看到,rmats在計算isofrom的長度時,提供了兩種方式,二者的區別就在于是否考慮跳過的exon的長度,詳細的公式在上圖中共也有給出。
rmats 在差異分析時,比較的就是兩組樣本中inclusion level的差異,給定閾值c
, 判斷兩個樣本中對應inclusion level 的是否發生了變化,公式如下
c
這個閾值通過--cstat
參數自定義,取值范圍為0-1,代表的是兩個樣本中inclusion level的差值,0.1表示兩個樣本中該可變剪切事件的inclusion level相差10%。當然,實際計算過程是非常繁瑣的,需要考慮數據的分布,對應的統計模型等各種因素,最終會給出每個可變剪切事件的p值和多重假設檢驗校正后的FDR值。
在輸出目錄下,有很多的文件,我們重點關注其中兩種文件即可。
AS_Event.MATS.JC.txt
AS_Event.MATS.JCEC.txt
這里的AS_Event
對應五種不同類型的可變剪切事件,每種類型是一個單獨的文件,而JC
和JCEC
對應的是isoform effective length的兩種計算方式。由于兩種計算方式沒有絕對的孰優孰劣的區分,所以同時給出兩種結果,在這些文件中,包含了定量和差異的結果
IJC
表示inclusion isoform counts, SJC
表示是skipping isoform counts, 生物學重復樣本用逗號分隔;IncFormLen
代表effective inclusion isoform length, SkipFormLen
代表effective inclusion isoform length;lencLevel
代表定量的結果,InclevelDifference
就是兩組樣本中表達量的差值,通過Pvalue
和FDR
可以對結果進行過濾和篩選。
除了定量和差異的結果,還給出了每種可變剪切事件對應的exon的區間信息,示意如下
以上示例是外顯子跳躍中的區間信息,其他類型的表頭會有一定差異,但是意思是一樣的。
rmats中,識別可變剪切是以exon為單位的,只需要比較鄰近的3到4個exon的表達情況,就可以確定一個可變剪切事件是否發生,這個思路從可變剪切最核心的地方,即exon的變化出發進行分析,直接有效,但是由于其對問題的高度抽象和簡化,導致對應的結果看起來不夠直觀。
以上就是怎么使用rmats進行可變剪切的分析,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。