您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關如何分析KEGG Genes 數據庫,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。
kegg genes 數據庫收錄了物種的基因信息。 kegg 使用自己定義的ID 唯一區別每個基因,叫做kegg gene ID。
對于每個基因,除了給出對應的物種,染色體位置,ncbi-gene ID,DNA 序列, 蛋白序列等基本信息以外,還會給出這個基因對應的KO, module, pathway 等注釋信息。
其中KO 注釋是核心,kegg 提供了兩種工具,用于基因的KO 注釋
對于單個物種的基因組,使用BlastKOALA 工具;
對于環境微生物,使用GhostKOALA 工具進行注釋;
截止到2018年3月7號,所有基因的注釋情況如下:
http://www.kegg.jp/kegg/docs/genes_statistics.html
基因從功能上分成了兩大類,編碼蛋白基因和非編碼蛋白基因。從注釋信息的角度,提供了KO , pathway, Enzyme 共3種kegg 的注釋。
我們來想詳細看下human 基因的注釋情況
目前共收錄了20380個蛋白編碼基因,其中13226 個基因有KO 注釋;19172 個非編碼基因,其中 315個有KO 注釋;有pathway 注釋的只有 7376 個基因,而有Enzyme 酶類注釋的只有3261 個基因。其中pathway 相關基因只有7376個,這個數字值得我們重點關注。
對于轉錄組分析而言,KEGG的富集分析是常用的功能分析手段,而20380個蛋白編碼基因中,只有30%左右的基因有pathway 信息,剩下的沒有pathway 相關信息的基因,在富集分析時 ,會被忽略掉了。所以pathway 富集分析還是有一定的局限性的。
這里我列出了人,小鼠,大鼠基因的pathway 注釋情況
org | protein | pathway |
---|---|---|
hsa | 20,380 | 7376 |
mmu | 22,103 | 8197 |
rno | 23,503 | 8436 |
總體來看,有pathway注釋信息的基因比例都很低。pathway 是基于我們已有的認知來構建的 ,隨著研究的不斷深入和進行,pathway 數據庫也會越來越大, 也會有更多的基因有pathway 相關的信息。現階段,由于我們對基因功能認知的局限,只能對那些有pathway 信息的基因去研究。所以在富集分析時,我們需要綜合多個數據庫的結果, 比如 GO, Reatcome 等數據庫。
kegg genes 數據庫收錄了基因的信息,包括了編碼基因和非編碼基因。
對于單基因組,采用BlastKOALA 進行KO 注釋;對于宏基因組,采用GhostKOALA 進行注釋。
由于我們現階段對基因功能認知的局限性,有pathway注釋信息的基因比例較低,在進行功能富集分析時,建議綜合多個數據庫的結果。
關于如何分析KEGG Genes 數據庫就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。