亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

cutadapt如何去除adapter序列

發布時間:2022-01-17 11:36:51 來源:億速云 閱讀:170 作者:小新 欄目:大數據

這篇文章主要介紹cutadapt如何去除adapter序列,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

對于NGS數據分析而言,第一步都是進行質量控制,質量控制包括去除adapter序列,去除低質量序列等內容。在文庫構建階段,為了能夠上機測序,會在插入片段兩端添加adapter序列。當測序讀長超過了插入片段長度時,就會讀取到adapter序列。

adapter序列是人為引入的序列,而我們之關心插入片段的測序結果,所以首先要做的就是去除adapter序列。在去除adapter序列時,需要考慮以下兩個因素

  1. 由于測序錯誤率的原因,測序得到的adapter序列會和原本的adapter序列存在幾個堿基的誤差,所以去除adapter序列時必須允許堿基的錯配

  2. 由于插入片段的長度在一定范圍內變化,而adpter序列出現在兩端的位置,所以測序讀到的adapter序列可能只是原本adapter的部分序列


cutadapt 是一款對NGS數據進行質量過濾的軟件,無論是5’端adapter,還是3’端adapter, 都可以有效的去除,同時也可以過濾低質量,去除長度太短的序列。

這個軟件采用python開發,安裝方便,代碼如下

pip install cutadapt
1. 去除3’端引物序列

對于3’端序列,可能存在以下情況

cutadapt如何去除adapter序列

綠色部分為adapter序列,灰色部分為軟件會去除掉的序列,可以看到,無論是只讀取到部分adapter序列還是完整的adapter序列,軟件都能夠有效的去除3’端adapter序列。

用法如下

cutadapt -a AACCGGTT -o output.fastq input.fastq

針對目前主流的雙端測序數據,adapter序列都是出現在3’端,R1序列的3’端可能出現3’adapter 序列,R2端序列的3’端會出現5’端adpter的反向互補序列,示意如下

cutadapt如何去除adapter序列

需要注意的是,無論是R1端還是R2端,其5’端都不會出現adapter,因為測序反應是直接從插入片段開始的。對于雙端數據,只需要分別對R1和R2序列去除3’端adapter序列就可以了。

2. 去除5’端adapter序列

cutadapt 軟件也支持去除5’端adapter序列,雖然測序反應中不會出現5’adapter, 但是這里adapter的概念可以延伸一下,比如PCR引物序列。在某些測序策略中,首選需要用PCR反應擴增出目的片段,然后在建庫。如果想要去除插入片段5’端的PCR引物,這個用法就派上了用場。

對于5’端序列,可能存在以下情況

cutadapt如何去除adapter序列

綠色部分為adapter序列,灰色部分為軟件會去除掉的序列,前兩種格式和,無論是只讀取到部分adapter序列還是完整的adapter序列,軟件都能夠有效的去除5’端adapter序列。

用法如下

cutadapt -g AACCGGTT -o output.fastq input.fastq

在查找adapter序列時,cutadapt還提供了Anchored模式,在該模式下,必須查找到完整的adapter序列后,才會進行切除工作。

3’端Anchored模式寫法如下

cutadapt -a AACCGGTT$ -o output.fastq input.fastq

5’端Anchored模式寫法如下

cutadapt -g ^AACCGGTT -o output.fastq input.fastq

cutadapt在查找adapter時, 有以下兩種默認行為

1. 默認允許錯配和插入缺失

假設adapter 序列是ADAPTER, 此時對于以下3種情況

ADABTER    有一個錯配,
ADAPTR      有一個缺失
ADAPPTER  有一個插入

cutadapt 都認為是adapter序列,然后進行去除。可以采用-e參數 指定錯配的比例, 默認-e 為0.1, 比如adapter序列長度為21,允許的錯配數為 21 * 0.1 = 2.1, 然后直接向下取整后為2, 所以允許的錯配數為2;可以采用-no-indels參數來禁止插入和缺失。

2. 默認允許部分匹配

cutadapt默認允許部分匹配,比如 adapter 序列為ADAPTER, 測序得到的序列為ATCGATGCTADCGAGCGC,在序列中間位置的AD是adapter 序列的一部分, 此時會把AD以及之后的序列全部剪切掉,這種情況屬于錯誤的判別。為了防止此類錯誤判別的出現,cutadapt 默認必須至少有3個堿基匹配時才會認為是adapter 序列,然后進行切除, 這個閾值可以通過 --overlap 參數來指定。

cutdadapt還支持根據質量進行過濾,用法如下

cutadapt -q 10 -o output.fastq input.fastq

低質量序列通常出現在reads的3’端,上述寫法表示對3’端低質量堿基進行過濾,質量的閾值為10,具體計算過程如下,假設一段序列質量編碼為

42, 40, 26, 27, 8, 7, 11, 4, 2, 3

質量過濾的閾值-q為10,則首先減去10

32, 30, 16, 17, -2, -3, 1, -6, -8, -7

然后從從末端開始累加,得到如下數值

(70), (38), 8, -8, -25, -23, -20, -21, -15, -7

-25 最小,所以保留-25 之前的堿基, 即保留前4位堿基,后續堿基認為是低質量堿基,直接切除掉。

cutadapt 也可以根據長度對序列進行過濾,-m參數指定序列的最小長度,低于該長度的序列會被過濾掉,-M參數指定序列的最大長度,大于該長度的序列會被過濾掉。

以上是“cutadapt如何去除adapter序列”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

南昌县| 潍坊市| 远安县| 繁峙县| 颍上县| 长海县| 台东市| 凤冈县| 深圳市| 澜沧| 鲁甸县| 贵溪市| 四子王旗| 即墨市| 西吉县| 扶余县| 海盐县| 武冈市| 镇安县| 大连市| 包头市| 泽州县| 方山县| 巴林右旗| 长宁区| 汝州市| 武城县| 获嘉县| 卓资县| 司法| 宽城| 思南县| 五大连池市| 赤峰市| 留坝县| 连州市| 肥东县| 迭部县| 永丰县| 桃园市| 崇明县|