當前位置:成語大全網 - 書法字典 - 芯片序列數據質量控制和過濾

芯片序列數據質量控制和過濾

前期生成的fastq數據的質量值基於PHRED 64(Illumina 1.3和1.4),當前版本使用PHRED 33(Illumina 1.8+)。

使用fastqc進行質量控制,其結果有幾個問題:

主要針對低質量的reads和connectors,註意:如果要比較不同的樣本,過濾前後的reads長度應保持壹致,以避免在比較率中引入人為因素(兩個長度不同的reads不能放在壹起比較)。

如果DNA片段比測序的閱讀長度短,則產生的閱讀結果將包含下遊接頭序列。然而,接頭序列可能會影響比對結果(但通常接頭是壹個重復序列,其中壹些很難與基因組比對,但將其移除比攜帶它更好)。

不同的過濾軟件將具有與接頭嚴格性相關的參數設置,例如重疊堿基的最小數量和閱讀和接頭之間錯配的最大數量。當設置較小的嚴格值時,保證是最嚴格的,可以檢測大多數關節。

比如trim_galore的這個參數(默認非常嚴格:值1):

大多數ChIP-seq數據既短又長,因此沒有必要刪除低質量數據。但是,如果fastqc圖表中大量堿基的質量明顯減少,則需要將其移除。

傳統的去除方法是:對於每次讀取,從檢測到Q值低於某個閾值(例如Q

此外,如果有幾組不同長度的數據,則可以直接指定固定長度(例如,為了比較50nt和100nt的單端ChIP-seq數據,可以將所有讀取都剪切為50nt)。

如果是用於分析X或Y染色體的等位基因特異性結合,則需要許多可靠的SNVs,因此需要更高的Q值進行篩選,並且篩選標準更嚴格。不建議使用滑動窗口過濾。

運行時,將列出所有參數以供參考和學習。其中有-fastcq的命令,還有壹個參數:-j它是多線程的,默認壹個線程(需要基於python3)。

此外,將為每個樣本自動構建壹個同名目錄來存儲其相應的數據。

看看過濾後數據量的變化,因為原始數據質量好,所以沒有:

查看過濾後10個樣品的GC變化: