使用fastqc進行質量控制,其結果有幾個問題:
主要針對低質量的reads和connectors,註意:如果要比較不同的樣本,過濾前後的reads長度應保持壹致,以避免在比較率中引入人為因素(兩個長度不同的reads不能放在壹起比較)。
如果DNA片段比測序的閱讀長度短,則產生的閱讀結果將包含下遊接頭序列。然而,接頭序列可能會影響比對結果(但通常接頭是壹個重復序列,其中壹些很難與基因組比對,但將其移除比攜帶它更好)。
不同的過濾軟件將具有與接頭嚴格性相關的參數設置,例如重疊堿基的最小數量和閱讀和接頭之間錯配的最大數量。當設置較小的嚴格值時,保證是最嚴格的,可以檢測大多數關節。
比如trim_galore的這個參數(默認非常嚴格:值1):
大多數ChIP-seq數據既短又長,因此沒有必要刪除低質量數據。但是,如果fastqc圖表中大量堿基的質量明顯減少,則需要將其移除。
傳統的去除方法是:對於每次讀取,從檢測到Q值低於某個閾值(例如Q
此外,如果有幾組不同長度的數據,則可以直接指定固定長度(例如,為了比較50nt和100nt的單端ChIP-seq數據,可以將所有讀取都剪切為50nt)。
如果是用於分析X或Y染色體的等位基因特異性結合,則需要許多可靠的SNVs,因此需要更高的Q值進行篩選,並且篩選標準更嚴格。不建議使用滑動窗口過濾。
運行時,將列出所有參數以供參考和學習。其中有-fastcq的命令,還有壹個參數:-j它是多線程的,默認壹個線程(需要基於python3)。
此外,將為每個樣本自動構建壹個同名目錄來存儲其相應的數據。
看看過濾後數據量的變化,因為原始數據質量好,所以沒有:
查看過濾後10個樣品的GC變化: