芯片序列數據質量控制和過濾

前期生成的fastq數據的質量值基於PHRED 64（Illumina 1.3和1.4），當前版本使用PHRED 33（Illumina 1.8+）。

使用fastqc進行質量控制，其結果有幾個問題:

主要針對低質量的reads和connectors，註意:如果要比較不同的樣本，過濾前後的reads長度應保持壹致，以避免在比較率中引入人為因素（兩個長度不同的reads不能放在壹起比較）。

如果DNA片段比測序的閱讀長度短，則產生的閱讀結果將包含下遊接頭序列。然而，接頭序列可能會影響比對結果（但通常接頭是壹個重復序列，其中壹些很難與基因組比對，但將其移除比攜帶它更好）。

不同的過濾軟件將具有與接頭嚴格性相關的參數設置，例如重疊堿基的最小數量和閱讀和接頭之間錯配的最大數量。當設置較小的嚴格值時，保證是最嚴格的，可以檢測大多數關節。

比如trim_galore的這個參數（默認非常嚴格:值1）:

大多數ChIP-seq數據既短又長，因此沒有必要刪除低質量數據。但是，如果fastqc圖表中大量堿基的質量明顯減少，則需要將其移除。

傳統的去除方法是:對於每次讀取，從檢測到Q值低於某個閾值（例如Q

此外，如果有幾組不同長度的數據，則可以直接指定固定長度（例如，為了比較50nt和100nt的單端ChIP-seq數據，可以將所有讀取都剪切為50nt）。

如果是用於分析X或Y染色體的等位基因特異性結合，則需要許多可靠的SNVs，因此需要更高的Q值進行篩選，並且篩選標準更嚴格。不建議使用滑動窗口過濾。

運行時，將列出所有參數以供參考和學習。其中有-fastcq的命令，還有壹個參數:-j它是多線程的，默認壹個線程（需要基於python3）。

此外，將為每個樣本自動構建壹個同名目錄來存儲其相應的數據。

看看過濾後數據量的變化，因為原始數據質量好，所以沒有:

查看過濾後10個樣品的GC變化: