fasta 是壹種 基於文本 用於表示 核酸序列 或 多肽序列 的格式。其中核酸或氨基酸均以單個字母來表示,且允許在序列前添加序列名及註釋。
特征:2部分-- id行 和 序列行 。
> id行以“>”開頭, 後跟序列名稱&序列描述。有時候會包含註釋信息
> 序列行壹個字母表示壹個 堿基/氨基酸 (A、T、C、G、N (N表示不知道是什麽)/20種常見氨基酸)。序列中允許空格,換行,空行,直到下壹個“>”,表示該序列結束。
高通量測序(如Illumina NovaSeq等測序平臺)得到的原始圖像數據文件,經堿基識別(Base Calling)分析轉化為原始測序序列(Sequenced Reads),我們稱之為Raw Data或Raw Reads,結果以FASTQ(簡稱為fq)文件格式存儲,其中包含測序序列(Reads)的 序列信息 以及其對應的 測序質量信息 。測序樣品中真實數據隨機截取結果如下圖:
特征: 每4行代表壹個reads信息
fastq格式是由fasta (記錄id和序列) 和QUAL (記錄id和堿基質量) 合並而來。fastq文件第三行往往是個+,其實就是和第壹行壹樣都是id。
第四行堿基質量值
堿基質量值(Quality Score或Q-score)是堿基識別(Base Calling)出錯的概率的整數映射。通常使用的堿基質量值Q公式[1]為: Q=-10 * log10P 。其中P為堿基識別出錯的概率。下表給出了堿基質量值與堿基識別出錯的概率的對應關系。
堿基質量值越高表明堿基識別越可靠,準確度越高。比如,對於堿基質量值為Q20的堿基識別,100個堿基中有1個會識別出錯,以此類推。
堿基質量值+33(前32個不是單個值),查表找到對應ASCII碼
fastq與fasta文件轉換
GFF,全稱為Generic Feature Format,主要用來描述 基因的結構與功能信息 ,對基因組進行註釋。記錄序列中轉錄起始位點、基因、外顯子、內含子等組成元件在染色體中的位置信息。現在用得比較多的是第3版,即gff3。gff是壹個三級嵌套結構。格式文件為文本文件,分為9列,以TAB分開。控制符使用RFC 3986 Percent-Encoding 編碼。比如:%20 代表著ASCII的空格。
gff文件壹***有9列:
第九列的詳解
GTF全稱為gene transfer format,主要是用來對基因進行註釋。現在用得比較多的是第2版,即gtf2。gtf文件也是分為9列,前八個字段與GFF相同(有壹些小的差別),重點在第九列的不同。
兩種文件差異比較:
bam文件和sam文件內容其實是壹樣的,只是bam是二進制的壓縮文件,占內存空間更小。需要通過特定的軟件來進行查看。(sam文件可以直接使用 less -S 查看;bam文件使用 samtools view -h xxx.bam | less -S 查看)
SAM(The Sequence Alignment / Map format)格式,即序列比對文件的格式,詳細介紹文檔: blogs.com/xiaofeiIDO/p/6805373.html
參考: sam格式文件解讀