當前位置:成語大全網 - 書法字典 - 省心課程筆記10-變異的識別

省心課程筆記10-變異的識別

在家呆了兩個多月,不知不覺已經是春天了。也許是離返校的日子更近了。...

變異是指實際測序數據與國際規定的參考基因組之間的差異。許多變異實際上只是人類多樣性的原因。突變是指那些與疾病有關的突變。

例如,ENSEMBL等人指定的人類參考基因組文件中的某個位置是AAAAA,然後壹個人的實際測序序列是AGCAA,因此與參考基因組相比,這個人有兩個突變位點。對於第二個位置,如果我們查看所有已知的測序,大多數人都是G,這意味著參考基因組有問題,這種突變不能稱為突變。對於第三個位置,如果妳查看所有已知的測序,大多數人都是A,而恰好有壹個人不是A,但他是患者,那麽這個突變就是突變。

SNP(單核苷酸多態性):單核苷酸多態性。個體間基因組DNA序列相同位置的單核苷酸變異(取代、插入或缺失)引起的多態性。在人類基因組中,SNP分布廣泛且密度高,總數超過107,平均每300bp(或1kbp)就有壹個SNP。或具有單核苷酸位點變異的SNV。

插入-刪除:插入和刪除。基因組上的小片段(:50bp)。

CNV(拷貝數變異):基因組拷貝數的變異。基因組中的大片段DNA會形成異常的拷貝數。例如,壹個基因在染色體染色單體上的數目是1,但在染色體復制過程中,該基因的染色單體數目在復制後從1變為2或n。其頻率遠高於染色體結構變異的頻率,覆蓋全基因組的核苷酸總數大大超過SNP的總數。

SV(結構變異):結構變異。大染色體片段的插入和刪除,染色體內部的某個區域發生了顛倒,兩條染色體之間發生了重組。

壹般來說,只分析SNP,其他類型的變異分析很困難或不準確。

來自兩個不同個體的DNA片段AAGCTTA和aagctta是等位基因。幾乎所有常見的SNP位點都只有兩個等位基因。

在人體中,SNP的概率約為0.1%,即每1000個堿基對可能存在壹個SNP(高密度)。對疾病發生和藥物治療有重大影響的SNP估計只占數百萬SNP的壹小部分。

SNP位點的分布是不均勻的,它在非轉錄序列中比在轉錄序列中更常見。編碼SNP(cSNP)是編碼區的單核苷酸多態性,也可分為同義和非同義兩種類型。非同義SNP會改變蛋白質的氨基酸序列。非編碼區和基因間隔區的SNP仍可能影響轉錄因子結合、剪接等過程。

從進化的角度來看,SNP具有相當程度的穩定性,即使代代相傳後,SNP引起的變化也不是很大,因此可以用來研究族群的進化。

HISAT2是壹款使用改進的BWT算法進行序列比對的軟件。由約翰霍普金斯大學計算生物學中心(位於JHU的CCB)開發,它是TopHat的升級版,速度提高了50倍。使用HISAT2+StringTie過程,我們可以快速分析轉錄組的測序數據,並獲得每個基因和轉錄本的表達。

首先,我們需要為下壹次比較建立壹個參考基因組索引。HISAT2提供了兩個腳本來從基因組註釋GTF文件中提取剪接位點和外顯子位置。基於這些特征,RNA-Seq reads比對可以更加準確。然後做讀取映射。

比較結果:

SAM(序列比對/作圖)數據格式是高通量測序中存儲比對數據的標準格式。BAM是SAM的二進制格式。使用samtools將sam文件轉換為bam文件並對其進行排序。

SAM文件:

Vcf格式(變體調用格式)是存儲突變位點的標準格式,用於記錄變體(SNP/InDel)。BCF是VCF的二進制文件。

Stats統計文件: