當前位置:成語大全網 - 書法字典 - 全基因組測序的前世今生

全基因組測序的前世今生

基因組代表了基因研究的起點。自從發現DNA結構以來,科學家們壹直致力於以精確的方式確定堿基序列。自1965第壹個酵母片段測序以來,測序的閱讀長度仍不足以覆蓋大多數物種的全基因組大小,因此基因組組裝技術壹直是持續研發的關鍵技術。本文系統回顧了與全基因組測序相關的重要技術和重大裏程碑,以及當前三代測序技術的優勢和挑戰。

下圖顯示了基因組組裝的重要裏程碑。不同的顏色背景顯示了從最早的基於核苷酸的早期測序到基於Sanger的鳥槍法測序,再到大規模的第二代NGS測序,再到目前的第三代TGS測序的主要組裝成就。歷時13年(1990-2003)耗資30億美元的人類基因組計劃(HGP)無疑加速了基因組組裝的進程。NGS衍生了壹系列新的應用,包括全外顯子測序、RNA-seq、ChIp-seq、WGBS-seq等,極大地促進了基因組測序的應用。2010年後,全新的技術開啟了第三代測序TGS的時代——長閱讀和長測序,極大地增加了基因組組裝的優勢,極大地提高了基因組組裝的連續性。

TGS的定義可能有所不同,它通常是指不經擴增直接對單個DNA分子進行測序的技術。這些技術產生比NGS更長的讀取,每次讀取可以跨越幾千到幾百千位/秒。NGS技術如10X基因組學關聯閱讀和Hi-C可以改善基因組組裝的連續性,但TGS的出現使改善組裝的連續性變得更容易。

目前,三代測序技術被廣泛應用,壹種是由太平洋生物科學公司(Pacific bio)完善並商業化的單分子實時測序技術(SMRT),另壹種是由牛津納米孔技術公司(ONT)商業化的納米孔測序技術。SMRT測序技術應用了邊合成邊測序的原理。以SMRT芯片為測序載體,載體上分布著數百萬個納米級零模波導孔(ZMW)。每個ZMW中的聚合酶捕獲文庫的DNA序列,dNTP被熒光激發,從而根據捕獲的熒光信號的長度在合成的同時進行測序。目前,SMRT測序有兩種模式,壹種是連續長閱讀(CLR)模式,另壹種是循環共有序列(CCS)模式。CLR的閱讀長度更長,但堿基測序的錯誤率更高(90%的準確率遠低於NGS的99.9%),但測序錯誤完全是隨機的。CCS模式利用這壹特性,通過自校正將時序控制錯誤率降至NGS水平,而CLR則犧牲了時序控制讀取長度。

納米孔測序使用插入人工脂質雙層中的轉基因細菌納米孔,這些納米孔被放置在寬度為幾十微米的單個微孔中,並排列在傳感器芯片上。當每個單鏈DNA通過壹個通道時,它會幹擾流過孔的電流,這種變化將由半導體傳感器測量。不同的堿基破壞電場的方式略有不同,記錄的電流變化可以轉化為DNA序列。ONT可以讀取的長度更長,這取決於制備的DNA文庫的大小,但其堿基準確性很難糾正,測序錯誤率也很高。

第三代測序技術由於其較長的閱讀長度,可以有效地跨越基因組中的復雜區域,從而顯著提高基因組組裝的質量。此外,在二倍體(多倍體)基因組中,TGS可以更容易地產生單倍型長時相塊,區分來自父母的遺傳信息,避免嵌合基因組,並有助於準確檢測結構變異(SV),包括高度重復區域的長變異、大插入缺失、重復、倒位和易位。同時,第三代測序還可以通過PacBio的酶促動力學反應或納米孔中的離子電流信號實現表觀遺傳測序。

FALCON是壹款基於三代數據的從頭組裝軟件,由PacBio直接開發並於2013發布。它繼承了分層基因組組裝(HGAP)過程。首先,對序列本身進行比較,以糾正三代測序的讀數準確性,然後使用德布魯金圖(DBG)構建重疊群,如下圖所示。FALCON可以識別二倍體序列,並可以輸出包含位點變異信息的等位基因序列(備選重疊群/a-重疊群)和主要基因組序列(主要重疊群/p-重疊群)。FALCON-Unzip是FALCON的升級版,它可以使用初始組裝中識別的雜合SNP獲得高度相合的單倍型,然後使用Hi-C數據繪制到組裝體上,並使用haplotigs和* * *序列完全組裝兩個單倍型。

Canu是源於Celera Assember的三代組裝軟件,可用於PacBio和Nanopore獲得的測序結果。它是以重疊-布局-共識(OLC)的方式組裝的,即利用長序列之間的重疊,主要分為三個步驟:糾錯、剪枝和組裝。對於FALCON來說,盡管與短閱讀長度相比,組裝前的錯誤糾正有了很大的改善,但組裝的單倍型仍然是嵌合的,重復的序列經常折疊成壹個序列。為了解決這個問題,2018發布的新版本軟件TrioCanu可以通過使用父母信息來完全相位單倍型。它利用雙親的第二代illumina數據,在組裝前根據不同的SNPs對組裝樣本的序列進行分類,然後從雙親中獨立組裝出兩套單倍型,因此TrioCanu特別適用於高雜合性基因組組裝。

Canu的計算速度很慢。HiFiasm是近兩年開發的用於PacBio HiFi reads的快速單體型分析從頭組裝軟件。它可以在壹臺機器上多線程運行,以較少的資源消耗快速完成基因組組裝,同時,利用給定的親本數據實現不同親本後代的單倍型組裝。但是單倍型分型的準確性比TrioCanu稍差。

裝配結果的準確性和計算工作的優化都是裝配中需要考慮的方面。目前,已經開發了多種用於從頭組裝的軟件,包括Wtdbg2、Flye、Peregrine、Shasta等。相對較快,但其裝配質量可能不太精確。所有基因組組裝方法和軟件都有優點和缺點。在實際應用中,我們可以考慮實際的組裝物種、排序策略和組裝目標,並綜合考慮選擇準確和優秀的組裝軟件。

對於大型基因組來說,即使是長閱讀也無法跨越整個染色體序列,需要其他連鎖信息來定位和測序組裝的重疊組,從而將基因組組裝提升到Scanfold的水平。生物納米光學圖譜是壹種單分子DNA技術。該方法基於DNA標記生成遺傳光學圖譜,然後與初始組裝的重疊組結合,可以進壹步對重疊組進行定相和測序,並產生更長的支架。此外,Bionano光譜還可用於SV和甲基化分析。

另壹種對重疊群進行定向和排序的技術是基於染色體構象捕獲(3C)(Hi-C)。Hi-C技術首先使用甲醛固定染色體的空間構象,然後使用限制性內切酶處理DNA並重新連接空間相鄰的DNA分子。該技術利用基因組的空間信息,結合重疊組和支架將其分布到染色體水平。Hi-C是目前在大基因組中實現染色體水平支架的唯壹方法,但它往往不如Bionano支架保守。染色質不可預測的折疊導致染色體遙遠區域的相互作用,這可能導致組裝錯誤,如人工倒位、同壹染色體中的支架錯位或不同染色體中的支架錯配。綜合利用不同的技術可以更好地糾正這些錯誤,甚至獲得整個染色體的端粒到端粒組裝。

基因組組裝的方式壹直在不斷創新和優化。通過不斷改進現有技術並引入新的DNA測序方法和生物信息學工具,組裝質量壹直在提高。NGS引入的高通能力和TGS提供的更高質量的序列最終使復雜的基因組可用於全基因組研究。人類遺傳學研究,包括群體基因組學、遺傳病定位和診斷、個性化醫療規劃、癌癥研究和產前檢測,都受益於過去十年基因組測序和組裝的進展。同樣,這些方法越來越多地用於非模式生物,以了解生態和進化過程。參考基因組測序和組裝的承諾已從單物種項目擴展到多物種協調,旨在通過結合NGS和TGS方法為大多數生物產生高質量基因組的項目目前正在進行中。

賈尼AM,加洛GR,吉安弗朗切斯基L,福門蒂g .基因組學的漫漫長路:基因組測序和組裝的歷史和當前方法。計算機結構生物技術雜誌2065438+2009年11月65438+2007;18:9-19.doi:10.1016/j . csbj . 2019.11.002。PMID:31890139;PMCID: PMC6926122。