當前位置:成語大全網 - 書法字典 - 大數據系統開發的原則、機遇和陷阱(壹)

大數據系統開發的原則、機遇和陷阱(壹)

系統發育基因組學是壹門重建地球生命進化史的科學。傳統上,系統發育僅通過形態學數據構建,但1968+0970年代後期Sanger測序和PCR的引入使遺傳信息能夠被納入系統發育分析。使用多位點分析的早期系統發育研究極大地促進了我們對系統發育歷史的理解,並挑戰了許多關於系統發育和動物之間關系的公認觀點。自這些開創性研究發表以來,測序和分析技術在方法學上取得了巨大進展,分子系統學被廣泛接受為壹種強有力的有機關系假說。2000年代中期開發的下壹代測序技術徹底改變了DNA測序技術,大大降低了每個核苷酸的測序成本,並大大提高了數據生成速度。因此,模式生物和非模式生物產生前所未有的序列數據已經變得負擔得起。這壹發展將分子系統學領域轉變為系統基因組學——從多個樣本中獲得基因組規模的數據可以降低成本(Mardis,2011)。

?系統發育管道可能非常復雜,呈現了大量可用於收集、處理、分析和解釋大規模數據集的方法。研究人員還必須克服測序策略設計、直向同源基因座識別、模型選擇和系統發育估計等挑戰。這對於剛剛進入這壹領域的研究人員(學生和成熟的科學家)來說尤其令人望而生畏。他們希望深入研究新穎的方法和數據,以重建研究小組的發展。在這裏,我們介紹了系統發育最重要的理論和工具的入門級概述,重點是對基因組數據的系統發育分析有用的技術的適當應用。我們重點介紹了系統發育估計的測序技術和統計方法,以及實現這些方法的軟件及其在大分子數據集上的應用。我們還討論了提高系統生物學分析準確性的工具和折衷方法,包括系統發育估計中系統誤差的生物學和方法學來源。最後,我們提供了系統發育學中常用術語的詞匯表,這對那些進入該領域並希望通過該相對較新但快速發展的領域中固有的眾多方法、分析工具和術語對其進行分類的人可能有用。

?“系統發育(基因組學)”壹詞最初是在預測基因組規模數據的基因功能的背景下引入的(Eisen,1998),然後在系統發育推斷的背景下引入的(O‘Brien & Stanyon,1999)。系統基因組學的存在源於近二十年來DNA測序技術的進步(Metzker,2010)。它包括分子生物學和進化生物學之間的幾個研究領域,有兩個主要目標:(I)推斷分類群之間的系統發育關系,並深入了解分子進化的機制;(ii)使用多物種系統發育比較來推斷DNA或蛋白質序列的推定功能。

?傳統的Sanger測序研究包括相對較少的位點,因此受到隨機或采樣誤差的限制。由於壹個或幾個基因中只有很少的系統信息特征,這種隨機“噪聲”會影響骨幹節點的推斷,從而可能導致系統發育樹的發育不良或支撐不良。利用大量的序列數據可以成功解決這個問題。平均而言,現代基因組學分析利用了整個基因組中數百到數千個基因,這比傳統的桑格測序數據集大幾個數量級。因此,這些數據集的規模顯著降低了隨機誤差和數據可用性(作為限制因素)的影響,這為解決生命之樹中的頑固節點提供了廣闊的前景。

?高通量測序技術【也稱為下壹代測序(NGS)】(圖1)已經產生了大量的基因組規模的數據。下壹代測序技術與桑格方法的根本區別在於,它們可以進行大規模並行DNA測序,並以低成本同時提供多個樣品的超高通量(Mardis,2011)。數億個DNA核苷酸可以並行測序,從而產生更多數量級的數據,並最大限度地減少對桑格測序中使用的片段克隆方法的需求(圖1)。NGS技術的最新進展和生物信息學工具的快速發展現在使任何規模的研究小組都能為感興趣的生物生成大量基因組序列。高通量測序可用於全基因組測序(Lam,2012)、全基因組鳥槍法測序(也稱為RNA測序、RNA-seq或轉錄組學;Wang,2009)、全外顯子測序(Rabbani,2014)和表達減少的基因組測序(也稱為靶向富集)(例如,Faircloth,2012;萊蒙,2012)。

表1總結了系統發育學中最常用的測序技術。有關這些不同技術的更多詳細信息,請參考Genohub的下壹代測序手冊(/Next-Generation-Sequencing-Handbook/)(另請參見Ambardar,2016;Besser等人,2018和其中的參考文獻)。為系統發育遺傳學研究選擇合適的測序技術將對下遊工作流程產生重要影響,特別是在讀取長度方面,因為壹些系統發育遺傳學技術(如超保守元件和錨定雜交富集,稍後討論)中的文庫制備需要壹個選定大小的步驟。