方榮信、塞巴斯蒂安·普賴斯爾、·侯、傑西塔·盧塞羅、、阿米爾·莫塔梅迪、安德魯·肖、埃蘭·穆卡梅爾、·張、瑪格麗塔·伯倫斯、約瑟夫·埃克、任冰。單細胞表觀基因組的快速準確聚類揭示了稀有細胞類型中的順式調控元件。bior XIV 615179;doi: manded)。
在匹配的讀取名稱前添加條形碼信息。
單元條形碼嵌入在標簽CB:Z:ggttgcgagcccgcaaa-1中,您可以通過將單元條形碼ggttgcgagcccgcaaa-1添加到read的開頭來修改bam文件
按讀取名稱對bam文件進行排序。
然後按讀取名稱對bam文件進行排序:
使用snaptools預處理數據並生成捕捉文件。
然後生成快照文件
刪除中間文件
刪除臨時文件
(2)使用片段tsv文件。片段文件已被過濾,這將使snaptools無法生成質量控制指標。
很多情況下,我們可以直接使用snaptools pre子例程,將匹配的bam或bed文件按讀取名稱排序作為輸入,生成snap格式文件。強烈建議使用未過濾的比較文件作為輸入。
(1)對於bam文件,我們需要在read名稱前添加單元格的條形碼信息,如下圖所示:
(2)對於bed格式的文件,應在第四列添加條形碼信息,如下所示:
(1)組從快照文件sample1.snap中的壹個單元格ATACAGCCTCGC中讀取。
(2)從壹個快照文件中的多個條形碼進行分組讀取。
(3)從多個條形碼和多個快照文件中進行分組讀取。
由於SnapATAC軟件使用逐箱矩陣對細胞進行聚類,這使得他可以輕松地組合多個樣本並進行比較分析。它需要為所有樣本創建具有相同倉大小的逐個單元的矩陣。這裏我們以PBMC_5K和PBMC_10K數據為例進行分析。
createSnap函數將創建壹個快照對象,其中包含每個快照文件的名稱和相應的條形碼信息。
SnapATAC軟件是基於逐箱矩陣對細胞進行聚類的,因此選擇不同的箱大小可能對細胞聚類有很大的影響。對於如何選擇最佳箱尺寸的問題,沒有絕對的答案。
壹方面,我們發現5kb-50kb範圍內bin大小的變化並沒有顯著改變細胞聚類的結果(如下圖所示)。另壹方面,我們註意到壹個大的容器通常產生相對較少的集群。聚類中的這種差異可以通過使用具有較小分辨率的Louvain聚類算法來彌補。
使用較大bin大小的優點是可以節省壹些內存,這對於壹些大型數據集特別有用。這裏是壹個關於倉位大小選擇的主觀建議。