1.編程
Linux:會用Editor(e.g. VIM) 和 Shell Script (e.g. bash);推薦《鳥哥的Linux私房菜-基礎學習篇》
Python/Perl:《Python編程入門(第3版)》,Perl推薦小駱駝
R/MATLAB:《R語言實戰(R in action)》
如果做數據庫或者server,推薦再學PHP,MySQL,JavaScript
2.課程
Bioinformatics: 生物信息導論和方法(北大高歌老師的課程,講解邏輯清晰,由淺入深),MOOC。
因為生信有好多分支,如對基因組、蛋白質組學數據分析並給出生物學解釋;在研究算法方面,如利用機器學習的各種原理來解決生物學問題(對基因序列原件的註釋,如對TSS,splicing sites,promoters,enhancers,positioned nucleosomes等功能區域的註釋;通過對RNA-seq,microarray,ChIP-seq等數據的分析,區分不同的疾病類型或疾病的分子標誌物(biomarkers);對基因功能的註釋,如Gene Ontology term;以及基因間互作調控網絡的分析);比如運用統計學知識改進已有的生信軟件的算法,等等。可以根據將來要做什麽繼續補充知識,比如看壹下斯坦福大學的Andrew Ng在coursera的機器課程呀 ,看壹下統計學原理呀之類的。
3.文獻和實戰練習
如果是做基因組學的生信公司
3.1 RNA數據分析流程
RNA-seq:可以重復壹下文章中的分析Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks當然入門之後可以更多了解相關軟件啦,比如STAR,feature counts, Gfold, EdgeR, DESeq2,
DESeq等。
找lncRNA:Recurrently deregulated lncRNAs in hepatocellular carcinoma. 這篇文章中有如何找新lncRNA的流程,可以根據文章提供的方法重復壹下。
3.2 DNA數據分析流程
GATK那壹套流程檢測
同時variant與疾病、eQTL等關聯分析的話,可以了解壹下STATA
3.3
結合機器學習和基因組學的話,可以看壹下以下文獻:
DeepVariant:由谷歌Deep mind公司研發,利用卷積神經網絡(convolutional neural network, CNN)檢測基因組上單堿基突變(SNP)和小的插入缺失(Indel),比現有的GATK軟件有更高的精確度。
DeepWAS:根據功能單元選擇出壹組SNP的集合,與現有的基因組關聯分析(GWAS)檢測基因組上壹個SNP與疾病的關系相比,DeepWAS能夠更綜合地分析致病基因突變,在尋找調控區域的基因突變也更為直接。
DeepSEA:預測人類基因組非編碼區有功能的變異。
DeepBind:預測DNA,RNA結合蛋白的序列特征,並能識別有害的基因突變。
DeepCpG:在表觀遺傳學層面上,應用深度神經網絡算法,研發了通過單細胞測序的DNA序列和不完整的甲基化修飾數據的,用來預測細胞細胞層面是否會發生甲基化,其效果優於現有軟件。