生物信息學入門需要具備什麽能力？

1.編程

Linux：會用Editor(e.g. VIM) 和 Shell Script (e.g. bash)；推薦《鳥哥的Linux私房菜-基礎學習篇》

Python/Perl：《Python編程入門（第3版）》，Perl推薦小駱駝

R/MATLAB：《R語言實戰（R in action）》

如果做數據庫或者server，推薦再學PHP，MySQL，JavaScript

2.課程

Bioinformatics：生物信息導論和方法（北大高歌老師的課程，講解邏輯清晰，由淺入深），MOOC。

因為生信有好多分支，如對基因組、蛋白質組學數據分析並給出生物學解釋；在研究算法方面，如利用機器學習的各種原理來解決生物學問題（對基因序列原件的註釋，如對TSS，splicing sites，promoters，enhancers，positioned nucleosomes等功能區域的註釋；通過對RNA-seq，microarray，ChIP-seq等數據的分析，區分不同的疾病類型或疾病的分子標誌物（biomarkers）；對基因功能的註釋，如Gene Ontology term；以及基因間互作調控網絡的分析）；比如運用統計學知識改進已有的生信軟件的算法，等等。可以根據將來要做什麽繼續補充知識，比如看壹下斯坦福大學的Andrew Ng在coursera的機器課程呀，看壹下統計學原理呀之類的。

3.文獻和實戰練習

如果是做基因組學的生信公司

3.1 RNA數據分析流程

RNA-seq：可以重復壹下文章中的分析Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks當然入門之後可以更多了解相關軟件啦，比如STAR，feature counts, Gfold, EdgeR, DESeq2,

DESeq等。

找lncRNA：Recurrently deregulated lncRNAs in hepatocellular carcinoma. 這篇文章中有如何找新lncRNA的流程，可以根據文章提供的方法重復壹下。

3.2 DNA數據分析流程

GATK那壹套流程檢測

同時variant與疾病、eQTL等關聯分析的話，可以了解壹下STATA

3.3

結合機器學習和基因組學的話，可以看壹下以下文獻：

DeepVariant：由谷歌Deep mind公司研發，利用卷積神經網絡（convolutional neural network, CNN）檢測基因組上單堿基突變（SNP）和小的插入缺失（Indel），比現有的GATK軟件有更高的精確度。

DeepWAS：根據功能單元選擇出壹組SNP的集合，與現有的基因組關聯分析（GWAS）檢測基因組上壹個SNP與疾病的關系相比，DeepWAS能夠更綜合地分析致病基因突變，在尋找調控區域的基因突變也更為直接。

DeepSEA：預測人類基因組非編碼區有功能的變異。

DeepBind：預測DNA，RNA結合蛋白的序列特征，並能識別有害的基因突變。

DeepCpG：在表觀遺傳學層面上，應用深度神經網絡算法，研發了通過單細胞測序的DNA序列和不完整的甲基化修飾數據的，用來預測細胞細胞層面是否會發生甲基化，其效果優於現有軟件。