生物信息学做什么的?
你是CS本科,做生物信息学应该有很大优势。生物信息学也分挺多研究方向,我就我比较熟悉的二代测序方向说一下。
二代测序主要是DNA和RNA样品的测序。前期的核酸提取和建库技术都比较成熟,常常可以交给实验员或者公司做。但是用于提取核酸的样品准备会根据研究课题的情况有所区别,不好一概而论。
我RNA做的少,下面就主要以DNA为例子说一下。RNA测序虽然有差别,但也大同小异。
目前DNA二代测序最热门的还是illumina的短片段测序。基本的数据处理技术也比较成熟,现在研究比较热门的几个方面,也是可以进一步提升的几个方面包括:
基因组学-怎样更有效率地index大型基因组和更准确地将短片段map到大型基因组(一般几个G的大小)上;
微生物组学-怎样快速准确地获取宏基因组的物种和功能信息。这个与前者的区别在于,你用来mapping的reference不是单一的基因组,而是成千上万的基因组,常常有几个T的大小,因此对比对的效率以及内存的利用效率要求更高;同时也需要有很高的分辨率来辨别来自不同物种的相似序列。
除了依赖于reference的比对之外,现在从头组装(de novo assembly)也比较热门。从头组装的计算量巨大,也有很多技术上的障碍,即使是人类基因组的从头组装,也还有很大的提升空间。更复杂的就是宏基因组的从头组装了。单基因组测序组装起来不过几十个染色体;宏基因组组装的是成千上万的染色体。
以上这些新的生物信息学工具的开发需要依赖有大量计算机专业知识的人员进行算法的优化,并能够写出相应的程序。相应的,这些计算机专业的人员也需要懂得基本的生物分子学知识和详尽的二代测序原理。
另一种生物信息学研究更注重于数据的分析,这类研究需要从大量的数据中分析得到可靠的结论。对计算机知识的掌握要求比较低,一般熟悉linux系统下的命令行操作,熟悉一两门高级编程语言,比如R和python,就可以了。但是这一类研究需要大量的统计学知识支撑,因此需要有较好的统计学基础。同时,因为是研究具体的生物学问题,也需要掌握科学研究方法,严密的逻辑,和丰富的相关的生物学知识。
还有一个介于两者之间的方向,主要依赖于统计学建模以及新工具的开发。这一类应用比较多的是在转录组测序或者甲基化组测序中,比对实验组和对照组时间的差异。因为涉及到样本大小,样本内的数据校正,样品间的数据校正,怎么处理缺失数据,怎么在样本数量有限的情况下得到高准确度的结果等等。这一类本质上是生物统计学的应用,但是最终也需要计算机专业人员写出相应的工具才能应用到数据上。