生物信息学基础

时间：2024-08-10 01:37:01编辑：流行君

如何自学生物信息学

本人自大三就开始做生物信息，现在即将读博士，希望我的经验可以帮助到你。
既然你是想做生物信息学，那么相关背景什么的会了解一些，我在这就不多说了。

首先，确定你自己的背景专业，现在很多学校本科都没有专门的生物信息学专业，都是挂靠在生命学院或者计算机学院的。所以背景专业一般都是生物学或计算机学，不同的专业将来做生信区别会很大。当然，做什么方向和背景专业并没有绝对关系。
如果是生物学背景，那么将来大部分的工作将会是使用专门的生物信息学分析软件。所以难度会降低。自学的话，主要学几下几点就好：
1、一门脚本语言，个人推荐Python（Perl也可以，各有利弊，Python更新兴一些）。
2、Linux系统。这个也不是百分百要求，但是专业的生信人，都是用Linux的，而且很多软件都是不支持Windows的。
3、常用的生物信息学数据库，这里列出几个，NCBI，Ensembl，EBI，GENEbank等等，这些数据库下面还分子数据库，像GEO，GWAS catalog等。当然，还有方向更细的，像miRBase（miRNA数据库）等。
4、R，这也是一种编程语言，但更加侧重结果的展示，实际上也就是画图。
5、常用生信分析软件，这个没必要专门去学，需要用到他们的时候再学也不晚，都是很简单的东西。
如果是计算机背景，那么以后的工作可能主要是算法分析，创造新的生信分析软件，做数据库等。需要自学的就是以上的那些，再加一门工程语言，C，C++，C#，Java都可以。

生物信息学主要研究什么？

生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,具体地说就是从核酸和蛋白质序列出发, 分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物分析序列进行分析, 也就是研究新的计算机方法, 从大量的序列信息中获取基因结构、功能和进化等知识。而在序列分析中, 将未知序列同已知序列进行相似性比较是一种强有力的研究手段,从序列的片段测定, 拼接, 基因的表达分析, 到RNA和蛋白质的结构功能预测。物种亲缘树的构建都需要进行生物分子序列的相似性比较。生物信息学中的序列比对算法的研究具有非常重要的理论意义和实践意义。基因组中由寡核苷酸串联,重复排列的DNA序列,构成数量可变的串联重复序列,其中,微卫星DNA又称为短串联重复片列，是一种可遗传的不稳定的且具有高度多态性的短核苷酸重复序列,具有种类多,分布广,高度多态性等特点,这种多态性标志已广泛用于遗传病及亲子鉴定等.短序列比对中，一般常用的算法主要有三个：（1）空位种子片段索引法，首先将读段切分，并选取其中一段或几段作为种子建立搜索索引，再通过查找索引、延展匹配来实现读段定位，通过轮换种子考虑允许出现错配）的各种可能的位置组合；无论在发育期还是在成人体内，既有大量的新细胞产生，也有大量的旧细胞死亡，这是生物体的一种自然现象。为了维持机体组织中适宜的细胞数量，在细胞分裂和细胞死亡之间需要一种精确的动态平衡。由于这种生成与死亡的有序流程，在胚胎和成人期便维持着人体组织的适宜细胞数量。而这种精密地控制细胞的消亡过程就称为程序性细胞死亡。正常的生命需要细胞分裂以产生新细胞，并且也要有细胞的死亡，由此人体和生物的器官才得以维持平衡。

如何自学生物信息学

先说一下自己吧，我硕士读的是细胞生物学，今年4月开始在boss要求下自学perl，打听了下，这本书不错，就买来开始看，等5月份去北京参加公司的培训班时，读了一遍，看了一部分。培训回来，我们的项目就开始做了，9月拿到所有原始数据和分析结果。然后，我对照着公司的分析报告，试着自己走一边分析流程，中间遇到问题，自己解决不了的，就发邮件求助。有几点需要注意：
1. 我能理解你想早些玩儿数据的愿望，但是在这之前，最好要有一个outline.需要知道数据从哪儿来的，怎么产生的?其实就是测序仪的工作原理。然后是数据质量检验，为什么需要数据过滤?接着是reads拼接和组装。总之，要对整个流程有一个认识，而后在学习的过程中，再不断回头对比这个流程，这样才不会有迷失的感觉。[这本书](BioInformatics for High Throughput Sequencing)推荐看一下。
2. 有了基础知识的铺垫，就可以尝试着自己做些练习了，paper上面都会给出他们的数据、原码地址，可以找来自己试试，先看看自己能不能做出一样的效果。当然，这时要是你手里正好有项目，那就更好了。
3. 学生物信息，paper肯定是要跟踪的。这两个网站可以经常看一下：
[homologous](Homologus - Frontier in Bioinformatics) 覆盖生物信息有趣的论文，算法，以及生物科学问题。这个网站还汇集了很多生物信息领域科学家的博客。再如BGI的主程罗瑞邦， SAMtools、BWA的作者Heng Li都有在这里出现。
[rna-seq Blog](RNA-Seq Blog) 推荐新的论文、工作、培训课程、大型会议等。
如果你是生物背景的，那么计算机方面的知识需要补一下：
- 需要能在linux环境下舒服的工作。比如从源码编译安装软件、PATH配置，再比如舒服地使用google找到问题的答案 :-)
- 学会使用python/perl。比如有的时候运行一个软件老是报错，可能就是因为在一个包含几十万行的文本文件里，有随机的那么几千行的末个位置，多一个冒号，[就像这里](using HTSeq | popucui), 这时候你知道需要怎么做了?
- 学会R。要从一大堆基因里面找出表达水平变化的基因来，需要统计分析和显著检验;而要把我们的数据更直观地展示出来，最好的方式就是图形了吧。这两个需要，R都能满足。当然matlab也是可以的，区别在于R是开源工具。
- 具备了上述技能，那么常用的软件就能用起来了。随着学习的深入，可能你的问题别人也没遇到过，这时候就需要自己动手，要么修改现成的工具，要么自己做一个出来。这时候，除了python/perl，或许还可以学学C/C++/java，或许需要研究下比如BWT、De Bruijn Graph背后的原理。

上一篇：首善之区

下一篇：黑色吊带袜