发布网友 发布时间:2022-04-27 03:35
共3个回答
热心网友 时间:2022-06-25 13:57
计算生物学(通常翻译为Computational Biology)和生物信息学(通常翻译为Bioinformatics)暂时还没有统一的定义。但是从对计算机,生物和医学知识的要求方面,可以简约分成两类。
第一类对计算机方面要求更高,更多专注于算法,数据结构。强调工具的效率和通用性。比方说通常提到的比对(Alignment)和组装(Assembly)问题。一个高效通用的比对算法可以用在DNA,RNA,Epi等不同方面的分析当中,比方说当前被大量使用的BWT转换(Burrows-Wheeler Transformation,生物信息常用变体包括双向BWT转换,FM-index,分区FM-index),动态规划(Dynamic Programming,生物信息里常用变体包括Banded DP, Myers' bit-vector)。为了提高效率,在硬件允许的情况下还会用到SIMD,GPU,MIC和FPGA等专用加速设备。这部分的专家还会参与到文件格式和API标准的制定,比方说BAM和VCF文件格式和GA4GH API标准的制定。对于推进工业化的进程,这方面的专家会因应需求,制作在线或者本地部署的平台以应付日益增长的对项目、数据和知识的分析、总结和共享的需求。相比较项目分析(第二类)而言,从事了这方面的研究,时间投入较大,较难出成果,更难对生物信息分析中的多个分支有全面的了解。但是这部分专家的技能较难替代,回报也相对较大。一个优秀的工具可能被引用上百次甚至上千次。这部分专家从就业的角度并不局限于生物信息,积累下来的算法,数据结构,计算机,数据挖掘,机器学习方面的技能能平行运用到金融等其他领域,一个例子是Morgan Stanley总部去年招Engineers和Quants特别青睐生物信息方面毕业的博士。
第二类对生物和医学方面要求更高,更多专注于对研究对象和数据的理解。比方说通常人方面提到的全基因组(WGS),全外显子组(WES),癌症基因组,辅助制药,表观分析(WGBS,RRBS,Chip-SEQ,Hi-C),单细胞等,非人方面的包括育种,宏基因组,基因组组装等。不同方向之间共享一部分的基础知识,比方说质控。不同方向对知识储备和经验有不同的要求,比方说癌症基因组对医学和临床的要求较高,基因组组装对计算机方面的要求较高。一个人可以是一个方向,也可以是多个方向的专家。这些人能把多个基础工具结合在一起产生1+1>2的效果(有时候连第一类写工具的人都想不到自己的工具可以被这么使用)。这些专家的经验比较难通过项目之外的其他途径获得(不是说书本无用,但肯定不够用)。这方面的研究对出成果有更好的保证(无论大小,一个项目一个成果)。这方面的人才在这个时间点上比较容易获得海外博士以及博士后的机会。但是毕业后转换工作机会成本较大,工作的选择也较为局限。需要尽早对职业进行规划,找到机会逃出自己的舒适区,扩展知识面,或者根据自己的能力,做好进入管理岗等其他通道的准备。
随着生物信息的发展,在下一个Solexa技术出来之前,市场对这两类人的要求必然更加精细化,第一类人提供更好的平台和工具,第二类人更高效和全面地发现问题和解决问题。
热心网友 时间:2022-06-25 13:57
CS专业,在cornell的cb组里实习过半年,也去过jhu的cb组参观。不同组偏重不同,还是要因组而异。
我在cornell的时候主要就是开发工具的,写了3个中型网站,这里只需要你有基本的数据库知识和网站开发。我还做过杂七杂八的事情比如parse一个xml文件然后存到数据库里,又比如写爬虫。总的来说需要你啥都会一点,技术难度不高。经过基础完整CS训练的学生就可以很好完成任务。
jhu的那个组偏向于算法,需要你有很好的dp水平,同时也要你很好的实现出来。
此外,我接触过的cb组,没有不在用machine learning的。
虽然不同组对CS要求各异,但是编译器,操作系统,组成原理基本是不会涉及的。
热心网友 时间:2022-06-25 13:57
首先,生信的绝大多数工作都是在linux上完成,图形界面就相当不重要了。
然后是语言,perl/python二选一;另外需要学R,尤其是ggplot2;偶尔还需要用到bash;
接着是应用,目前最广泛的应用是二代测序行业;
最后是程序,实话实说干我们这行的按照面向对象那一套规范来做的不多。公司里偶尔能见到,但科研机构即使是NCS级别的文章里带的程序,都远远达不到工业级的水准,当然专业开发生信工具的组还是写得很好的。
综上,生信入门的话,更重要的还是生物学理论,编程技巧的要求并不高。