打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
如何自学生物信息学?

【SChen的回答(11票)】:

硕士在国科大混了个生物信息的学位,想来有资格回答这个问题。

在生物信息的坑里面呆了好几年,发现生物信息的定义越来越模糊了,就像我刚入行的时候一个师兄对我说的那样,中关村卖电脑的如果卖给学生物的了,就说自己是做生物信息的。

同样,我现在在写一些软件,设计一些算法,也说自己是做生物信息的。

计算机系一些做体系结构和GPU编程的也会做一些生物信息的硬件加速算法,他们也说自己是做生物信息的,毕竟文章都发到了Bioinformatics杂志上了。

如果你想学生物信息中的算法设计,那恭喜你,加州大学圣地亚哥分校的一系列课程正合你的胃口,Coursera - Free Online Courses From Top Universities 。这些算法包括字符串算法,图论算法,随机化算法等等。

你的提问中发现你想学习如何处理数据。

这也是生物信息的另一个教派,整合已经发表的软件处理数据,也说自己是做生物信息的,我想你可能想点这个技能点。有点复杂,因为生物有太多研究方向了,做基因的,做蛋白的,做进化的,做结构的,做发育的。。每个分支又发表了很多软件,而且很多不好用,好用的有些又过时了,没过时的准确率也不见得有多高。

如果你能给我一个你的研究方向,我可以给你介绍一些很好用的软件。

用软件有几个挺麻烦的问题,有些软件安装很麻烦,依赖库很多,这个东西说实在的如果你没有编译背景有时候碰到了很难搞定,简单的办法就是直接给作者发邮件,一般作者想让自己软件的引用率高,所以发邮件都是秒回,如果作者博士毕业了,忽略此条。所以新的软件,作者必回邮件。

用软件另一个问题就是参数怎么设置,这个其实挺坑爹的,因为有时候你要理解背后的算法,可是这个对于学生物的同学来说太难了,这个其实是软件用户体验不好,软件作者闭门造车。Bioinformatics上还有很多文章说参数怎么选的,比如基因组拼接的时候,kmer的选取。

软件使用讲完了,有些格式转化,pipeline的,可能一个软件做不了,就要你写点脚本来完成这些事情,如果你只是想完成这点东西,那么学python就足够了,一个简明的python教程就是dive into python。网上免费。

先写这么多,有时间了再补充和整理。

【王焕威的回答(5票)】:

现在又诸多的网络课程,所以你可以自学的。

PLOS Computational Biology: An Online Bioinformatics Curriculum

这个链接很全,很实用

【XiYang的回答(3票)】:

生物信息学有两方面意义:

基于生物问题导向的和基于设计算法解决某类抽像过的生物问题的。

基于生物问题导向,主要还以训练对生物问题的理解为主,同时了解些简单的编程,如R, python,了解那些算法可以处理你当前的问题。

另一个方向是基于算法设计的,需要把一些抽像过的生物问题解决的更好,比如eqtl,gwas,sequence alignment 等等,这些需要比较过硬的数学和算法基础。

【周扬凯的回答(11票)】:

从工科转到生物信息学来,讲一下自己的经历。

首先得了解生物信息学做什么。推荐一本入门的书:《探索基因组学、蛋白质组学和生物信息学》,这本书基本上把现在用到的生物信息的基本技术讲了一遍。

然后是学会如何应用现有的工具。现在有很多已经写好的工具,只要会看帮助文档,对于解决手头的工作是提供了相当大的帮助。

如楼上讲的一样,学习一门语言。python,perl,R,都可以,只要能够帮自己解决问题就好。

因为你是生物学出身,所以能够理解工具背后的含义。对于像我一样从工科转到生物信息方向的,需要好好了解生物学的意义。有助于更好的完成工作。

国内的相关论坛确实不多,相应的帮助可以去查看工具和数据库的文献。试试用英文解决问题~

【popucui的回答(88票)】:

先说一下自己吧,我硕士读的是细胞生物学,今年4月开始在boss要求下自学perl,打听了下,<learning perl>这本书不错,就买来开始看,等5月份去北京参加公司的培训班时,<learning perl>读了一遍,<intermediate perl>看了一部分。培训回来,我们的项目就开始做了,9月拿到所有原始数据和分析结果。然后,我对照着公司的分析报告,试着自己走一边分析流程,中间遇到问题,自己解决不了的,就发邮件求助。有几点需要注意:

1. 我能理解你想早些玩儿数据的愿望,但是在这之前,最好要有一个outline.需要知道数据从哪儿来的,怎么产生的?其实就是测序仪的工作原理。然后是数据质量检验,为什么需要数据过滤?接着是reads拼接和组装。总之,要对整个流程有一个认识,而后在学习的过程中,再不断回头对比这个流程,这样才不会有迷失的感觉。[这本书](Bioinformatics for High Throughput Sequencing)推荐看一下。

2. 有了基础知识的铺垫,就可以尝试着自己做些练习了,paper上面都会给出他们的数据、原码地址,可以找来自己试试,先看看自己能不能做出一样的效果。当然,这时要是你手里正好有项目,那就更好了。

3. 学生物信息,paper肯定是要跟踪的。这两个网站可以经常看一下:

[homologous](Homologus - Frontier in Bioinformatics) 覆盖生物信息有趣的论文, 算法,以及生物科学问题。这个网站还汇集了很多生物信息领域科学家的博客。再如BGI的主程罗瑞邦, SAMtools、BWA的作者Heng Li都有在这里出现。

[RNA-Seq Blog](RNA-Seq Blog) 推荐新的论文、工作、培训课程、大型会议等。

如果你是生物背景的,那么计算机方面的知识需要补一下:

- 需要能在linux环境下舒服的工作。比如从源码编译安装软件、PATH配置,再比如舒服地使用google找到问题的答案 :-)

- 学会使用python/perl。比如有的时候运行一个软件老是报错,可能就是因为在一个包含几十万行的文本文件里,有随机的那么几千行的末个位置,多一个冒号,[就像这里](using HTSeq | popucui), 这时候你知道需要怎么做了?

- 学会R。要从一大堆基因里面找出表达水平变化的基因来,需要统计分析和显著检验;而要把我们的数据更直观地展示出来,最好的方式就是图形了吧。这两个需要,R都能满足。当然matlab也是可以的,区别在于R是开源工具。

- 具备了上述技能,那么常用的软件就能用起来了。随着学习的深入,可能你的问题别人也没遇到过,这时候就需要自己动手,要么修改现成的工具,要么自己做一个出来。这时候,除了python/perl,或许还可以学学C/C++/java,或许需要研究下比如BWT、De Bruijn Graph背后的原理。

【郑宝剑困匣的回答(10票)】:

假设你打算从事生物信息行业或长期地使用生物信息学工具而不是因为写文章之类临时抱佛脚,个么个人认为可以分三个阶段入手。

第一阶段是基础知识学习,找一本覆盖面广但是又不是很难啃的教材先对生物信息所涉及各个方面有所了解,比如人卫版李霞主编那本《生物信息学》,当然我只是随便举例,这本书很多章节的内容就是直接翻译的网站文档……

第二阶段是一个逐步深入的过程,这个过程中要学会工具的使用。比如编程是学Perl还是Python,现在R也得学了。算法方面最基本的那几个比如Smith-Waterman、Needleman-Wunsch、Dynamic Programming等要了解清楚,结合一些工具比如blast来学习。一些数据库网站也是需要了解清楚的比如NCBI之类的就不用说了,比如很多人都用DAVID来进行生物模式识别分析了当碰到来与你讨论的人时你也要有所了解才行,合理地寻找和利用资源。多看e文书和文档吧,多动手写,一定要动手写。

第三阶段是进行研究,就你个人的兴趣或者你的工作需要选定一个/些领域来研究,进一步学习更多东西,这就学无止境了,HMM啦Bayes啦ANN啦……比如我就对高通量测序和肿瘤遗传学感兴趣那么我就来研究这个。

搁几百年前,咱这就是个手艺人,把手艺弄好就是要熟能生巧博采百家才行。

【生物探索的回答(23票)】:

成为顶级生物信息学家的五个等级(来自薛宇/科学网博客)

如何成为顶级的生物信息学家?看你的研究。业内人士Shirley将生物信息学研究(注意,不是生物信息学者本人)的水平划分成五个层次。此外,Shirley不区分生物信息学(Bioinformatics)和计算生物学(Computational biology),因此这两个概念不做区分。在这里咱再重复一遍,生物信息学和计算生物学的区别,就是西红柿炒蛋和蛋炒西红柿的区别。

0级 (Level 0)

为建模、而建模(modeling for modeling’s sake)。简称:渣级。

Shirley在博客里提到说“如果你记得功夫熊猫”,问题是我没记得这个,脑子里想的是《憨豆的黄金周》里那段nothing, nothing, nothing… 原博举的例子是,之前有人问:现在数据这么多,能建模的东西一大把,那我们该干点啥呢?Shirley就问:你想解决啥问题?答:建模的问题。这就像我坐电梯看见认识的研究生,说小伙最近忙啥呢?答:做水稻呢。继续问:具体研究的啥?不高兴了,诧异:研究水稻啊!然后给我解释了半天中国要研究水稻的必要性。我…兄弟我每天吃米饭还固定要研究水稻三遍呢。原文解释,这个回答是OK的,如果科学家仅仅将自己当成数学家、统计学家、计算机科学家、物理学家,或者像我这样用嘴巴研究水稻的吃货,因为在这些学者各自的领域里,确实有许多好的理论建模问题。但如果这些学者是认真对待生物信息学的研究,这个回答不OK。许多0级生物信息学家们从来不读或者不发表生物学期刊上的论文,也不参加生物学的会议,因此这个级别属于“未入门级”。根据人以类聚,物以群分的原则,0级生物信息学家们通常只阅读自己或者其他0级生物信息学家的论文,并且,并且引用也是自引或者被同级别的学者引用。因此这类研究就是浪费资源。

1级(Level 1)

给数据、能分析。简称:菜鸟级。

这类研究一般是分析自己或者合作者实验室里未发表的数据,并试图获得新的生物学发现。相比与0级,这已经有很大的进步,并且是训练生物信息学者最好的途径之一。可以练习将已有的生物信息学技术来做出真正生物学发现的技巧,学习更多的生信技术和生物学知识,可以启发、衍生出2级和3级的好课题。评价1级科研的功底和水平要看数据有多复杂, 是否需要生信人员写一些程序和算法(而不是只用他人的工具),生信分析在整个研究中的有重要性 (最重要的假设发现是不是由生物信息分析出来的,文章中生信图表的个数),实验与计算的结合程度 (实验与计算 环环相扣,而不是高通量实验数据获得完跟个生信分析就拉倒),以及研究中生物学的发现是不是真的有意思,等等。因此兄弟我的看法是,1级虽然是“入门级”,但非常非常重要,所有生信专业研究生的必经之路,非生信领域的学者或学生,能达到1级中已可算是高手,进阶到1级上那就是凤毛麟角了。

2级(Level 2)

想新招、玩数据。简称:肉鸟级。

具有2级水准的生信研究有:1) 设计方法解决生物医学相关大数据分析中普适、定量的问题。比如咱生信课本里经典的用于双序列比对的Smith-Waterman算法等等;2) 设计算法来分析新的高通量技术所获得的数据,例如华大基因设计的用于二代测序短读段 (read) 映射到基因组上的SOAP系列工具,这就是典型的2级工作;3) 从各种公共数据中通过整合建立数据库或数据资源。这个太多了,生信领域各种专业、精心注释的数据库,都属于2级的研究。2级比1级高的地方,在于1级只能帮助一个实验室或者固定的、极有限的合作者,而2级的工作则可以帮助数百甚至数千的生物学家。2级的工作不必须发表在顶级的期刊上,时间会证明一切,比如分子进化领域的经典软件MEGA,每年几千的引用跟玩儿一样。这些方法并不见得必须要非常新,利用已有的统计或者计算方法来解决新的生物学问题已经足够保证其新颖性,但必须尽可能保证用户的友好性。开发者一般在发表之后还需要做非常非常多的工作,比如维护、升级,即使不在发表后续的论文。评价2级的生信研究工作不能数影响因子,但做的好却比较容易被领域认可(例如,华大基因发表NCS对咱搞生信的来说未必认可,但人家的SOAP系列做的肯定是专业水准的)。此外,2级的研究要做的好,生物信息学者一般需要专注于自己特定的方向,从而能够较好地了解领域内相关的、新的计算方法和实验技术。总体来说,国内生信专业的博士毕业,一般起码要做出2级下水平的工作,总得有点儿新玩意儿,不然想毕业几乎是不可能的。而对于非生信领域的学者,从1级进阶到2级几乎是不可能的,咱生信人的饭碗,不是想砸就能砸的了的。所以对于业余票友们来说,与其花精力试图进阶2级,还不如找专业学者合作更划算。

3级(Level 3)

玩数据、作发现。简称:顶级。

3级的生信研究一般是整合公共的高通量数据,利用相当精致的方法来做出生物学发现。因此这样的工作一般是从数据开始,实验验证结束。这就需要生物信息学家具有非常扎实的生物学知识,并且能够自己提出有意思的生物学问题。生物信息学家可以领导一个生物学的项目,并且实验学的合作者能够相信预测的正确性以及意义,并乐意开展实验验证。这个级别的研究一般都需要实验验证,不然顶级的期刊不收。对这类工作的评价,主要是看生物学的问题是否有意思,数据整合和分析是否有足够的技巧和合理性,并且也可以根据杂志发表期刊的档次(影响因子)来判断。例如我在《环形RNA分子:论开挂在生命科学研究中的重要性》提到的工作,这是典型的3级研究。从2级进阶到3级很困难,兄弟我目前正在努力中。

X级(Level X)

玩科学、讲政治。简称:神级。

在这个级别,生物信息学家要在巨型项目产生的海量数据的整合和模拟中发挥关键作用。做这个级别工作的生物信息学家一般具有良好的1级和2级的研究记录,并且在团队研究中要具有非凡的领导才能。这些工作一般都发表在顶级的期刊,并且引用极好,在研究过程中要注意协调方方面面。尽管有时生信对于这些论文的发表是重要的,但往往数据本身可能比方法更重要。例如期刊判断论文要依据其数据量的大小以及潜在的引用,而不是生信。此外,这类工作更多的是反映第一作者老板们的领导力以及在领域里的地位,而不是第一作者的技术能力和创造力。所以X级论文的第一作者们往往并不会得到足够的认可。因此,这些工作中的一作在独立研究之后,往往是必须建立科学的声誉,并且与之前X级工作无关。学者参加一些X级的生信研究无可厚非,因为这些项目的成员一般在各自领域都是顶级学者。但如果学者只开展或者只发表X级的工作,那就表明该学者在政治方面的关注已经超过科学了。兄弟我举例:典型的X级生信研究工作如艾瑞克?兰德 (Eric Lander) 领衔的人类基因组草图的公布《Initialsequencing and analysis of the human genome》。艾瑞克是第一作者也是共同通讯作者,因为这篇论文主要是他写的,所以数据也自然主要是他分析的。这篇论文影响深远,最重要的就是基本确定了基因组学这类超级项目的研究范式以及论文的书写格式,例如这类论文一般不带后续的实验验证,所以也是有争议。这也就是为什么国内老是讲华大在灌水的原因,第一,华大显然是在灌水;第二,这个灌水模式是老外发明的;第三,那你很容易就能明白,其实老外灌的更狠;第四,你老外自己定的游戏规则,你还玩不过华大,那你得懂“愿赌服输”这个道理。

Shirley总结,对于生物信息学者来说,一般从1级的研究开始,学习基本的生信技术;等到计算和生物学知识掌握差不多之后,可以尝试想2级和3级进阶,并且有可能也参与X级的研究。如果条件允许的话,一般有成就的生物信息学家的研究会从1级做到X级,不会专注某一个级别(所以搞生信研究不能挑食)。也有许多生信学者包括Shirley本人也在开始做实验并且产生实验数据,这样实验的内容要拿去跟实验学家的工作去比,而计算部分则可按照上述五个类别来评价。因此,当您再读基因组和生信的论文,可以带着“这是什么水平的生信工作”这个问题来阅读。尝试客观的评价生信工作,而不是数论文发表期刊的影响因子。

注:本篇博文的观点不代表本人观点,但兄弟我对这些观点表示无比的赞同。从1级到2级,对于生信专业的研究生和教师们来说不难,但2级到3级却极其困难,对于和我年龄相当的同行朋友来说,要跨越这一步几乎是难比登天。以及迈这个坎的,恭喜;如我般还在苦苦修炼的,也不必心急,武功练到境界了,破关也就是水到渠成的事情。

【曾健明的回答(11票)】:

必学:1、计算机基础(linux+perl+R 或者 python+matlab)

2、生信基础知识(测序+数据库+数据格式)

3、生信研究领域(全基因组,全转录组,全外显子组,捕获目标区域测序)

4、生信应用领域(肿瘤筛查,产前诊断,流行病学,个性化医疗)

分而治之:

一、计算机基础,需要看三本书,一步步的学会学通,不需要刻意去找哪个书,一般linux是鸟哥私房菜,perl是小骆驼咯,R是R in action,但是看一本书只能入门,真正想成为菜鸟,必须每个要看五本书以上!我云盘里面有这基本上的高清打印版,大家可以去淘宝打印一下才几十块钱还包邮,对书比较讲究的也可以买正版,也不过是一百多块钱而已!

二、生信基础知识,测序方面,在百度文库找十几篇一代二代三代测序仪资料仔细研读,然后去优酷下载各大主流测序仪的动画讲解,再看看陈巍学基因的讲解;数据库先看看三大主流数据库——NCBI,ENSEMBL,UCSC,还有一些也可以了解一些(uniprot,IMGT,KEGG,OMIN,TIGR,GO)同样也是百度文库自己搜索资料,但是这次需要自己去官网一个个页面点击看,一个个翻译成中文理解吃透;数据格式讲起了就多了,这个主要是在项目流程中慢慢学,或者你有机会去上课,不然你看来也是立马忘记的,主要有sam,vcf,fasta,fastq,bed,gtf,gff,genbank,ensembl,psl等等

三、生信研究领域,各个领域主要是软件繁多,合起来常用的估计有上百个软件了,一般只有从业五六年以上的人才有可能把它们全部用过一遍,而且这也完全需要项目来训练,而不能仅仅是看看软件手册,但是研究领域最重要的是背后的原理,需要看各大牛的综述。

a) 生信基础软件(blast++套件,fastqc,flash,blast,solexaQA,NGS-QC-toolkit,SRA-toolkit,fastx-toolkit)

b) snp-calling相关软件(bwa,bowtie,samtools,GATK,VarScan.jar,annovar)

c) 基因组相关软件(velvet,SOAPdenovo2,repeatmasker,repeatscount,piler,orthMCL,inparanoid,clustw,muscle,MAFFT,quickparanoid,blast2go,RAxML,phyML)

d) 转录组相关软件(trinity,tophat,cufflinks,RseQC,RNAseq,GOseq,MISO,RSEM,khmer,screed,trimmomatic,transDecoder,vast-tools,picard-tools,htseq,cuffdiff,edgeR,DEseq,funnet,davidgo,wego,kobas,KEGG,Amigo,go)

四、生信应用领域,讲这一块其实已经脱离了生信菜鸟的解释范围了,主要是想说社会上为什么需要搞生信的人才,全是因为在肿瘤筛查,产前诊断,流行病学,个性化医疗等领域有所应用,可以造福人类!!!这方面政策不确定,产业不定型,所以也这绝对是蓝海,但是也绝对不会有现成的资料直接培训人才,我们必须关注各种微信公众号,逛各种测序,医学相关论坛,紧跟业界精英的脚本,同时追着大牛的文献阅读,如此这般才能保住菜鸟的身份!

【SutinCC的回答(2票)】:

现在MOOC那么火,去里面逛一圈,几乎相关需要都涵盖其中。最关键的还是把生物信息学的来龙去脉,用到的工具等做个掌握。系统和细致兼具吧

【唐易的回答(1票)】:

只说一句:如果你不去学生物学,那么你只能算一个只会分析数据的人,只能被称为信息学

【知乎用户的回答(0票)】:

我也是一个刚刚步入生物信息分析的学生,现在主要是自学。也来简单的说一下自己的想法。弯路肯定没少走,我觉得主要是抱定这个目标,要解决一个问题,其他的就是时间的问题了。遇到问题解决问题,不断积累和总结。

【RayLay的回答(0票)】:

同样在自学生信,不知是否算入门,Linux,R,JAVA,perl都学了点啊,现在在搞重测序的数据,对测序机理不熟悉!应该需要看看一楼推荐的那书了!

【李天琪的回答(0票)】:

如果是打算辅助生物的话,看看圈内文献是怎么分析的,然后如法炮制,拿到结果就好了。如果找不到圈内相关文献的话。。我也不知道怎么办了。。

如果想转专业的话,就勇敢的转cs吧,门槛课程包括操作系统,编译原理,算法/数据结构,软件工程,还有多人协作项目经验。最好上课,自学亦可。但是现在我很揪心实际项目不够。。跟cs老板谈的时候感觉简直弱爆了,想搞算法软件什么的根本搞不出来好吗,数学要求简直是高好吗。。

如果是实验室转型的话。。唉。。

r,matlab,python,perl之流,学就行了,不用想太多。码农会十多门语言没啥奇怪的。。话说有本书叫七周七语言,业余唬人的好东西。。

有人带最好。。

转型中生物实验室的纯生物自学娃有时也能创造些让人眼红泪奔的事。。也是bug让人哀叹世事不公。。

【欧阳建国的回答(0票)】:

能不学,就不学。

别浪费生命。

一个过来人的善意的劝告。

【余昶的回答(0票)】:

写个实实在在的软件,做一两个项目。期间根据兴趣不断学习算法数据结构,编程语言,统计,机器学习,生物医学和遗传学。

原文地址:知乎

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
如何成为顶级生物信息学家
生物专业最强“杀手锏”:如何自学生物信息学?
计算生物来到商业化前夜,一文搞懂产业链全貌 | 量子位智库报告
生物信息学的打怪升级—初段小白必备
单细胞测序
生物信息学的现状与展望(The Current Status and The Prospect of Bioinformatics)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服