发布时间:2015-03-10 16:07 原文链接: 生物专业最强“杀手锏”:如何自学生物信息学?

  当下,在部分学习生物专业的学生面临工作难找、科研难做的多重窘境之际,基因产业和个体化用药却在以前所未有的速度蓬勃发展,遗传咨询师行业亦初露头角。传统学习生物专业的学生,可谓是赶上了“最好的时代”,倘若你知道如何解开维系健康的生命密码信息,你将变得无可替代。那么问题来了,如何自学生物信息学?本文是一个非生物信息学自学成才的葵花宝典。

  先说一下自己吧,我硕士读的是细胞生物学,今年4月开始在boss要求下自学perl,打听了下,这本书不错,就买来开始看,等5月份去北京参加公司的培训班时,读了一遍,看了一部分。培训回来,我们的项目就开始做了,9月拿到所有原始数据和分析结果。然后,我对照着公司的分析报告,试着自己走一边分析流程,中间遇到问题,自己解决不了的,就发邮件求助。有几点需要注意:

  1. 我能理解你想早些玩儿数据的愿望,但是在这之前,最好要有一个outline.需要知道数据从哪儿来的,怎么产生的?其实就是测序仪的工作原理。然后是数据质量检验,为什么需要数据过滤?接着是reads拼接和组装。总之,要对整个流程有一个认识,而后在学习的过程中,再不断回头对比这个流程,这样才不会有迷失的感觉。[这本书](Bioinformatics for High Throughput Sequencing)推荐看一下。

  2. 有了基础知识的铺垫,就可以尝试着自己做些练习了,paper上面都会给出他们的数据、原码地址,可以找来自己试试,先看看自己能不能做出一样的效果。当然,这时要是你手里正好有项目,那就更好了。

  3. 学生物信息,paper肯定是要跟踪的。这两个网站可以经常看一下:

  [homologous](Homologus  -Frontier in Bioinformatics) 覆盖生物信息有趣的论文, 算法,以及生物科学问题。这个网站还汇集了很多生物信息领域科学家的博客。再如BGI的主程罗瑞邦, SAMtools、BWA的作者Heng Li都有在这里出现。

  [RNA-Seq Blog](RNA-Seq Blog) 推荐新的论文、工作、培训课程、大型会议等。

  如果你是生物背景的,那么计算机方面的知识需要补一下:

   -需要能在linux环境下舒服的工作。比如从源码编译安装软件、PATH配置,再比如舒服地使用google找到问题的答案 :-)

   -学会使用python/perl。比如有的时候运行一个软件老是报错,可能就是因为在一个包含几十万行的文本文件里,有随机的那么几千行的末个位置,多一个冒号,[就像这里](using HTSeq | popucui), 这时候你知道需要怎么做了?

   -学会R。要从一大堆基因里面找出表达水平变化的基因来,需要统计分析和显著检验;而要把我们的数据更直观地展示出来,最好的方式就是图形了吧。这两个需要,R都能满足。当然matlab也是可以的,区别在于R是开源工具。

   -具备了上述技能,那么常用的软件就能用起来了。随着学习的深入,可能你的问题别人也没遇到过,这时候就需要自己动手,要么修改现成的工具,要么自己做一个出来。这时候,除了python/perl,或许还可以学学C/C++/java,或许需要研究下比如BWT、De Bruijn Graph背后的原理。

相关文章

数据“中毒”会让AI“自己学坏”

在一个繁忙的火车站,监控摄像头正全方位追踪站台的情况,乘客流量、轨道占用、卫生状况……所有信息实时传输给中央人工智能(AI)系统。这个系统的任务是帮助调度列车,让它们安全准点进站。然而,一旦有人恶意干......

国家数据局召开推动地方数据集团创新发展专题座谈会

为推动地方数据集团创新发展,服务全国一体化数据市场培育建设,7月23日,国家数据局组织召开座谈会。国家数据局党组书记、局长刘烈宏出席会议并讲话,局党组成员、副局长沈竹林、夏冰、余英出席会议。局党组成员......

智能化养猪助力育种领域全新探索

随着人工智能(AI)、自动化等技术的持续突破,利用传感器进行数据采集与高速传输,并通过物联网存储海量数据,正持续推进智能化养殖业发展,逐渐成为推动猪育种向精准化、高效化、智能化转型的核心驱动力。从整个......

国知办印发《知识产权数据使用手册及开放目录》

国家知识产权局办公室关于印发《知识产权数据使用手册及开放目录》的通知国知办函服字〔2025〕153号各省、自治区、直辖市和新疆生产建设兵团知识产权局,各地方有关中心:为促进知识产权数据开发利用,提高知......

研究揭示地方真实数据在全球疾病负担研究中的重要性

2月23日,记者从海南医科大学获悉,该校热带医学院杨国静教授团队近日在国际医学期刊《英国医学杂志》在线发表论文《中国被忽视热带病负担估计的差异:真实世界数据与GBD2021的比较研究(2004—202......

合成数据能否让AI模型精确可靠?

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满......

“人民数据数融平台”上线试运行

 12月28日,由人民数据开发的“数融平台”正式上线试运营。平台整体依托区块链、人工智能和企业经营相关数据要素,实现链上信息全透明、全上链,实现数据资产情况全穿透,实时追踪一手风控数据,对潜......

五部门制定数据产业发展促进政策

随着新一轮科技革命和产业变革深入发展,数据作为关键生产要素的价值日益凸显。五部门:制定数据产业发展促进政策近日,国家数据局联合中央网信办、工业和信息化部、公安部、国务院国资委印发了《关于促进企业数据资......

基金委“数据市场制度设计与关键技术”专项项目评审会召开

2024年12月3日,自然科学基金委管理科学部、信息科学部在北京召开专项项目“数据市场制度设计与关键技术”评审会议。自然科学基金委党组成员、副主任江松院士出席会议并讲话。国家数据局政策与规划司副司长栾......

数据流通市场的基础理论与治理方法项目指南

2024年度国家自然科学基金指南引导类原创探索计划项目“数据流通市场的基础理论与治理方法”项目指南以数据要素为核心引擎推动数字经济深化发展,有利于构建新发展格局、建设现代化经济体系、构筑国家竞争新优势......