发布时间:2012-11-06 00:00 原文链接: 计算机”课程“识别基因组调控区域

  来自约翰霍普金斯大学的研究人员成功教会了计算机如何去识别用以调控基因活性的DNA序列的共同点,并利用这些共同点预测基因组中的其它调控区域,这种新工具能帮助科学家们更好地了解疾病风险和细胞发育。这些研究成果公布在Genome Research杂志是两篇论文中。

  “我们的目的是分析调控信息如何加密的,并了解哪些序列变化会导致疾病风险,“约翰霍普金斯大学的分子和比较病理学副教授Andrew McCallion说,“我们给计算机加入了一些数据,‘教’它们区分不具有生物学价值,和具有生物学价值的数据,然后建立一套规则,让计算机分析新数据,基本上我们就是让计算机上了一次课。“

  这种先进的”机器学习“技术是由约翰霍普金斯大学医学院的生化工程助理教授Michael Beer,以及生物技术信息国家实验室的Ivan Ovcharenko联合研发出来的,他们最初是想为他们的计算机设置一种”训练集“(training sets),以便这些机器学习,这种训练集就是来自基因组中称为增强子的DNA序列――增强子能增加特异性细胞中某些基因的活性。

  在第一篇文章中,McCallion研究组构建了一种包含大脑特殊区域的增强子序列的训练数据集,这些序列包含有211个已公开的,来自小鼠和斑马鱼不同研究中的增强子序列,它们在大脑的发育或行使功能等方面发挥作用。

  而第二项研究中,这一研究组又根据他们自己的经验构建了另外一套训练数据集,最初是一些小鼠纯黑色素细胞,这些皮肤细胞能产生黑色素,改变皮肤的颜色,阻止太阳光的紫外线伤害。研究人员利用ChIP-seq技术,通过增强子结合蛋白,收集并测序了这些细胞中的所有的DNA片段,获得了大约包含 2,500个假设黑色素细胞增强子序列的列表。

  一旦研究人员有了这两个训练数据集――其中一个具有大脑特异性,另外一个具有黑色素细胞特异性,就能令计算机区分训练序列特征与基因组中所有其他序列特征,创建识别不同序列的规则。在整个基因组中应用这种规则,计算机就能发现上千对可能的大脑或者黑色素细胞增强子序列。

  在其中针对大脑的研究中,计算机共找到了40,000个可能的增强子序列,而在另外的黑色素细胞研究中,计算机找到了7,500个这样的序列,研究人员随机检查了每个批次序列中的一个亚组,发现超过85%的预测增强子序列确实可以增强大脑或者黑色素细胞中的基因活性,验证了这种方法。

  研究人员说,除了能识别调控某一器官或者细胞类型遗传活性的特殊DNA序列,而且这些方法还有助于我们整体解析增强子,同时应用到其它方面的研究中。

相关文章

基于计算机蛋白质设计实现温和条件下微塑料的生物降解

塑料工业在给人类社会的生活、生产带来方便的同时,导致大量废旧塑料垃圾的产生。由于其固有的硬度、强度、耐用性及稳定性需求,废弃塑料制品无法自动降解,长期暴露对环境造成严重危害。目前,塑料垃圾的处理方式通......

里程碑式突破!中国科学家实现“量子霸权”计算能力惊人

中国科学技术大学潘建伟、陆朝阳团队构建的一套光量子计算系统,最近在高斯玻色采样(GaussianBosonSampling)问题上取得重要突破,求解速度达到目前全球最快的超级计算机的一百万亿倍,远远超......

“追捕”艾滋病毒五十年探寻“隐秘的角落”

 “性感染的最小年龄才13岁,最大的86岁。”提到这两个数字,北京佑安医院感染中心性病艾滋病门诊主任孙丽君神情黯然。13岁,花样年华;86岁,耄耋老者。他们本不应该被艾滋病毒“俘获”,更不可......

研究揭示苔藓植物古多倍化历史及重复基因保留特征

藓类植物,作为陆地植物早期演化中的重要分支,在陆地植物的演化谱系中占有重要位置,但是学界对该类群本身演化历史的研究有限.此前,科学家研究对植物基因组发现,古多倍化事件广泛存在于种子植物和蕨类植物类群中......

计算机辅助生物过程设计线上系列讲座

现代过程设计理念已广泛应用于各个工业领域,鉴于生物过程的特殊性和复杂性,利用合适的计算机辅助工具,进行系统的过程开发和评价显得尤为重要。通过计算机辅助生物过程设计,可以实现:(1)全流程建模,全局把控......

基因组时间旅行!科学家培育高产高抗非洲牛

研究中非洲牛品种的历史起源  国际家畜研究所供图多个非洲牛品种国际家畜研究所供图在非洲牛群中发现的一组新的遗传标记和信息,将有助于未来繁殖出更具生产力和抗性的非洲牛。近日,《自然—......

最新!农业与植物生物技术中CRISPRCas应用综述文章

现代农业面临着诸多困境与挑战,现有的农作物栽培品种亟需改良与优化,以应对日益恶化的环境问题以及不断增长的世界人口。相比于传统育种,来自于原核生物的CRISPR-Cas系统可以准确、高效、可编程地对农作......

JohnYates专访:探索质谱与信息学之间的奇妙关系

计算机对质谱的发展一直起着巨大的影响。从数据采集到仪器操作再到数据分析,计算机在质谱发展史中的多个关键时刻都起到了积极推动作用。串联质谱和信息学的结合,使蛋白质组学能够快速将氨基酸序列与质谱图进行归属......

水生所揭示鲤科鱼类基因组加倍促进血氧系统表型多样性

生物的生存、繁殖、以及分布或多或少都受到环境氧的影响。生物的正常有氧代谢有赖于保持氧的需求(代谢)和供应(储存和传递)的平衡关系。而实现这一平衡关系主要依靠生物体内特异的血氧传递系统。血氧系统的多样化......

首次发现!人类基因组中的表观遗传缺陷或普遍存在

近日,一项刊登在国际杂志AmericanJournalofHumanGenetics上的研究报告中,来自西奈山医院等机构的科学家们通过研究首次揭示了人类基因组中普遍存在的表观遗传缺陷,同时还揭示了引发......