发布时间:2012-11-06 00:00 原文链接: 计算机”课程“识别基因组调控区域

  来自约翰霍普金斯大学的研究人员成功教会了计算机如何去识别用以调控基因活性的DNA序列的共同点,并利用这些共同点预测基因组中的其它调控区域,这种新工具能帮助科学家们更好地了解疾病风险和细胞发育。这些研究成果公布在Genome Research杂志是两篇论文中。

  “我们的目的是分析调控信息如何加密的,并了解哪些序列变化会导致疾病风险,“约翰霍普金斯大学的分子和比较病理学副教授Andrew McCallion说,“我们给计算机加入了一些数据,‘教’它们区分不具有生物学价值,和具有生物学价值的数据,然后建立一套规则,让计算机分析新数据,基本上我们就是让计算机上了一次课。“

  这种先进的”机器学习“技术是由约翰霍普金斯大学医学院的生化工程助理教授Michael Beer,以及生物技术信息国家实验室的Ivan Ovcharenko联合研发出来的,他们最初是想为他们的计算机设置一种”训练集“(training sets),以便这些机器学习,这种训练集就是来自基因组中称为增强子的DNA序列――增强子能增加特异性细胞中某些基因的活性。

  在第一篇文章中,McCallion研究组构建了一种包含大脑特殊区域的增强子序列的训练数据集,这些序列包含有211个已公开的,来自小鼠和斑马鱼不同研究中的增强子序列,它们在大脑的发育或行使功能等方面发挥作用。

  而第二项研究中,这一研究组又根据他们自己的经验构建了另外一套训练数据集,最初是一些小鼠纯黑色素细胞,这些皮肤细胞能产生黑色素,改变皮肤的颜色,阻止太阳光的紫外线伤害。研究人员利用ChIP-seq技术,通过增强子结合蛋白,收集并测序了这些细胞中的所有的DNA片段,获得了大约包含 2,500个假设黑色素细胞增强子序列的列表。

  一旦研究人员有了这两个训练数据集――其中一个具有大脑特异性,另外一个具有黑色素细胞特异性,就能令计算机区分训练序列特征与基因组中所有其他序列特征,创建识别不同序列的规则。在整个基因组中应用这种规则,计算机就能发现上千对可能的大脑或者黑色素细胞增强子序列。

  在其中针对大脑的研究中,计算机共找到了40,000个可能的增强子序列,而在另外的黑色素细胞研究中,计算机找到了7,500个这样的序列,研究人员随机检查了每个批次序列中的一个亚组,发现超过85%的预测增强子序列确实可以增强大脑或者黑色素细胞中的基因活性,验证了这种方法。

  研究人员说,除了能识别调控某一器官或者细胞类型遗传活性的特殊DNA序列,而且这些方法还有助于我们整体解析增强子,同时应用到其它方面的研究中。

相关文章

第五届电子信息工程与计算机技术国际学术会议召开

10月25日,第五届电子信息工程与计算机技术国际学术会议(EIECT2025)在广东江门召开。该会议采用线上线下相结合的创新模式,汇聚了来自全国各地相关领域的众多专家学者,大家围绕电子信息工程、计算机......

因美纳推出5碱基解决方案以驱动多组学发现,开启基因组与表观基因组的同步洞察

• 在美国人类遗传学会(ASHG)年会上,因美纳5碱基解决方案的早期试用客户——伦敦健康科学中心研究所将展示该技术在加速罕见病病例解析方面的强大潜力。• 因美纳专有的5碱基化学技术......

许瑞明研究组合作揭示人逆转座子LINE1靶向整合基因组的重要机制

人类基因组中存在大量具有"跳跃"能力的逆转座子(retrotransposon)序列。在胚胎发育早期、免疫和神经系统等特定阶段和环境下,它们会被激活,发挥重要生理功能;在病毒感染、......

高精度完整基因组助橡胶育种驶入“快车道”

橡胶树是天然橡胶的主要来源。“橡胶树育种面临的主要困难在于周期长和效率低,通过常规育种方法将多抗、高产性状聚合往往需要30~40年。”中国热带农业科学院橡胶研究所研究员程汉告诉《中国科学报》。然而,目......

小麦野生近缘种基因组“密码”被破解

记者宋喜群、冯帆从山东农业大学获悉,该校农学院教授孔令让研究团队首次组装了小麦远缘杂交常用物种中间偃麦草和鹅观草染色体水平的高质量基因组序列,解析了二者基因组结构差异与独立多倍化演化路径,对两者携带的......

烟草分枝发育的“开关基因”被发现

近日,中国农业科学院烟草研究所烟草功能基因组创新团队发现烟草分枝发育“开关基因”,预示着未来作物株型调控有了新靶点。相关研究成果发表在《植物生物技术》(PlantBiotechnologyJourna......

新研究破译薇甘菊入侵基因密码

薇甘菊作为全球十大最具危害的恶性入侵杂草之一,以其惊人的繁殖速度和强大的环境适应性,在亚洲、太平洋地区及中国华南地区造成严重生态破坏。然而,其基因组层面的适应性进化机制长期未被系统解析,制约了科学防控......

研究开发出酵母泛基因组数字模型与代谢网络分析方法

近日,中国科学院大连化学物理研究所研究员周雍进团队与上海交通大学副教授鲁洪中合作,在酵母系统生物学研究中取得新进展。研究团队通过整合分析全球1807株酿酒酵母菌株的基因组与生态位数据,构建了高覆盖度的......

基因组大数据还原野猪横跨欧亚的百万年迁徙历程

近日,中国农业科学院农业基因组研究所农业基因编辑技术创新团队深入解析了中亚野猪种群在跨越欧亚大陆百万年的迁徙历程中适应环境的独特遗传密码,为理解大型哺乳动物如何应对环境变化提供了全新视角。相关研究成果......

基因组密码被解锁:深度学习模型破解非编码区奥秘

人类基因组中超98%的遗传变异位于非编码区,这些变异通过调控染色质可及性、三维构象、剪接加工等多种分子机制影响基因表达,最终导致疾病发生。由于调控机制的复杂性和细胞类型特异性,目前解读非编码变异的分子......