发布时间:2023-11-24 10:33 原文链接: 打破领域瓶颈!张锋再发Science

  微生物系统是包括CRISPR在内的许多生物技术的基础,但是序列数据库的指数级增长使得很难找到以前未识别的系统。

  2023年11月23日,博德研究所张锋及美国国立卫生研究院Eugene V. Koonin共同通讯在Science 在线发表题为“Uncovering the functional diversity of rare CRISPR-Cas systems with deep terascale clustering”的研究论文,该研究开发了基于位置敏感哈希的快速聚类(FLSHclust)算法,该算法在线性时间内对大量数据集进行深度聚类。

  该研究将FLSHclust纳入CRISPR发现管道,并鉴定了188个以前未报道的CRISPR相关基因模块,揭示了许多与适应性免疫相关的其他生化功能。该研究通过实验表征了三种含HNH核酸酶的CRISPR系统,包括第一种具有特定干扰机制的IV型系统,并对它们进行了基因组编辑。该研究还鉴定并表征了一种候选的VII型系统,显示了它对RNA的作用。这项工作为利用CRISPR和更广泛地探索微生物蛋白质的巨大功能多样性开辟了新的途径。

  酶和天然生化系统的发现推进了分子进化研究,揭示了生物过程,为分子技术的发展提供了一个起点。在过去的几十年里,通过对快速增长的核酸和蛋白质序列数据库的系统挖掘,发现了种类繁多的蛋白质家族和功能系统。这些工作中有许多使用蛋白质聚类来对大型数据集中的相似序列进行分组。然后,这些算法的输出可用于蛋白质序列的深度学习、三维(3D)蛋白质结构预测和基因组挖掘。后者的一个主要例子是发现了以前未知的CRISPR系统,它导致了变革性生物技术和治疗方法的发展。

  CRISPR系统是微生物RNA引导的适应性免疫系统。它们由CRISPR阵列组成,该阵列编码产生向导的CRISPR RNA (crRNA);一个适应模块,将新的间隔器集成到CRISPR阵列中;以及干扰模块,该干扰模块由由crRNA引导的效应组件组成,该效应组件随后被切割到匹配的靶标。CRISPR效应物可以是1类CRISPR系统中的Cas蛋白复合物(例如Cascade),也可以是2类CRISPR系统中的单、多结构域蛋白(例如Cas9、Cas12或Cas13)。CRISPR系统固有的模块化和可编程性已经被用来开发一套RNA引导的分子技术,从Cas9介导的基因组编辑开始。

FLSHclust的设计与实现(图源自Science )

  这个工具箱已经通过计算搜索得到扩展,发现了许多CRISPR系统。然而,现有的方法依赖于具有二次运行时间的算法,例如对所有比较和蛋白质聚类,这对于挖掘包含数十亿蛋白质的指数增长数据集来说很快变得不切实际。线性缩放聚类方法,如LinClust,可以解决其中的一些问题,但是产生的高度相似序列的小聚类限制了研究深层进化关系的能力。蛋白质结构域谱,如PFAM,可以用来识别广泛丰富的关联,但它们将远程同源物分组,这导致虚假的关联而缺失罕见的关联。

发现数百个罕见的以前未被发现的CRISPR系统,具有敏感的,可扩展的CRISPR关联管道(图源自Science )

  为了解决这些限制并利用已知蛋白质结构和功能多样性的爆炸性增长,该研究开发了快速基于位置敏感哈希的聚类(FLSHclust)(发音为“flash clust”),这是一种线性缩放的并行深度聚类算法,O(N logN)。FLSHclust可以处理数十亿个蛋白质,能够对庞大的、指数级增长的序列数据库进行有效分析。该研究应用FLSHclust来鉴定以前未被鉴定的CRISPR系统,包括候选的VII型CRISPR系统,生成RNA引导蛋白目录,扩展我们对这些系统的生物学和进化的理解,并为开发新的生物技术提供起点。

相关文章

见世界见未来,湘湖实验室举办科研成果专场路演活动

11月28日上午,湘湖实验室在萧山传化科技城钱湾智谷成功举办了名为“见世界见未来”的科研成果专场路演活动。此次活动的目的是推动实验室的科技成果转移转化,以助推地方经济发展。据悉,这是湘湖实验室自202......

打破领域瓶颈!张锋再发Science

微生物系统是包括CRISPR在内的许多生物技术的基础,但是序列数据库的指数级增长使得很难找到以前未识别的系统。2023年11月23日,博德研究所张锋及美国国立卫生研究院EugeneV.Koonin共同......

打破领域瓶颈!张锋再发Science

微生物系统是包括CRISPR在内的许多生物技术的基础,但是序列数据库的指数级增长使得很难找到以前未识别的系统。2023年11月23日,博德研究所张锋及美国国立卫生研究院EugeneV.Koonin共同......

打破领域瓶颈!张锋再发Science

微生物系统是包括CRISPR在内的许多生物技术的基础,但是序列数据库的指数级增长使得很难找到以前未识别的系统。2023年11月23日,博德研究所张锋及美国国立卫生研究院EugeneV.Koonin共同......

探索蛋白质组学新境界——第一届AI蛋白质组学技术研讨会召开

2023年11月17日,上海易算生物科技有限公司与复旦大学生物医学研究院联合举办第一届AI蛋白质组学技术研讨会-暨易算生物第一代易肽蛋白质组学质谱前处理机器人发布研讨会。研讨会邀请了多位业内专家、学者......

天津工生所实现抗癌药β榄香烯的微生物高效合成

倍半萜吉玛烯A是吉玛烯家族化合物核心中间体,能够衍生出结构特异、功能多样的类倍半萜物质,以β-榄香烯最具代表性。这些化合物在抗癌、抑菌、抗病毒等领域表现出优异的生物学特性。传统萜类物质生产依赖于化学合......

广州地化所发展出单细胞SIP反向基因组学技术

微生物是地球上丰富且分布广泛的生命形式,在生态系统中对有机物的生物地球化学循环发挥着关键作用。微生物降解是有机污染物分解过程中的重要环节。其中,降解功能微生物可将污染物转化为无毒化合物,是有机污染物降......

华大智造测序平台占比首次超过illumina!

近日,国家卫生健康委临床检验中心向参加血液mNGS室间质评的实验室公布了“2023年全国血液微生物cfDNA宏基因组高通量测序室间质量评价预研活动结果报告”。医业观察从多家机构证实此事。报告显示,参加......

微纳米机器人,揭秘微观世界!

对人类而言,微观世界仍然存在很多谜题——无论是地球上生命力最顽强的微型生物水熊虫,还是被誉为“微生物工厂”的微米级大肠杆菌,甚至是可寄生在大肠杆菌中的纳米级噬菌体,以及蕴含着神秘生命起源的分子基因编码......

即将实施:GB/T425802023《智能实验室微生物质谱鉴定平台》

国家标准GB/T42580-2023《智能实验室微生物质谱鉴定平台》将于2023年12月1日实施。该标准由TC526(全国实验室仪器及设备标准化技术委员会)归口,主管部门为中国机械工业联合会。主要起草......