发布时间:2021-12-29 09:47 原文链接: 这家公司将AI技术应用到生物科技领域

  人类在医学每个阶段的重大发展,都与科学技术的突破息息相关。

  新药研发是人类发展中极具风险和复杂度、耗时最漫长的技术研究领域之ー,研发费用高、研发周期长、研发成功率低一直是压在制药企业身上的“三座大山”。英国《自然》(Nature)杂志有一组数据显示,新药的研发成本大约是26亿美元,耗时约10年,成功率不到十分之一。

  典型的新药研发过程通常包括药物作用靶点及最优化合物确认,临床前研究,临床研究I、II、III期阶段,以及食药监局审批。然而据统计,类药化学空间中可探索的分子数高达1023至1060,发现新药可以说如同大海捞针。

  随着AI技术的发展,AI应用到新药研发的各个环节,在保证分析质量的同时,可以减少大量的试错和返工时间,提高研发效率,使新药开发走上快速高效的道路,同时降低药物研发成本。据统计,部分应用了AI的新药研发减少了35%的成本,研发周期也从5-10年缩短为1-3年。

  TRFold蛋白质结构预测平台迈入世界领先梯队

  蛋白质参与行使几乎所有的细胞功能,为了行使蛋白质的特定功能,蛋白质必须折叠成特定的结构。蛋白质的三维结构直接决定蛋白质的功能,一旦三维结构被破坏,蛋白质功能随之丧失,癌症、阿尔兹海默症等常见疾病都是体内重要的蛋白质结构异常引起的。

  蛋白质结构预测是结构生物学的重要分支,然而现有的实验手段不足以揭示一些重要的蛋白结构,需要借助更多生物信息技术、计算生物学手段去探索。

  AI应用于蛋白质结构领域,通过预测的方式破解了之前传统观测方法所不能解析的一些结构,且置信度比较高,十分接近事实,会极大加速生命学科的研究,也将带来医疗保健、食品可持续性、新技术等方面的改善,进一步促进生物科学、药物研发、合成生物学方面的发展。

  今年7月,谷歌旗下人工智能公司DeepMind公开了其人工智能系统AlphaFold2 的源代码,并在《Nature》杂志上发表论文阐述了AlphaFold2的技术细节,该系统能够精确地基于氨基酸序列预测蛋白质的3D结构,在生物科技领域一石激起千层浪。

  在2020年CASP14(2020年第14届国际蛋白质结构预测竞赛)上,AlphaFold2对蛋白质结构的精准预测被列为2020年度世界十大科技进展,这是人类首次利用人工智能技术快速精准地模拟蛋白质模型,其模拟结果可以与昂贵、复杂且耗时许久的实验室结果相媲美。

  施一公曾在此前的一次采访中表示:“人类蛋白质组里能够被预测的以单个蛋白为单位的空间三维结构,已经基本都被 AlphaFold 预测了。总体而言,预测结果可信、也比较准确。这是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就。”

  国内也不乏深入研究生物科技的AI公司。人工智能公司天壤XLab近日宣布,该公司自研的深度学习蛋白质折叠预测平台TRFold,在基于CASP14蛋白质测试集内测中,已获得82.7/100的成绩,仅次于全球第一名AlphaFold2的91.1/100的成绩,排名全球第二。

  据介绍,在基于400个氨基酸的蛋白链预测时,TRFold最长耗时仅16秒,且采取权重共享的方式以节约算力,相对于AlphaFold2的128张TPU(约等于256张GPU),TRFold仅使用了8张GPU,以更小算力、更高效率取得媲美AlphaFold2的成绩。

  这是目前国内所有公开蛋白质结构预测模型中取得的最好成绩,标志着我国计算生物学领域的表现已经处于世界第一梯队。

  

排世界第二.png


  *RoseTTAFold 结果来自github开源预测,其他数据来自CASP官网

  CASP比赛每两年举行一次,已成为计算生物学领域中最权威和最富盛名的比赛,每次比赛都吸引了许多来自生物物理学、计算机科学、高能物理学、计算化学和计算数学等不同领域的专家参加,被誉为“蛋白质结构预测领域的奥林匹克竞赛”。

  传统观测蛋白质结构的方法主要有三种,即核磁共振、X 射线、冷冻电镜,但这些方法往往依赖大量试错和昂贵的设备,每种结构的研究都要花数年时间。而AI应用于蛋白质结构的最新进展,即AlphaFold2,能在几天、甚至以分钟级预测出具有高置信度的蛋白质结构,这在以前甚至要花费数十年时间。

  在AlphaFold2开源4个月后,天壤蛋白质预测模型的迭代版在基于CASP14测试数据集的内测中取得了国内最好成绩,仅次于AlphaFold2。

  据天壤公司介绍,AlphaFold2是蛋白质结构预测方向的重大突破,但是围绕蛋白质结构功能问题且能够达到实际落地应用准确度要求的AI算法的开发才刚刚开始。TRFold有自己的模型表达优势和训练经验,可以推进解决更深层次的问题,比如蛋白质与蛋白质之间的相互作用。相比于AlphaFold2,天壤做了许多创新和优化,在模型表达、算力消耗等方面都有比较大的优势,具备显著的后发优势。

  深入研究蛋白质相互作用链路,助力药物研发

  天壤是专注于通用智能研究的创新企业,致力打造复杂系统下的通用人工智能平台,实现以最小成本、最快速度赋能业务场景,让智能像水电煤一样便捷。目前,已经广泛地服务于城市运行、交通治理、金融保险、商业零售等场景中。

  公司创始人兼首席执行官薛贵荣博士是人工智能与大数据领域顶级科学家,国家科技部云计算专家组成员。薛贵荣博士于2006年获得上海交通大学计算机博士学位,2006年至2009年在上海交通大学计算机系担任副教授、特别研究员,是国内第一位在全球搜索领域顶级会议ACM SIGIR上发表论文的科学家。

  2009年,薛贵荣博士加入阿里云,负责研发基于云端的阿里搜索引擎(神马搜索),支撑了阿里搜索框架中亿万网站的搜索和推荐服务。2013年至2016年担任阿里妈妈大数据中心负责人,阿里妈妈首席数据科学家;带领团队搭建数据管理平台达摩盘(DMP), 三年期间,实现了广告业务日收入从1000多万到8000多万的增长。

  薛贵荣博士曾在世界顶级会议与刊物发表论文70余篇,拥有ZL十余项,论文引用达9000+。

  此次负责TRFold项目的团队叫天壤XLab,成立于2019年,主要聚焦在创新领域,团队核心成员有全球顶级高校的生物计算专业、物理学专业、数学等专业的博士生,创新氛围浓郁。通过两年半的时间,XLab团队已经掌握了蛋白质的折叠的核心技术,能够参与到国际最前沿的生物医学领域中,天壤已经跨越了技术门槛,后续可以根据不同的场景进行针对性的研发和应用。

  据薛贵荣博士介绍:“传统意义上,分数达到90以上就与实验室的预测结果差别不大,目前TRFold的分数基于更小的数据获得了相对优秀的表现,后续还会继续迭代,争取到90分以上。随着技术的突破,更多的应用场景会随之而来。”

  在AlphaFold已经获得巨大成功且已经开源之后,为何还要切入蛋白质结构预测,做自己的一套算法,对此,天壤也有自己的想法。薛贵荣博士表示:“AlphaFold2的成功是蛋白质结构预测方向的重大突破,但是围绕蛋白质结构功能问题且能够达到实际落地应用准确度要求的AI算法的开发才刚刚开始,没有训练模型经验,或者没有具备能够训练出AlphaFold2结果的能力是无法把该技术推进解决更深层次问题的。”

  比如,DeepMind团队10月份公布的预测蛋白质和蛋白质相互作用的AlphaFold-Multimer就是将AlphaFold2进行微小调整后,在蛋白质复合体结构上从头训练,将蛋白质与蛋白质之间关系预测出来。像这种更深入的研究就必须要有自己搭建底层算法的能力,才能真正地应用在生物学领域。

  “天壤在做TRFold是自主研发的,充分考虑了后续应用,比如说我们的模型平台有不同的版本,就是用于不同情况,end2end版本用于快速生成结构,分段式版本用于大规模测算蛋白质氨基酸之间的距离,并且在开发时也充分考虑了后续的进一步研究与延展性。” 薛贵荣说。

  天壤蛋白质折叠项目负责人苗洪江博士表示:“实际上AlphaFold2的开源反而让做这个事情的门槛更高了,假如没有曾经的探索过程,就无法对它的方法优势进行量化,也不能学习到最有价值的关于思维方式的创新。此外,AlphaFold2并未公布训练代码,这意味着你即便下载了它的源代码,也只能对单蛋白解构进行预测。比起预测,天壤更关注的是这项技术如何落地,所以我们一定需要从头搭建一套自研算法,才能展开后续的工作。”

  薛贵荣表示,单蛋白的结构模拟只是个开始,基于目前的TRFold,还有许多方向可以深入,比如模拟蛋白质与其复合物的相互作用(包括小分子、多肽、其他蛋白质等)。目前比较明确的研究方向是继续深入模拟蛋白与蛋白之间的相互作用。基于相互作用,可以构建大规模的相互作用网络图、靶点发现、突变蛋白质结构模拟、post-translation修饰蛋白结构、GPCR、抗体模拟等,都是很有意思的方向。

  该公司还透露,接下来的工作重点将是利用目前的全蛋白质组协同进化分析,建立起蛋白质与蛋白质之间的相互作用的精准链路,通过研究蛋白质之间的相互作用,寻找精准的疾病治疗新方法。同时,提高蛋白质设计的精度和成功率,并探索研发设计蛋白质的新方法。

  有了自研的TRFold之后,天壤希望能够帮助人类搭建自己的蛋白质相互关联的网络,真正地对疾病的治疗、药物的研制等方向做出贡献。


相关文章

《生物安全法案》听证会通过对国内相关企业有何影响

北京时间6日晚间10时许,美参议院国土安全委员会举行了提案听证会,美参议院版本《生物安全法案》(S.3558)在会上以11-1的票数被通过,下一步,委员会预计会先进行内部的议案整理/修改工作,再将《生......

全球首次|新研究揭示外来植物的多维入侵机制

2月13日,华东师范大学生态与环境科学学院和浙江天童森林生态系统国家野外科学观测研究站研究员郭文永团队,首次在全球尺度上阐明了多因子间复杂的交互关系及其对外来植物入侵的复合驱动机制,相关研究在线发表于......

减肥药概念股异动拉升,多家企业明显上涨

减肥药概念股异动拉升,常山药业涨超10%,翰宇药业涨超8%,金凯生科、博瑞医药、昊帆生物涨超6%。在今日的市场交易中,减肥药概念股出现了明显的异动,呈现出强势上涨的态势。其中,常山药业表现尤为抢眼,其......

药明康德再澄清不构成对美安全风险

在A股龙年首个交易日前夕,药明康德连续发布两份公告,坚决否认对公司构成美国国家安全风险的指控。第一份《澄清公告》中,药明康德对一位美国议员的指称进行了反驳。该议员于2024年2月12日致函美国商务部、......

赛默飞2024年预测低于预期,对生物技术需求持谨慎态度

赛默飞世尔科技公司 TMO周三预测的年度利润和收入低于华尔街预期,表明对其用于生产疗法和疫苗的服务的需求下滑将至少延续到今年上半年。这家医疗设备制造商还表示,预计其主要市场中国的需求今年不会......

第二届天津生物及临床质谱论坛第一轮通知

由天津经济技术开发区生物医药产教联合体主办,中国化学会色谱专业委员会和天津分析测试协会指导,全国卫生健康职业教育教学指导委员会药学类专业委员会,天津医学高等专科学校,天津市安定医院(天津市精神卫生中心......

科睿唯安最新发布!确定了2024年的13种备受关注药物,开坦尼领衔中国市场

——科睿唯安2024年《备受关注的药物》报告于1月8日正式发布2024年的Clarivate™《备受关注的药物》报告将聚焦于13种预计在2024年崭露头角的药物,包括那些有望成为畅销药物的以及有潜力改......

4800万采购意向公开,华中农业大学采购质谱仪等分析仪器

为便于供应商及时了解政府采购信息,根据《财政部关于开展政府采购意向公开工作的通知》(财库〔2020〕10号)等有关规定,现将华中农业大学2024年4月政府采购意向公开如下:总预算4816万元,采购质谱......

兰州大学新增两家甘肃省重点实验室

甘肃省科技厅近日下发了《关于批准建设甘肃省泛第三极生物地球化学循环重点实验室的通知》和《关于批准建设甘肃省人工智能与算力技术重点实验室的通知》,记者获悉,依托兰州大学建设的甘肃省泛第三极生物地球化学循......

本周有多项重要的生物科技领域新闻盘点

本周有多项重要的生物科技领域新闻,涉及ConcertAI、Devyser、DNANudge、FDA、MGIAustralia和Bio-Techne'sLunaphore等公司和机构的最新动态。......