发布时间:2023-04-01 22:17 原文链接: 中国科大校友发Science!蛋白质科学界版ChatGPT来了

凝视着手中的试管,又望向桌上那些依旧在各司其职的大大小小的实验仪器,赵惠民的一颗心像是被人用力攥着。他明白,已经到了不得不放弃的时候。

读博第三年,学校资格考试的巨大压力如海啸般倾泻而来,这项奋战了两年但依然没走通的课题,被他亲手按下了停止键。

事情虽然过去了30年,赵惠民现已是美国伊利诺伊大学香槟分校教授,但那时候的痛苦仍然记忆犹新。他不吝与自己的学生分享科研路上曾有过的至暗经历,因为科研本就是一条“光荣的荆棘路”,学会接受失败,是必修课。

“科学探索是无止境的,而且有很多的不可预测性,这就是做科研的魅力所在。”赵惠民并未因一次磕绊而止步,23年间,他带领的团队累结硕果,在Nature、Science, Cell 发表过7篇论文,在Nature子刊发表过30来篇论文。

北京时间3月31日,赵惠民团队再次在Science发表研究论文。这回,他们发明了一种新的AI工具,可以根据酶的氨基酸序列预测酶的功能。就像ChatGPT使用文字数据来创建预测文本一样,他们正在利用蛋白质的语言来预测它们的功能。

30多年后又回到原点

80年代流传着一句顺口溜“穷清华,富北大,不要命的上科大”。赵惠民就是“不要命”的那一个。

1987年,他以优异的成绩从浙江嘉兴一中考入中国科学技术大学(以下简称中国科大)生物系学习。他对科研的兴趣从这里萌发。

“那时候,中国科大的训练非常严格,学风在高校中名列前茅,5年制教学课程任务重,科研氛围很浓。”赵惠民告诉《中国科学报》记者。前三年他就掌握了数学、物理、化学、生物等学科知识。

后来,赵惠民成了施蕴渝(1997年当选中国科学院院士)的学生。彼时,施蕴渝刚从国外进修回来,率先在国内开展蛋白质结构与功能的计算生物学研究。受老师指引,赵惠民开启了分子动力学方面的计算模拟研究。

为了开阔眼界、提升自己,本科毕业后,23岁的赵惠民在1992年到美国加州理工学院读博,第一次接触到了酶工程。从那以后,他便与酶结下了不解之缘。

酶有多重要呢?它是一种生物催化剂,在生命体系中扮演着关键的角色,控制和调节各种代谢途径,保障它们高效工作。

研究酶的都希望把它的功能改造得更好,实现更高效、更稳定、更优质的催化剂。赵惠民独辟蹊径,想去预测酶的功能。如果这个想法能够实现,将是一次伟大的革新。

8年前,他的实验室自主建立了一套全集成自动化系统。6年前,他开始涉猎人工智能领域,想把AI技术与合成生物学、自动化结合起来,以期能更快地改造酶工程或者代谢工程。在中国科大积累的计算模拟知识重新派上了用场。

“没想到兜兜转转30多年,又回到了原点。”赵惠民感慨道,“可见,很多东西你学的时候没多大用,但说不定将来哪个时候就能发挥价值。”

从搭建仪器到设计流程,为了保证机器能够稳定可靠地运行,赵惠民煞费苦心,终于在2014年搭建了第一台原型机,在2020年完成了强化版。

一切正式起步。他带领团队用了3年时间,研发出被称为CLEAN的人工智能工具。论文在线后,通过网络界面,研究人员只需在搜索框中输入序列,就像搜索引擎一样,可以看到结果。

“我们并非第一个使用人工智能工具预测酶功能的人,但我们是第一个使用这种称为对比学习的新深度学习算法来预测酶功能的人。我们发现这种算法比其他研发出的人工智能工具更准确、更可靠、更灵敏。”赵惠民表示。

无论是生物学、医学还是工业界,这种工具都将帮助研究人员快速识别合成化学物质和材料所需的最合适的酶。

“投顶刊比较顺的一次”

2022年10月8日,一切准备就绪,赵惠民将这项研究成果投给了Science。

手握多篇Nature、Science,有着丰富投稿经历的他,预感这次不会遭遇审稿人“刁难”,他对这项成果有信心。

果不其然,文章很快通过编辑这一关,送入外审。不到两个月,赵惠民就拿到了审稿人的意见。

审稿人都给出了积极正面的评价,认为这项研究成果里用的人工智能的算法非常新颖。最关键的是,很多做人工智能的,投出的文章中几乎都是用数据组去测试这个工具有多好,而赵惠民团队不仅有计算机的确认论证,还提供了强有力的实验数据支持。

通过计算和体外实验验证发现,该工具不仅可以预测以前未表征的酶的功能,还可以纠正被领先软件错误标记的酶,并正确识别具有两种或多种功能的酶。

当然,研究并非尽善尽美,审稿人还是提出了一些小意见。因为预测并非百分百准确,审稿人希望作者做更仔细的研究,回答预测的准确率到底是多少。

赵惠民带领团队紧锣密鼓地进行了2个月补充实验,重新加入了很多新数据。改进后的文章在2023年1月底再次送审,不到一个月文章就被接收,文章从投稿到发表仅5个月。

“这是我投顶刊比较顺的一次。”赵惠民说。

在赵惠民看来,论文在Science上发表只是迈出第一步。他们计划扩大CLEAN背后的人工智能,进一步开发机器学习算法,以表征其他蛋白质,如结合蛋白。

“有很多未被表征的结合蛋白,如受体和转录因子,我们也想预测它们的功能。”赵惠民有一个宏大的愿望,他想预测所有蛋白质的功能,这样就可以对细胞中的所有蛋白质了如指掌,以便更好地研究或设计整个细胞用于生物技术或生物医学应用。

为了让这款工具愈发强大,该团队还在访问页面专门设置了一个键,用户可以点进去输入反馈意见。“希望大家多提意见,我们会根据反馈再增加一些新的功能。”

在美国做科研一点也不容易

闲暇时,赵惠民常跟自己的学生很走心地分享过往经历,想让他们明白做科研本就不是那么一帆风顺。

“一个6年时间做出的成果,别人重复一遍可能只需几个月就能实现。为什么你花了6年?因为这个阶段你一直在试错,科研就是在不断试错中寻找正确的方向。当走不通的时候要学会放手,虽然这的确非常痛苦。”赵惠民说。

30年前,他就曾因为考核压力,不得不放弃一个两年都未走通的研究。科研为什么让很多人望而却步,就是因为谁也不知道哪条路能走通,外在的压力疯狂地推搡你,每位科研工作者都是在荆棘丛里艰难摸索前进的方向。

“常听朋友说在国内做科研很‘卷’,有些人会以为在美国做科研很轻松,从我的亲身经历来说一点也不容易。”赵惠民表示。

他读博的时候,就有好几个同年进实验室的同学,因为顶不住压力,没拿到学位就心灰意冷地离开了。好在他跨过黑暗,选择再度出发,成为了美国加州理工学院教授Frances H. Arnold最有成就的弟子之一。

后来在2018年,Arnold因为“酶定向进化”上的突出成就,获得了诺贝尔化学奖。在Arnold所获得的诺贝尔化学奖的科学背景材料中,赵惠民在5篇关键论文里都有署名,其中有4篇还是第一作者。

导师带给赵惠民的影响除了科研上的飞跃,还有做人做事的改变。Arnold对学生总是直来直往,毫不留情地当面指出缺点。“我们中国人说话都比较委婉,当面批评多少有点让人下不了台。所以刚去的时候,不太适应,她的严厉,有时候连美国学生也吃不消。”

但相处久了,他发现,导师的很多反馈就像酶一样,催动着他极快成长和进步。后来他带学生时,也习惯就事论事,不绕弯子,并且鼓励学生勇于表达自己的意见和idea,最好跟他争论个面红耳赤。

时光荏苒,一晃已年过半百,他带的很多学生逐渐从科研小白成长为一些高校、科研院所的中坚力量。其中,33人在做教授,回国内做教授的就有15人。现在,他的团队有近50个成员,来自世界多个国家,中国人占了大多数。

他不是那种只会吩咐任务的“一言堂”导师,他喜欢适当“放手”培养学生的独立性和创造性,同时又会保持与学生的沟通交流。在他的实验室,一周举行一次大组会,两周一次小组会,组会上每个人都可以头脑风暴、任意发言。即使出差,他也会跟学生开视频联系。

这些年来,赵惠民对国内科研飞速的发展很是感慨,“国内现在的科研环境与我读本科那时候比不可同日而语,简直一个天上一个地下。现在各种各样的基础设施都齐备,哪像我在国内做科研的时候,买一个酶试剂,都要至少等半年才能拿到,一些实验用的管子都是反复用了洗、洗了用。”

一方面,他认为国内青年学者应当珍惜当下科研环境;另一方面,他也指出硬件方面虽好,还更应该在科研评价体系上改进,让青年科研人员能更好地激发积极性和创造性。

相关论文信息:https://www.science.org/doi/10.1126/science.adf2465

相关文章

AI驱动的蛋白质设计

扩散模型已被证明在图像和文本生成中很有用,而且似乎也适用于蛋白质设计。然而,这类模型目前的成功率并不高;产生的序列基本不能折叠成目标结构。而近期,由《自然》(Nature)发表的一篇论文描述了一种能设......

我国科学家开发活细胞蛋白质稳定性光遗传学控制技术

活细胞蛋白质操纵方法是生命科学基础与应用研究的重要工具,对蛋白质丰度进行精确地时间和空间控制的光遗传学工具在研究各种复杂的生物过程中发挥着重要作用。华东理工大学研究团队开发出活细胞蛋白质稳定性光遗传学......

西北大学团队“topdown”质谱法每天可分析1000个以上单细胞

西北大学研究团队开发出一种基于电荷检测质谱技术的自顶向下(top-down)的单细胞蛋白质组学方法。该方法在本月发表于BioRxiv预印本上,科学家们用此方法可以每天检测1000多个单细胞中的完整蛋白......

ChatGPT协助下一小时写成杂志接受论文

写论文逐渐到了依靠人工智能的时代,这是好事,也是坏事。好处是人类终于摆脱了科技论文写作的烦恼,坏处是人类会因此失去科学论文写作的独特能力。过去发表论文是学者成就的重要标准,随着机器代替人脑的这种趋势。......

ASMS布鲁克总裁专访:timsTOFUltra开启蛋白质组学新篇章

【导读】以每6个月进行一代创新的速度,布鲁克自推出timsTOF以来,不断刷新多组学研究的记录,并毫无意外地在每年ASMS上,为广大的粉丝和用户们奉上新的力作。在今年第71届ASMS大会上,布鲁克宣布......

16岁女孩研究自杀者大脑中的秘密,获得了5万美元奖金

根据世卫组织的统计,平均每过40秒,地球上就有一个人因为自杀而失去生命。美国疾病控制与预防中心(CDC)的信息显示,到目前为止,人类的自杀风险通常是依靠抑郁症或其他精神疾病的病史、生活环境因素如童年时......

直接分辨单个氨基酸分子小小纳米孔破解蛋白质测序难题

蛋白质是生命活动的主要承担者。测量组成蛋白质的氨基酸的排列顺序被称为蛋白质测序。由于缺乏普适、高效的测序技术,人类对蛋白质的了解还极其有限,生命世界的诸多奥秘仍待破解。近日,浙江大学化学系冯建东团队提......

直接分辨单个氨基酸分子小小纳米孔破解蛋白质测序难题

蛋白质是生命活动的主要承担者。测量组成蛋白质的氨基酸的排列顺序被称为蛋白质测序。由于缺乏普适、高效的测序技术,人类对蛋白质的了解还极其有限,生命世界的诸多奥秘仍待破解。近日,浙江大学化学系冯建东团队提......

ChatGPT访问量今年以来环比增速明显下滑,6月或为负数

日前,据国外网站数据分析工具SimilarWeb数据,ChatGPT的访问量增速出现明显下降。数据显示,今年1月,ChatGPT的环比增长率为131.6%,2月份为62.5%,3月份为55.8%,4月......

NAC在真核生物蛋白合成工厂中起着分子控制中心的作用

根据基因蓝图,一系列氨基酸在我们细胞的蛋白合成工厂---核糖体--中被组装成长的氨基酸链,即蛋白。每个新形成的蛋白都是从一个称为甲硫氨酸的氨基酸开始的。在蛋白合成过程中,当不断增长的氨基酸链通过“核糖......