清华大学药学院学者开发基于蛋白质语言模型的结构与功能预测方法

研究背景 随着计算生物学的快速发展,我们正处于一个由数据驱动的生物信息学新时代。蛋白质,作为生命活动的执行者,其结构和功能预测一直是科学研究的核心问题。近年来,深度学习技术的突破性进展,尤其是蛋白质语言模型的兴起,为研究者们提供了一个全新的视角来了解蛋白质在生命体内所扮演的角色。 蛋白质语言模型,通过对大量序列的自监督学习,能够捕捉到氨基酸残基之间复杂的相互作用和模式。这些模型不仅能够预测蛋白质的三维结构,还能够揭示其功能和动态特性,并展现出优于经典计算生物学方法的表现。田博学课题组开发了一系列的基于蛋白质语言模型的方法,在抗体结构、蛋白质与DNA结合位点、细胞色素450酶活性预测等工作中取得了进展,为药物设计、疾病机理研究以及生物工程等领域做出了贡献。 研究内容 基于蛋白质语言模型的结构预测: 抗体药物对癌症、传染病等的治疗和预防具有重要意义。抗体的结构决定性质,因此结构预测对于性质优化至关重要。现有的实验方法通......阅读全文

简述蛋白质折叠的生长模型

  根据这种模型,肽链中的某一区域可以形成“折叠晶核”,以它们为核心,整个肽链继续折叠进而获得天然构象。所谓“晶核”实际上是由一些特殊的氨基酸残基形成的类似于天然态相互作用的网络结构,这些残基间不是以非特异的疏水作用维系的,而是由特异的相互作用使这些残基形成了紧密堆积。晶核的形成是折叠起始阶段限速步

360智脑通过中国信通院可信AIGC大语言模型功能评估

原文地址:http://news.sciencenet.cn/htmlnews/2023/6/502739.shtm6月12日,360智脑的360GPT-S2-V8型号产品获得了中国信息通信研究院(以下简称“中国信通院”)“可信AIGC大语言模型基础能力”评估报告(以下简称“报告”),报告显示必选项

日本将开发更强日语能力的“大语言模型”人工智能技术

据共同社消息,日本东北大学和日本东京工业大学等团队计划开发一种更强日语能力的“大语言模型”,作为生成式人工智能(AI)的基础技术。该团队将利用理化学研究所的超级计算机“富岳”学习大量数据,并将在本年度内逐步公开。这一技术的开发将使国内企业和研究人员能够为自己的公司的服务或研究而自行改良。生成式AI可

崖州湾国家实验室联合发布首个种业大语言模型

人工智能技术能给“农业芯片”带来怎样的助力?国内首个种业大语言模型的推出,或许可以给出全新的探索路径。据崖州湾国家实验室最新发布消息,崖州湾国家实验室精准设计与智造团队联合中国农业大学、上海人工智能实验室共同发布首个种业大语言模型“丰登” ,英文名称Large Language Model for

微调大语言模型,科学家开发化学文本挖掘新方法

6月7日,中国科学院上海药物研究所研究员郑明月课题组在五项化学文本挖掘任务上对多个大语言模型的能力进行了全面综合的探究,展现了微调大语言模型成为一种通用高效的生成式文本挖掘方法,为大模型的落地应用提供参考。相关研究发表于《化学科学》。 近两年,以ChatGPT为代表的大语言模型(LLM)引领了人工智

崖州湾国家实验室联合发布首个种业大语言模型“丰登”

4月28日,崖州湾国家实验室精准设计与智造团队与中国农业大学、上海人工智能实验室共同发布首个种业大语言模型“丰登”。该模型集成了先进的人工智能技术与大数据分析,对海量来自不同渠道的育种科研文献、技术书籍及网络资源进行深度解析和索引,在品种选育过程、农艺性状描述、栽培技术推荐和历史推广区域查询等四大应

提高大语言模型可信度,新方法助生成式AI破除“幻觉”

人工智能(AI)在给出准确答案的同时,也会有一些“胡乱输出”令人难辨真假,这被称为“幻觉”(hallucination)。而新一期《自然》杂志发表的一项研究报道了一种新方法,能检测大语言模型(LLM)产生的“幻觉”,即该方法能测量生成回答的含义的不确定性,或能提升LLM输出答案的可靠性。类似Chat

华大基因发布大语言模型驱动新方法,助力罕见病精准防控

  人工智能(AI)技术随着科技的飞速发展已广泛渗透至多个领域。在生命健康层面,AI凭借其独特优势在推动基因组医学的创新发展中扮演着重要角色,尤其是在罕见遗传疾病诊断中展现出了巨大的潜力。然而,利用基因测序技术对海量的基因组变异进行大规模、高效精准的致病因素识别,仍然是一个挑战。因此,基于基因检测大

蛋白质结构和功能的基础模型

蛋白质设计程序使用在体内环境中驱动蛋白质的分子力的计算机模型。为了使问题易于解决,蛋白质设计模型简化了这些作用力。尽管蛋白质设计程序相差很大,但它们必须解决四个主要的建模问题:设计的目标结构是什么,目标结构允许什么样的灵活性,搜索中包括哪些序列,以及将使用哪个力场来分数序列和结构。目标结构蛋白质功能

蛋白质折叠的框架模型的介绍

  框架模型[4] 假设蛋白质的局部构象依赖于局部的氨基酸序列。在多肽链折叠过程的起始阶段,先迅速形成不稳定的二级结构单元; 称为“flickering cluster”,随后这些二级结构靠近接触,从而形成稳定的二级结构框架;最后,二级结构框架相互拼接,肽链逐渐紧缩,形成了蛋白质的三级结构。这个模型

酶标仪语言界面

  通常进口的中高档酶标仪人机对话多采用英文。这对于某些基层实验室可能会存在语言方面的困难,从而难以最大限度地发挥酶标仪的作用。为解决这方面的问题,已有一些酶标仪采用了中文界面。这样就大大方便了广大基层实验室技术人员的使用。  综上所述,尽管酶标仪的发展极为快速,种类繁多,功能也不断加强,但其最根本

TrendForce:机器人大语言模型市场规模预估于2028年破千亿美元

  根据TrendForce集邦咨询最新研究,随着人型机器人迈向高度系统整合,并有望从工业场景走进家庭生活,前端的AI模型训练将更为关键,以满足更多后端理解与互动需求。预估含AI训练、AIGC解决方案在内的全球机器人大型语言模型市场,有望于2028年超越1000亿美元,且从2025至2028年之年复

预测蛋白质序列的新AI模型问世

瑞士洛桑联邦理工学院开发了一种名为CARBonAra的新型人工智能(AI)驱动模型。该模型可以根据不同分子环境所施加限制的主链支架预测蛋白质序列,有望在蛋白质工程及包括医学和生物技术在内的多个领域带来重大进展。这一成果发表在最新一期《自然·通讯》杂志上。CARBonAra是在一个包含约370000个

预测蛋白质序列的新AI模型问世

瑞士洛桑联邦理工学院开发了一种名为CARBonAra的新型人工智能(AI)驱动模型。该模型可以根据不同分子环境所施加限制的主链支架预测蛋白质序列,有望在蛋白质工程及包括医学和生物技术在内的多个领域带来重大进展。这一成果发表在最新一期《自然·通讯》杂志上。CARBonAra是在一个包含约370000个

预测蛋白质序列的新AI模型问世

使用CARBonAra进行序列预测(示意图)。图片来源:瑞士洛桑联邦理工学院科技日报北京8月8日电 (记者张佳欣)瑞士洛桑联邦理工学院开发了一种名为CARBonAra的新型人工智能(AI)驱动模型。该模型可以根据不同分子环境所施加限制的主链支架预测蛋白质序列,有望在蛋白质工程及包括医学和生物技术在内

蛋白质折叠的拼版模型的介绍

  此模型[9]的中心思想就是多肽链可以沿多条不同的途径进行折叠,在沿每条途径折叠的过程中都是天然结构越来越多,最终都能形成天然构象,而且沿每条途径的折叠速度都较快,与单一途径折叠方式相比,多肽链速度较快,另一方面,外界生理生化环境的微小变化或突变等因素可能会给单一折叠途径造成较大的影响,而对具有多

预测蛋白质序列的新AI模型问世

  瑞士洛桑联邦理工学院开发了一种名为CARBonAra的新型人工智能(AI)驱动模型。该模型可以根据不同分子环境所施加限制的主链支架预测蛋白质序列,有望在蛋白质工程及包括医学和生物技术在内的多个领域带来重大进展。这一成果发表在最新一期《自然·通讯》杂志上。使用CARBonAra进行序列预测(示意图

中科院心理所基于社交媒体语言表达心理幸福感感知模型

积极心理健康受到各个领域的关注,心理幸福感可以在一定程度上反映个体的心理健康水平。然而,民众的心理幸福感测量很难大规模实时评估。社交媒体的流行使非侵入性方式感知和了解在线用户的心理幸福感成为可能。中国科学院行为科学重点实验室朱廷劭研究组基于社交媒体用户的语言表达建立心理幸福感预测模型,并通过心理问卷

关于蛋白质折叠的格点模型的介绍

  格点模型(也简称HP模型),最早是由Dill等人1989年提出的。格点模型可分为二维模型和三维模型两类。二维格点模型就是在平面空间中产生正交的单位长度的网格,每个氨基酸分子按在序列中排序的先后顺序依次放置到这些网格交叉点上,在序列中相邻的氨基酸分子放置在格点中时也必须相邻,即相邻氨基酸分子在格点

一天内筛选超1亿种化合物,AI语言模型“提速”药物发现

美国麻省理工学院和塔夫茨大学研究人员设计出一种基于大型语言模型(如ChatGPT)的人工智能算法,这种称为ConPLex的新模型可将目标蛋白与潜在的药物分子相匹配,而无需执行计算分子结构的密集型步骤。相关论文发表在最新一期《美国国家科学院院刊》上。  图片来源:物理学家组织网使用这种方法,研究人员可

李彦宏:自然语言将成为新的通用编程语言

“未来,自然语言将成为新的通用编程语言,你只要会说话,就可以成为一名开发者。”4月16日,百度创始人、董事长兼首席执行官李彦宏在Create 2024百度AI开发者大会上发表的演讲指出,“AI正在掀起一场创造力革命,未来开发应用就像拍个短视频一样简单,人人都是开发者。”活动现场 主办方供图  现场,

1500种语言可能消失

基于一个类似于预测物种损失的新模型,澳大利亚研究团队分析了6511种仍在使用或已停止使用的语言后得出结论说,到本世纪末,1500种语言将不再被使用,这相当于每个月有一种语言消失。这项新研究还确定了使语言处于高风险处境的原因,包括更密集的公路网、更高的教育水平甚至气候变化等。  论文合著者、澳大利亚国

《机器智能》:秒级预测蛋白质结构的大模型上线

原文地址:http://news.sciencenet.cn/htmlnews/2023/10/510009.shtm

蛋白质三级机构预测-同源模型化法2

5、构建目标蛋白质的环区:在第2步的序列比对中,可能加入空位,这些区域常常对应于二级结构元素之间的环区,对于环区需要另外建立模型。一般也是采用经验性方法,从已知结构的蛋白质中寻找一个最优的环区,拷贝其结构数据。如果找不到相应的环区,则需要用其它方法。6、优化模型:通过上述过程为目标蛋白质U建立了一个

最新模型定义蛇毒进化-剧毒蛋白质进化于无毒基因

  据科学日报报道,目前描绘蛇或者蜥蜴嘴巴内部主要基因的科技改变了科学家们将动物定义为有毒的方式。如果口腔腺体能够表达与“毒素”相关的20个基因家族中的一些基因,那么这个物种就被定义为有毒。然而,美国德克萨斯大学阿灵顿分校的一项最新研究挑战了这一定义,这些研究还建立了一个描述蛇毒是如何产生的新模型。

蛋白质三级机构预测-同源模型化法1

蛋白质结构预测的生物学意义生物信息学研究的一个主要目标是了解蛋白质序列与三维结构的关系,但是序列与结构之间的关系是非常复杂的。人们已经掌握了一些蛋白质序列与二级结构之间的关系,但是对于蛋白质序列与空间结构之间的关系了解得比较少。预测蛋白质的二级结构只是预测折叠蛋白的三维形状的第一步。一些结构不是很规

头脑如何区分音乐和语言?

科技日报北京5月29日电 (记者张佳欣)音乐和语言是人们最常听到的声音类型,但大脑是如何毫不费力地自动识别音乐和语言的?以往科学家对此缺乏清晰的理解。现在,包括美国纽约大学在内的一个国际研究团队通过实验重现了这一过程。相关论文发表在28日的《公共科学图书馆·生物学》杂志上。研究人员表示,音乐和语言在

头脑如何区分音乐和语言?

  音乐和语言是人们最常听到的声音类型,但大脑是如何毫不费力地自动识别音乐和语言的?以往科学家对此缺乏清晰的理解。现在,包括美国纽约大学在内的一个国际研究团队通过实验重现了这一过程。相关论文发表在28日的《公共科学图书馆·生物学》杂志上。  研究人员表示,音乐和语言在音调、音色、声音质感等许多方面都

《科学》:模拟大脑的“语言交流”

人类通过大脑认知世界,却对认知世界的大脑知之甚少。 原因之一是大脑有两种“语言”(电信号和化学信号),目前人们可以“读懂”大脑的“电语言”(读取并解译电信号),对其“化学语言”(神经元释放的神经递质等化学信息)的“译读”却束手无策。 1月13日,中国科学院化学研究所研究员于萍和毛兰群团

没有语言,蝴蝶也会“交谈”?

一只小小的蝴蝶,生活在一片热带雨林中,它如此美丽,翅膀闪耀着玻璃般的光泽。但在雨林中,有太多这样的同类了,没有语言的它如何找到真爱,避免与那些看起来一模一样的“亲戚”们混淆呢?一个来自多国的科学家团队,包括英国惠康桑格研究所、厄瓜多尔阿马佐尼卡伊基亚姆地区大学和巴西坎皮纳斯大学的专家们,以玻璃翅蝶为