发布时间:2024-05-06 16:28 原文链接: 科研人员利用大语言模型解释调节睡眠的分子机制

华中科技大学生命学院张珞颖团队和薛宇团队在Nature Communications杂志上合作发表了题为“Large-language models facilitate discovery of the molecular signatures regulating sleep and activity”的研究论文,利用大型语言模型G PT-3.5与提示词工程技术,结合基于多目标视频追踪的果蝇表型定量装置,对果蝇基因组进行系统解释与功能筛选,预测并验证了758个果蝇基因参与调控群体/个体睡眠和活动。尤其是使用基于思维链提示方法的机器推理,发现了仅在同伴存在情况下发挥睡眠调节功能的mre 11基因,揭示了MRE11可能通过调节多巴胺信号通路而影响睡眠、运动和社交活动。 因此,本项工作通过利用大型语言模型生成的上下文信息进行计算解释和推理,结合使用多目标视频跟踪范式进行基因筛选,系统揭示了调节睡眠、运动和社交活动的分子机制。


在自然界中,动物很少孤立行动。它们与同伴的相互作用对它们的行为和生理状态产生重要影响。尽管30多年前已提出社交关系的数量和质量是影响人类和其他动物健康的主要风险因素的假说,但其潜在机制仍然大部分不清楚。果蝇是社交型动物,呈现出动态社交互动网络和集体行为,并且这些行为对多种生命过程产生重要影响。睡眠也是受到社交信号影响的一个不可或缺的生理过程。白天的社交经验能改变果蝇夜间的睡眠需求和结构,而长期的社交孤立会导致睡眠减少并伴随进食的增加。果蝇群体水平的睡眠和运动也与孤立个体不同,但在群体环境中,个体的睡眠和运动如何受到调节以及它们如何与社交活动相互作用尚不清楚。

最近,基于大型语言模型的生成式人工智能技术取得了巨大突破,特别是“生成式预训练转换器”(Generative pre-trained Transformer,GPT)模型及其后续更新版。GPT模型的设计与开发是基于具有注意力或自注意力机制的Transformer神经网络架构,而提示词工程(PromptEngineering)已被证明能从大型语言模型中高效提取知识的前沿技术。特别值得注意的是,思维链(ChainofThought, CoT)提示方法能激活大型语言模型并做出复杂推理。尽管机器能够提取和生成语言知识,然而如何利用大型语言模型便利于科学研究仍有待深入研究。

在该工作中,研究者们首先使用标准提示词方法从大型语言模型GPT3.5中获得知识,对参与果蝇睡眠、运动和社交活动的分子进行了全基因组的解读,发现分别有12.5%、13.8%和10.2%的果蝇蛋白同源异构体可能参与这3种行为。在此基础上,构建了参与3种活动的标准基因数据集,并对GPT3.5产生的预测结果进行准确性评估。分析结果显示模型的灵敏性为18.4%-25.1%,而特异性为92.8%-92.9%,表明尽管GPT-3.5答案中的假阴性率较高,但低假阳性率能体现大型语言模型在搜索和总结文献方面的实用性。同时,开发了基于多目标视频跟踪的果蝇群体行为监测装置,能长期实时追踪群体中个体的活动,并利用该装置进行了全基因组的RNA干扰(RNAi)筛选,鉴定了可能参与调节睡眠、运动和社交活动的285、310和359个基因。结合进一步的分子、药理等多种实验方法,发现了仅在群体条件下时发挥促睡眠作用的mre11基因,以及无论在群体和孤立条件下都参与促睡眠的NELF-B基因。为了进一步研究调控睡眠、运动和社交行为的分子之间作用关系,利用大型语言模型推理和思维链提示词方法,构建了一个由86个功能基因组成的信号调控网络。结合机器推理结果,验证了MRE11可能通过调节多巴胺受体Dop1R1来调节睡眠。


综上,该研究不仅提供了大型语言模型辅助科学探索的研究方式,而且解码了参与睡眠和活动调控的分子特征。本论文通讯作者为我校生命学院张珞颖教授和薛宇教授,第一作者为生命学院彭迪博士,博士研究生郑刘彬、刘丹和韩诚。该研究获得了科技部重点研发计划、重大项目以及国家自然科学基金等项目支持。

文章链接:https://www.nature.com/articles/s41467-024-48005-w

(原标题:生命学院张珞颖薛宇团队利用大型语言模型助力解析睡眠等群体活动的分子特征)


相关文章

研究揭示“年老忘事”分子机制

中国科学院生物物理研究所研究员陈畅团队与中国药科大学教授黄张建研究组合作,揭示了学习记忆的一种新分子机制,并成功开发出区别于传统的干预方式,为改善记忆损伤带来了新的治疗策略。相关研究成果近日在线发表于......

植物耐干分子机制研究获进展

齿肋赤藓(Syntrichiacaninervis)是极端耐干植物的典型代表,能够承受超过98%的细胞脱水,并在遇水后几秒钟恢复光合作用等生理活动,能够快速响应水分的变化。在植物应对水分变化过程中,蛋......

大豆抗病分子机制研究获进展

大豆是重要的油料作物,我国作为世界最大的大豆消费国,其来源大量依赖进口,这凸显了大豆安全生产的重要性。然而,大豆在生长过程中易受多种病原微生物的侵袭,进而对经济收益产生影响。因此,深入研究大豆免疫机制......

新研究揭示主动脉夹层发病分子机制

一个国际研究团队近日在美国学术期刊《循环研究》上发表论文说,他们通过研究新型主动脉夹层实验鼠模型,初步揭示了这种危险心血管疾病发病的分子机制,研究成果有助于开发针对这种疾病的新疗法。主动脉夹层是指主动......

新型AI芯片将大语言模型能耗减半

美国俄勒冈州立大学科研团队研发出一种新型AI芯片,成功将大语言模型的能耗降低50%。这项成果于近期在波士顿举行的IEEE定制集成电路会议上发布,是半导体领域的重大突破,有望成为解决大语言模型高能耗问题......

研究揭示半胱氨酰白三烯受体CysLT2R被内源性配体LTD4激活的结构基础

中国科学院上海药物研究所徐华强/尹万超团队联合临港实验室蒋轶团队、北京协和医院张抒扬团队,揭示了半胱氨酰白三烯受体CysLT2R与内源性配体LTD4的特异性结合模式,并在分子层面阐述了受体激活机制,为......

压缩算法为大语言模型“瘦身”

据美国科学促进会旗下网站19日报道,美国普林斯顿大学和斯坦福大学团队开发出一种新压缩算法CALDERA,能精简大型语言模型(LLM)的海量数据,为LLM“瘦身”。这项算法不仅有助保护数据隐私、节约能源......

研究揭示新型CRISPRCas系统的分子机制

近日,中国科学院武汉病毒研究所邓增钦团队与天津医科大学基础医学院张恒团队合作,在《自然》(Nature)上发表了题为StructuralbasisfortheactivityofthetypeVIIC......

世界知识产权组织:中国生成式人工智能专利申请量世界第一

世界知识产权组织3日发布的报告显示,2014年至2023年,中国生成式人工智能专利申请量超3.8万件,居世界第一,是第二名美国的6倍。这份《世界知识产权组织生成式人工智能专利态势报告》显示,2014年......

提高大语言模型可信度,新方法助生成式AI破除“幻觉”

人工智能(AI)在给出准确答案的同时,也会有一些“胡乱输出”令人难辨真假,这被称为“幻觉”(hallucination)。而新一期《自然》杂志发表的一项研究报道了一种新方法,能检测大语言模型(LLM)......