发布时间:2024-06-15 15:34 原文链接: 微调大语言模型,科学家开发化学文本挖掘新方法

6月7日,中国科学院上海药物研究所研究员郑明月课题组在五项化学文本挖掘任务上对多个大语言模型的能力进行了全面综合的探究,展现了微调大语言模型成为一种通用高效的生成式文本挖掘方法,为大模型的落地应用提供参考。相关研究发表于《化学科学》。 

近两年,以ChatGPT为代表的大语言模型(LLM)引领了人工智能和自然语言处理领域的快速发展。利用通用大语言模型强大的文本理解和文字处理能力,从复杂化学文本中灵活准确地提取信息,有望解放数据标注工人的劳动力,加速领域数据的标准化和结构化收集,推动化学领域的研究和发展。 

研究团队基于多种LLMs探索了不同策略,利用零样本、少样本提示工程来指导GPT-4和GPT-3.5-turbo,并对GPT-3.5-turbo、Llama3、Mistral、T5和BART等语言模型进行参数高效微调或全量参数微调。结果显示,经过全参微调的LLMs表现出良好的性能,显著减少了对提示工程的依赖性。其中,微调后的GPT-3.5-turbo 在所有任务中都表现出色,甚至优于基于大量领域内数据自适应或任务自适应预训练后微调的特定模型。经过微调的开源大模型如Mistral 和Llama3 也表现出了一定的竞争力。 

化学文本段落中蕴含丰富化学信息,五项结构化提取任务的数据形式。图片来源于《化学科学》 

相关论文信息:https://doi.org/10.1039/D4SC00924J

 


相关文章

新方法可提高图神经网络处理数据的准确率

山西大学智能信息处理研究所团队在图神经网络研究方面取得重要进展,相关成果5月23日发表于人工智能领域国际期刊《IEEE模式分析与机器智能学报》(IEEETransactionsonPatternAna......

电影《749局》科影融合特别场举行

原文地址:http://news.sciencenet.cn/htmlnews/2024/10/531421.shtm10月11日,科幻电影《749局》科影融合特别场在京举行。电影主创团队与科技领域相......

甘肃林业职业技术大学揭牌成立

10月11日,甘肃省迎来了职业教育领域的一个重要里程碑——甘肃林业职业技术大学正式揭牌成立。这一历史性时刻标志着历经六十八载发展的甘肃省唯一一所林业类高等院校,正式迈入了本科教育的新阶段,开启了新的征......

守护“水塔”,在“世界屋脊”上打一场攻坚战

”标志性科考活动获系列重大突破 “第二次青藏科考标志性科考活动守护水塔‘一原两湖三江’科考主体任务已经基本完成,这次科考从天到地、从冰到水取得了全方位的进展。”第二次青藏科考队队长、中国科学......

关于确定2024年国家环境健康管理试点名单的通知

关于确定2024年国家环境健康管理试点名单的通知北京市、河北省、内蒙古自治区、辽宁省、黑龙江省、江苏省、浙江省、江西省、山东省、湖北省、湖南省、广东省、重庆市、四川省、贵州省、陕西省、青海省生态环境厅......

首个菊科多组学数据平台AMIR发布

10月8日,华中农业大学果蔬园艺作物种质创新与利用全国重点实验室、药用植物资源可持续利用团队梅之南教授和杨庆勇教授课题组,发布了首个专门面向菊科植物的多组学数据库平台——AsteraceaeMulti......

南邮“金牌教练”:清醒状态下“时时在线”

实验桌上堆放着精密仪器和焊接工具,电脑上是正在运行的电路图,一页页写满了数据、画满了图样的纸张在桌面铺开,各式或大或小的电子元件前,南京邮电大学工程实验教学部创新中心副主任郝学元正在埋首研制电工电子实......

中国计量大学主持制定的两项国家标准正式发布

近日,记者从中国计量大学获悉,该校生命科学学院蜜蜂与蜂产品学研究团队主持的两项推荐性国家标准《GB/T44349-2024 蜂花粉总多酚的检测福林酚试剂比色法》和《GB/T44350-202......

多级赋码追溯柔性包装生产线研制与应用通过鉴定

10月10日,由广东省机械行业协会组织并主持召开的“面向软性物料的多级赋码追溯柔性包装生产线研制与应用”项目科技成果鉴定会议在广东佛山举行。经专家鉴定,该项目成果总体技术水平达到国际先进水平。记者获悉......

我国科学家获得全球首个纯合基因编辑橡胶苗

近日,中国热带农业科学院橡胶研究所组培与转基因团队在全球率先获得了橡胶树CRISPR/Cas9纯合基因编辑橡胶苗。相关研究成果在线发表于《经济作物和产品》(IndustrialCropsandProd......