9月19日,全球首个多模态地理科学大模型“坤元”(Sigma Geography)在京发布。多位同行评审专家用“惊艳”“专业”等词来描述这款大模型。
“坤元”由中国科学院地理科学与资源研究所(以下简称地理资源所)联合中国科学院青藏高原研究所、中国科学院自动化研究所等单位研发,旨在拓宽普通大众的地理视野,解放地理从业者的双手,赋能地理科学研究、加速重大地理科学发现。
“地理科学是一门古老的科学,涉及到自然、人文、社会、经济各个学科体系。中国有一句古话,‘上知天文,下晓地理’,我们希望借助于‘坤元’大模型,把中国地理科学事业发展推向一个新的高峰,同时为引领世界地理科学发展提供重要科学引擎。”“坤元”大模型科学顾问、中国科学院院士、地理资源所研究员周成虎说。
“坤元”究竟有哪些惊艳之处?它能够做哪些专业的事?是否面向大众?《中国科学报》就此采访了相关科学家。
就像一个巨型图书馆的管理员
一问:首大模型为何被命名为“坤元”?
“坤元”首席科学家、地理资源所研究员苏奋振:“坤”指大地;“元”指起始,也指神经元,连在一起就代表地理智能大模型。
二问:为什么要打造“坤元”?
苏奋振:“坤元”是中国科学院基础与交叉前沿科研先导专项“数据-模型驱动地理智能系统与典型场景应用研究”(以下简称地理智能)的代表性成果之一。地理智能专项旨在革新地理信息研究的范式,推动地理信息系统升级到地理智能系统,大模型驱动地理知识推理是其中重要的组成部分。
三问:“坤元”具备哪些特点和功能?
苏奋振:“坤元”具备“懂地理”“精配图”“知人心”“智生图”等四大特点,实现了地理专业问题解答、地理学文献智能分析、地理数据资源查询、地理数据挖掘分析、专题地图绘制等功能。
四问:“坤元”如何实现上述功能?
苏奋振:“坤元”就像一个巨型地理科学图书馆的管理员,不仅仅管理图书的入册,还阅读了大量相关的图书资料。目前它学习了300万篇地理科学领域的科技文献,98部经典教材,88部经典著作,34部标准规范,1万张专题地图,1万篇卓越期刊论文,10万份专业图表和5万条的专业问答。
“坤元”建立了涵盖4大类、16小类的地理全学科语料库,提供320亿词元供大模型自监督学习,并制作了4万余条高质量地理学指令进行模型微调。相比通用语言大模型,“坤元”更熟悉地理学的语言模式、专业术语和领域知识,在地理学基准测试集上的准确性提升了31.3%。
将给地理学的科研范式带来变革
五问:目前,“坤元”做了哪些工作?
苏奋振:“坤元”已经支撑发表Nature子刊、The Innovation、Earth’s Future等高水平学术论文10余篇。
六问:“坤元”在已发表的学术论文中发挥了哪些核心作用?
苏奋振:首先是文献调研,如果要做一项具有创新性的研究,会需要很多前沿研究支持,以前检索一段时间内的文献经常会存在漏网之鱼,这个过程也非常辛苦,“坤元”有助于解决这些问题。其次是论文撰写,它可以根据我们给出的论文框架、数据、图表等辅助论文的撰写。“坤元”拥有相当于万千个博士的庞大知识储量,它意味着原来在发表论文时一个人的工作会得到万千个博士的帮助。
七问:地理大模型生成的信息是否绝对可靠?它在哪些方面不可取代科学家的工作?
苏奋振:对于地理科学来说,人类改造地球需要利用工具,改造的好坏关键在于使用的人。大模型采集的数据、最终形成的分析到底是对还是错,最终还需要通过人来判断。
在做研究的时候,一定是研究者才能提出新的问题。比如过去二三十年全球河流流出的淡水是进入大海,还是退向陆地?这个问题是人提出的,机器不会提出这些问题,但提出问题之后可以让它去查文献帮助回答。
八问:“坤元”将如何重塑地理科学研究?
周成虎:今天,以生成式人工智能为核心的人工智能体系正在重塑我们的社会,无论是作为人类的助手、大脑,还是替代物,人工智能已经成为不可或缺的重器。大模型体系更是将全世界的知识用一个“压缩机”变成一个庞大的知识库,对于学科体系广泛的地理科学研究来说具有不可或缺的作用,可以把不同时期地点知识统一在一个时空框架下,为解决全球变化、可持续发展问题提供新的科技手段。
苏奋振:不管是从技术上,还是从研究机制上,大模型将有助于推出知识生产。它将会给地理学的科研范式带来变革,把原来各个研究组、各个课题或各个区域的作坊式研究转变到大协作的平台科研模式,通过打造一个知识综合集成的大平台,供研究者、研究团队、研究机构使用。
地理科学智能迈出重要一步
九问:“坤元”是否会面向大众?
苏奋振:我们的大模型建设将分为“三步走”:第一步的重点是基础知识的综合和延伸;下一步的重点是推进地图大模型及地理推理机研发,让地理科学语言大模型读懂地图;最后一步是打造具有知识分析能力和推理能力的智慧型工具,创建地理科研协作大平台,让每个人、每个团队都能拥有专属的地理大模型,能够与古今中外的数百万科学家通过共享数据、模型、研究思路等方式协同工作。
十问:同行如何评价这款大模型?
中国测绘科学研究院副院长刘纪平:“坤院”的研发标志着地理科学智能迈出了重要的一步,具有广泛的应用潜力和深远的学术价值。“坤元”体现了我国地理信息领域的前沿创新能力,这一成果的广泛应用,将极大推动测绘行业的进步,为我国地理科学的全球竞争力提升做出重要贡献。
北京大学教授刘瑜:这是一项非常惊艳的工作。地理学全谱系高质量语料库的构建是该项目的基础贡献。在全球范围内,针对地理学所有子学科构建如此完整的、高达323亿tokens语料库是前所未有的。“坤元”在地理学术论文发表上已经展现出极大的应用潜力,未来通过地图大模型与地理推理机的研发,预计能够进一步提升地理信息处理的智能化水平。
百度公司主任架构师张刚:坤元具有多个重要的亮点:专注领域的模型构建,能满足更精细化的需求;多模态技术的应用,可以实现更加智能化的地理数据和图像处理;用户画像与精准响应;可以有效提升不同层次用户的交互体验,保证模型能够理解和适应地理学爱好者、专业学生及科研人员等不同层次的需求。这种能力也可以和百度现有的智能推荐系统形成互补,打造更个性化的地理知识服务。
“坤元”界面。地理资源所供图
原文地址:http://news.sciencenet.cn/htmlnews/2024/10/531421.shtm10月11日,科幻电影《749局》科影融合特别场在京举行。电影主创团队与科技领域相......
10月11日,甘肃省迎来了职业教育领域的一个重要里程碑——甘肃林业职业技术大学正式揭牌成立。这一历史性时刻标志着历经六十八载发展的甘肃省唯一一所林业类高等院校,正式迈入了本科教育的新阶段,开启了新的征......
”标志性科考活动获系列重大突破 “第二次青藏科考标志性科考活动守护水塔‘一原两湖三江’科考主体任务已经基本完成,这次科考从天到地、从冰到水取得了全方位的进展。”第二次青藏科考队队长、中国科学......
关于确定2024年国家环境健康管理试点名单的通知北京市、河北省、内蒙古自治区、辽宁省、黑龙江省、江苏省、浙江省、江西省、山东省、湖北省、湖南省、广东省、重庆市、四川省、贵州省、陕西省、青海省生态环境厅......
10月8日,华中农业大学果蔬园艺作物种质创新与利用全国重点实验室、药用植物资源可持续利用团队梅之南教授和杨庆勇教授课题组,发布了首个专门面向菊科植物的多组学数据库平台——AsteraceaeMulti......
实验桌上堆放着精密仪器和焊接工具,电脑上是正在运行的电路图,一页页写满了数据、画满了图样的纸张在桌面铺开,各式或大或小的电子元件前,南京邮电大学工程实验教学部创新中心副主任郝学元正在埋首研制电工电子实......
近日,记者从中国计量大学获悉,该校生命科学学院蜜蜂与蜂产品学研究团队主持的两项推荐性国家标准《GB/T44349-2024 蜂花粉总多酚的检测福林酚试剂比色法》和《GB/T44350-202......
10月10日,由广东省机械行业协会组织并主持召开的“面向软性物料的多级赋码追溯柔性包装生产线研制与应用”项目科技成果鉴定会议在广东佛山举行。经专家鉴定,该项目成果总体技术水平达到国际先进水平。记者获悉......
近日,中国热带农业科学院橡胶研究所组培与转基因团队在全球率先获得了橡胶树CRISPR/Cas9纯合基因编辑橡胶苗。相关研究成果在线发表于《经济作物和产品》(IndustrialCropsandProd......
近日,中国热带农业科学院热带生物技术研究所香(大)蕉栽培生理生态研究组从森林链霉菌2-6中分离获得抗枯萎病菌(FocTR4)的活性物质FluvirucinB6,解析了该抗真菌物质的抑菌作用位点及抑菌机......