发布时间:2023-12-12 14:07 原文链接: 与荀子对话:“古籍版ChatGPT”发布

  对于普通受众而言,想要走近繁体、竖版、未添加句逗的古文不是一件容易的事。近日,国内首个专门应用于古籍处理与研究的智能工具“荀子”上线,意味着在智媒时代和古籍对话成为可能。

  据悉,古籍大语言模型“荀子”由南京农业大学信息管理学院教授王东波研究团队研发,是一个包含了《四库全书》在内古籍文献的超20亿字大型语料库,能够实现自然语言理解、自动翻译、诗歌生成、自动标引等多项功能。作为开源的、公益的研究成果,该模型已在GitHub、ModelScope等网站开源。

  向思想家荀子致敬

  为何取名“荀子”?据王东波介绍,荀子不仅是我国先秦时期伟大的朴素唯物主义思想家,也是一位散文大家。在对他作品的深入研讨中,团队发现,他在语言学理论的阐述上也是一位开拓者,命名荀子是为了纪念这位中国历史上的语言学先驱。

  “咱们请它以金陵为主题,生成一首五言绝句。”王东波现场演示了“荀子”的智能写诗功能。指令一输入,系统便生成了一首堪称绝妙的原创绝句:“秦淮佳丽地,城阙望中迷。柳暗青丝发,花香碧玉衣。歌楼留夜色,画阁敛春晖。细雨轻舟去,双鱼梦泽飞。”

  除此之外,古文的阅读理解、标点添加,以及将古汉语翻译为现场汉语,这些让受众难啃的“硬骨头”,“荀子”可以轻松拿下。

  对于领域专家而言,可以借助“荀子”完成古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本摘要等专业古籍研究处理场景。同时发布的基座模型,还可以让用户根据自己的需求,使用本地的训练语料微调“荀子”基座模型,使其在古籍下游处理任务上取得更优越的处理性能。

  10年“冷板凳”教会机器通读古今

  尽管目前有200多个通用模型在各领域得到应用,但古籍领域仍缺乏专业的大语言模型。功能强大的 “荀子”到底是怎么做到化繁为简、通读古今的呢?

  “首先是‘算力充足’,并且‘饱读经书’!”王东波介绍,“荀子”的顺利问世离不开南京农业大学提供的高性能算力基础设施支持,以及团队长期积累的大量标注、精加工语料库,团队给“荀子”投喂了40亿字大型混合语料数据。

  “模型的构建受算力、场景应用等多方影响,但精准度较高的优质数据,是最为关键的。”据王东波介绍,团队从2008年开始接触古籍,2013年至今一直专注于人工精标注数据的工作。

  “比如《岳阳楼记》,要训练机器标注该典籍中的形容词,就要首先训练相关人员标注形容词,在大量人工标注的基础上,再让机器学习。”这项坐冷板凳的基础标注工作一做就是10年之久。

  王东波表示,期待能将古籍的智能化研究与跨学科的人才培养相结合,让学生既有前瞻的科研视野,又能积累较为深厚的人文底蕴。同时让更多受众接触古籍、品读古籍、传播古籍,真正地唤活“故纸堆”,共同推动中华优秀传统文化创造性转化和创新性发展,赓续传承中华文脉。

  联合发布荀子古籍大语言模型的中华书局古联公司则主要致力于未来的场景应用和领域推广。荀子大模型除让大众用户能够顺畅利用古籍内容、在专业领域推动古籍整理、古籍数字化、古籍活化利用与传播之外,未来还可广泛应用于AI写作、AI教学、数字文娱等领域。

  该成果依托国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”。在同步举行的古籍智能化研究与产业应用研讨会上,来自高校、出版界和互联网企业的与会专家学者分别立足于各自领域,围绕大模型在古籍整理、传统文化传承、数字化转型等方面的工作进行了深入探讨。

相关文章

2023年《Nature》十大人物揭晓非人类ChatGPT榜上有名

12月14日,2023年《自然》年度十大人物(Nature's10)正式揭晓,除了从全球重大科学事件中评选出的10位人物——5位男性,5位女性,今年还有1位非人类上榜——美国人工智能公司Ope......

2023年《自然》十大人物揭晓ChatGPT榜上有名

ChatGPT在2023年的《自然》十大人物中也占有一席之地。它对整个社会产生了广泛影响。12月14日凌晨,2023年《自然》年度十大人物(Nature"s10)正式揭晓,除了从全球重大科学......

与荀子对话:“古籍版ChatGPT”发布

对于普通受众而言,想要走近繁体、竖版、未添加句逗的古文不是一件容易的事。近日,国内首个专门应用于古籍处理与研究的智能工具“荀子”上线,意味着在智媒时代和古籍对话成为可能。据悉,古籍大语言模型“荀子”由......

与荀子对话:“古籍版ChatGPT”发布

对于普通受众而言,想要走近繁体、竖版、未添加句逗的古文不是一件容易的事。近日,国内首个专门应用于古籍处理与研究的智能工具“荀子”上线,意味着在智媒时代和古籍对话成为可能。据悉,古籍大语言模型“荀子”由......

与荀子对话:“古籍版ChatGPT”发布

对于普通受众而言,想要走近繁体、竖版、未添加句逗的古文不是一件容易的事。近日,国内首个专门应用于古籍处理与研究的智能工具“荀子”上线,意味着在智媒时代和古籍对话成为可能。据悉,古籍大语言模型“荀子”由......

ChatGPT进入课堂:语言模型如何改变教育

最近,教育心理学家罗纳德·贝格托(RonaldBeghetto)以一种引人注目的方式引领一群研究生和教育专业人员,与一系列以创造力为中心的聊天机器人进行了交流。这些聊天机器人由贝格托设计,即将托管在亚......

人工智能出现了,我们会更关注学习品质吗

“说起ChatGPT,人们的第一反应竟是诈骗、抄袭。”比利时布鲁塞尔大学教授安东尼·安托万(AnthonyAntoine)坦言,不只是中国,面对ChatGPT,国外的高教人士同样有“狼来了”之感。然而......

你的职业,是能被ChatGPT替代的吗?

自从ChatGPT出现后。突然之间,每个人都在谈论人工智能如何颠覆他们的工作、公司、学校和生活。ChatGPT是相关人工智能技术浪潮的一部分,2022年12月4日,埃隆·马斯克(ElonMusk)发了......

ChatGPT写作业水平超过大学生

《科学报告》8月24日发表的一篇论文指出,回答包括计算机科学、政治学、工程学和心理学在内的多学科评估性问题时,ChatGPT可能达到甚至超出了大学生的平均成绩。这项研究还发现,近3/4的受访学生说可能......

类似ChatGPT的人工智能即将出现在主要科学搜索引擎中

人工智能驱动的会话式聊天机器人已经出现在互联网搜索引擎中,例如谷歌的Bard和微软的Bing,看起来也将越来越多地改变科学文献搜索方式。8月1日,荷兰出版巨头Elsevier为其Scopus数据库的部......