发布时间:2023-12-12 14:07 原文链接: 与荀子对话:“古籍版ChatGPT”发布

  对于普通受众而言,想要走近繁体、竖版、未添加句逗的古文不是一件容易的事。近日,国内首个专门应用于古籍处理与研究的智能工具“荀子”上线,意味着在智媒时代和古籍对话成为可能。

  据悉,古籍大语言模型“荀子”由南京农业大学信息管理学院教授王东波研究团队研发,是一个包含了《四库全书》在内古籍文献的超20亿字大型语料库,能够实现自然语言理解、自动翻译、诗歌生成、自动标引等多项功能。作为开源的、公益的研究成果,该模型已在GitHub、ModelScope等网站开源。

  向思想家荀子致敬

  为何取名“荀子”?据王东波介绍,荀子不仅是我国先秦时期伟大的朴素唯物主义思想家,也是一位散文大家。在对他作品的深入研讨中,团队发现,他在语言学理论的阐述上也是一位开拓者,命名荀子是为了纪念这位中国历史上的语言学先驱。

  “咱们请它以金陵为主题,生成一首五言绝句。”王东波现场演示了“荀子”的智能写诗功能。指令一输入,系统便生成了一首堪称绝妙的原创绝句:“秦淮佳丽地,城阙望中迷。柳暗青丝发,花香碧玉衣。歌楼留夜色,画阁敛春晖。细雨轻舟去,双鱼梦泽飞。”

  除此之外,古文的阅读理解、标点添加,以及将古汉语翻译为现场汉语,这些让受众难啃的“硬骨头”,“荀子”可以轻松拿下。

  对于领域专家而言,可以借助“荀子”完成古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本摘要等专业古籍研究处理场景。同时发布的基座模型,还可以让用户根据自己的需求,使用本地的训练语料微调“荀子”基座模型,使其在古籍下游处理任务上取得更优越的处理性能。

  10年“冷板凳”教会机器通读古今

  尽管目前有200多个通用模型在各领域得到应用,但古籍领域仍缺乏专业的大语言模型。功能强大的 “荀子”到底是怎么做到化繁为简、通读古今的呢?

  “首先是‘算力充足’,并且‘饱读经书’!”王东波介绍,“荀子”的顺利问世离不开南京农业大学提供的高性能算力基础设施支持,以及团队长期积累的大量标注、精加工语料库,团队给“荀子”投喂了40亿字大型混合语料数据。

  “模型的构建受算力、场景应用等多方影响,但精准度较高的优质数据,是最为关键的。”据王东波介绍,团队从2008年开始接触古籍,2013年至今一直专注于人工精标注数据的工作。

  “比如《岳阳楼记》,要训练机器标注该典籍中的形容词,就要首先训练相关人员标注形容词,在大量人工标注的基础上,再让机器学习。”这项坐冷板凳的基础标注工作一做就是10年之久。

  王东波表示,期待能将古籍的智能化研究与跨学科的人才培养相结合,让学生既有前瞻的科研视野,又能积累较为深厚的人文底蕴。同时让更多受众接触古籍、品读古籍、传播古籍,真正地唤活“故纸堆”,共同推动中华优秀传统文化创造性转化和创新性发展,赓续传承中华文脉。

  联合发布荀子古籍大语言模型的中华书局古联公司则主要致力于未来的场景应用和领域推广。荀子大模型除让大众用户能够顺畅利用古籍内容、在专业领域推动古籍整理、古籍数字化、古籍活化利用与传播之外,未来还可广泛应用于AI写作、AI教学、数字文娱等领域。

  该成果依托国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”。在同步举行的古籍智能化研究与产业应用研讨会上,来自高校、出版界和互联网企业的与会专家学者分别立足于各自领域,围绕大模型在古籍整理、传统文化传承、数字化转型等方面的工作进行了深入探讨。

相关文章

AI让大脑变懒变笨了吗?

近日,一项公布于预印本服务器arXiv的研究发现,使用ChatGPT写论文的人,其大脑活跃度低于被禁止使用任何在线工具写论文的人。这项调查是评估人工智能(AI)是否正使人们变得“认知懒惰”的更广泛研究......

ChatGPT发布两周年,OpenAI“官司缠身”

ChatGPT的诞生加速了生成式人工智能领域的融资,但这一趋势的引领者OpenAI却因版权问题和转向营利性公司导致“官司缠身”,两周年生日过得似乎并不顺心。美媒《商业内幕》12月1日报道,据CBIns......

数年心血被轻松实现,科研如何与大模型合作共生

一名化学博士发现,自己需要花费一年做的实验研究,Claude3(Anthropic公司发布的通用大语言模型)仅用两个小时便可给出方案,且比原方案更简洁、成本更低;一名研究量子物理学方向的博士手握一篇还......

OpenAI又地震:ChatGPT负责人离职

OpenAI内部仍动荡不安,ChatGPT的两位重要负责人选择离开。8月6日,AI(人工智能)巨头OpenAI联合创始人约翰·舒尔曼(JohnSchulman)在X(推特)发文表示,将离开OpenAI......

澳高校如何应对人工智能挑战

近年来,教育领域,特别是高等教育领域的人工智能趋势日益明显,并在世界范围内形成一股热潮。这其中,澳大利亚大学的数字化及人工智能教育一直以其卓越的研究能力、学习者满意度和就业成果享誉全球,由此带动了澳大......

半个月内两次宕机,ChatGPT安全性引担忧

美国开放人工智能研究中心(OpenAI)开发的聊天机器人产品ChatGPT继本月4日发生故障后,17日再次出现宕机事故,无法回答用户提问。ChatGPT半个月内接连宕机,引发用户和业内人士对其稳定性与......

OpenAI员工发公开信警告AI风险,认为可能导致“人类灭绝”

多家美国人工智能(AI)领域企业的在职和离职员工当地时间4日发表公开信,对这项新兴技术带来的风险表示担忧。据路透社5日报道,公开信的签署者包括美国AI初创企业OpenAI以及谷歌旗下“深层思维”公司的......

GPT5在路上了?OpenAI透露开始训练下一个前沿模型

中新网5月29日电(中新财经记者吴涛)“OpenAI最近开始训练其下一个前沿模型,我们预计最终的系统将使我们在通往AGI的道路上更上一层楼。”近日,OpenAI对外公布,OpenAI董事会成立了安全与......

ChatGPT如何“思考”

北京时间5月14日凌晨,美国开放人工智能研究中心(OpenAI)发布了其下一代大型语言模型GPT-4o,人工智能(AI)领域再起硝烟。尽管AI一词已很普及,但其内部运作方式仍像黑箱操作一样,是一个谜。......

ChatGPT将变身AI语音助手?挑战Siri和谷歌语音助手

新品发布在即,奥特曼的最新表态或暗示OpenAI意在人工智能语音助手。当地时间5月11日,人工智能(AI)巨头OpenAICEO山姆·奥特曼(SamAltman)在一档播客节目中称,OpenAI将继续......