发布时间:2023-04-21 16:35 原文链接: MOSS!今日正式开源上线

复旦大学自然语言处理实验室开发的新版 MOSS 模型今日正式上线,成为国内首个插件增强的开源对话语言模型。

目前,MOSS 模型已上线开源,相关代码、数据、模型参数已在 Github 和 Hugging Face 等平台开放,供科研人员下载。

据介绍,MOSS 是一个支持中英双语和多种插件的开源对话语言模型,moss-moon 系列模型具有 160 亿参数,在 FP16 精度下可在单张 A100 / A800 或两张 3090 显卡运行,在 INT4/8 精度下可在单张 3090 显卡运行。MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

MOSS 来自复旦大学自然语言处理实验室的邱锡鹏教授团队,名字与《流浪地球》电影中的 AI 同名,已发布至公开平台(https://moss.fastnlp.top/),邀请公众参与内测。

通过查看 MOSS 的 GitHub 页面发现,该项目所含代码采用 Apache 2.0 协议,数据采用 CC BY-NC 4.0 协议,模型权重采用 GNU AGPL 3.0 协议。如需将该项目所含模型用于商业用途或公开部署,需要签署文件并发送至 robot@fudan.edu.cn 取得授权,商用情况仅用于记录,不会收取任何费用。

模型

  • moss-moon-003-base: MOSS-003 基座模型,在高质量中英文语料上自监督预训练得到,预训练语料包含约 700B 单词,计算量约 6.67x1022 次浮点数运算。

  • moss-moon-003-sft: 基座模型在约 110 万多轮对话数据上微调得到,具有指令遵循能力、多轮对话能力、规避有害请求能力。

  • moss-moon-003-sft-plugin: 基座模型在约 110 万多轮对话数据和约 30 万插件增强的多轮对话数据上微调得到,在 moss-moon-003-sft 基础上还具备使用搜索引擎、文生图、计算器、解方程等四种插件的能力。

  • moss-moon-003-pm: 在基于 moss-moon-003-sft 收集到的偏好反馈数据上训练得到的偏好模型,将在近期开源。

  • moss-moon-003: 在 moss-moon-003-sft 基础上经过偏好模型 moss-moon-003-pm 训练得到的最终模型,具备更好的事实性和安全性以及更稳定的回复质量,将在近期开源。

  • moss-moon-003-plugin: 在 moss-moon-003-sft-plugin 基础上经过偏好模型 moss-moon-003-pm 训练得到的最终模型,具备更强的意图理解能力和插件使用能力,将在近期开源。

数据

  • moss-002-sft-data: MOSS-002 所使用的多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由 text-davinci-003 生成的约 57 万条英文对话和 59 万条中文对话。

  • moss-003-sft-data: moss-moon-003-sft 所使用的多轮对话数据,基于 MOSS-002 内测阶段采集的约 10 万用户输入数据和 gpt-3.5-turbo 构造而成,相比 moss-002-sft-data,moss-003-sft-data 更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含 110 万条对话数据。目前仅开源少量示例数据,完整数据将在近期开源。

  • moss-003-sft-plugin-data: moss-moon-003-sft-plugin 所使用的插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约 30 万条多轮对话数据。目前仅开源少量示例数据,完整数据将在近期开源。

  • moss-003-pm-data: moss-moon-003-pm 所使用的偏好数据,包含在约 18 万额外对话上下文数据及使用 moss-moon-003-sft 所产生的回复数据上构造得到的偏好对比数据,将在近期开源。


相关文章

人工智能突然变聪明了吗

人工智能超级智能会突然出现,还是科学家能预见它的到来并有机会向世界发出警告?随着大型语言模型如ChatGPT的兴起,这个问题最近受到了很多关注。这类模型随着规模的增长已经获得了大量新功能。一些研究结果......

科学家评估大型语言模型回答医学问题的能力

图为研究团队的方法和现有技术的比较。Flan-PaLM540B模型在MedQA,MedMCQA和PubMedQA数据集上均超过了以往最先进的SOTA,每列上方显示的是准确率百分比。你在网上搜过“我哪哪......

一天内筛选超1亿种化合物,AI语言模型“提速”药物发现

美国麻省理工学院和塔夫茨大学研究人员设计出一种基于大型语言模型(如ChatGPT)的人工智能算法,这种称为ConPLex的新模型可将目标蛋白与潜在的药物分子相匹配,而无需执行计算分子结构的密集型步骤。......

钱德沛院士:开源是共享智慧的工作模式

近日,由中国科学院计算机网络信息中心主办的第三届中国开源科学软件创意大赛揭晓并在京颁奖。在当前的国际国内环境下,大力推动开源科学软件发展对科学研究和经济社会发展起着怎样的作用?我国在开源科学软件发展中......

日本将开发更强日语能力的“大语言模型”人工智能技术

据共同社消息,日本东北大学和日本东京工业大学等团队计划开发一种更强日语能力的“大语言模型”,作为生成式人工智能(AI)的基础技术。该团队将利用理化学研究所的超级计算机“富岳”学习大量数据,并将在本年度......

“王炸”功能只给看,自然语言处理“战国时代”即将到来?

北京时间3月15日凌晨,人工智能初创公司OpenAI公布新一代人工智能语言模型GPT-4。与ChatGPT所用的模型相比,GPT-4不仅能够处理图像内容,而且在回答的细节和表述方面更有价值和人情味。“......

ChatGPT生成的代码大部分不安全,但不会主动告诉你

ChatGPT聊天机器人可以根据用户的输入生成各种各样的文本,包括代码。但是,加拿大魁北克大学的四位研究人员发现,ChatGPT生成的代码往往存在严重的安全问题,而且它不会主动提醒用户这些问题,只有在......

MOSS!今日正式开源上线

复旦大学自然语言处理实验室开发的新版MOSS模型今日正式上线,成为国内首个插件增强的开源对话语言模型。目前,MOSS模型已上线开源,相关代码、数据、模型参数已在Github和HuggingFace等平......

MOSS!今日正式开源上线

复旦大学自然语言处理实验室开发的新版MOSS模型今日正式上线,成为国内首个插件增强的开源对话语言模型。目前,MOSS模型已上线开源,相关代码、数据、模型参数已在Github和HuggingFace等平......

MOSS!今日正式开源上线

复旦大学自然语言处理实验室开发的新版MOSS模型今日正式上线,成为国内首个插件增强的开源对话语言模型。目前,MOSS模型已上线开源,相关代码、数据、模型参数已在Github和HuggingFace等平......