上海AI实验室发布书生通用大模型体系

发布时间：2023-07-19 18:15 原文链接：上海AI实验室发布书生通用大模型体系

　　如同人类的“五感”互相连通密不可分，人工智能的视觉、语言、音频等模态间的边界日渐融合，随着人工智能感知、交互和生成能力的快速发展，多模态大模型正推动人工智能迈进“通感”时代。

　　上海人工智能实验室（上海AI实验室）于近日发布书生通用大模型体系，其中，书生·多模态包含200亿参数，由80亿海量多模态样本训练而成，支持350万语义标签的识别和理解，覆盖开放世界常见的类别和概念。

　　核心能力一：开放世界理解

　　在人工智能的研究中，“开放世界”指非预设、非学术集或封闭集定义的真实世界。传统研究中，人工智能仅能完成预定义任务，即学术集或封闭集定义的任务, 然而这种任务范围与真实的开放世界存在很大差距。例如，ImageNet-1K学术集包含1000种物体，其中约有2种花、48种鸟和21种鱼；而在真实世界中，花鸟鱼的种类数量分别约为45万、1万和2万。在开放世界中，书生·多模态正通过不断学习，获得更接近人类的感知和认知能力。在语义开放方面，书生·多模态可以识别和理解开放世界中超过350万种语义，覆盖日常生活中常见的物体类别、物体动作和光学字符等。书生·多模态完成了从解决预定义任务到执行开放任务的蜕变，为未来多模态AGI模型研究提供了有力的支持。在任务开放方面，书生·多模态可以将图像视为一种新的语言，用户可利用自然语言指令，灵活定义和管理任意视觉任务。该大模型同时拥有多种级别的自定义视觉感知、理解和逻辑推理能力，能力范围覆盖目标对象、输出格式、任务内容等模块。

　　核心能力二：跨模态生成

　　通过联合学习，书生·多模态可实现模态间的相互转换。研究人员尝试让书生·多模态根据张大千的《湖山清夏图》创作七言绝句。验证结果表明，经过联合学习，书生·多模态已经具备了较好的由图像到文本的跨模态生成能力，并且已经拥有了相当深厚的中国文化积累。生成文本的同时，书生·多模态还给出了创作思路：根据图片确定描绘的是山水清幽的自然景色画面；从画面中寻找能够表达出诗人思想情感的元素，如山峰高耸、云雾缭绕、松涛入画；根据元素构思出诗句；最后根据诗句的韵律和格律进行完善。书生·多模态还特别描述了第四句的灵感：借鉴了唐代诗人韦庄的名句“春水碧于天，画船听雨眠”。

　　书生·多模态根据张大千的《湖山清夏图》创作的七言绝句

　　核心能力三：多模态交互

　　书生·多模态继承在上一代书生在常规预定义视觉任务上性能的同时，还创新了人机交互的方式，用户通过光标点击、聊天等方式，即可精准传达指令。书生·多模态降低了AI任务的门槛，使AI成为万千大众都能使用的生产工具。多模态理解、生成和交互能力正成为大模型新一轮演化的重要方向。面向未来，书生·多模态将持续通过原始创新提升模型能力，通过开源开放赋能创新生态，让大模型更好服务于人。

其他网友还关注过

更多与上海AI实验室发布书生通用大模型体系相关的新闻

德国徕卡人工智能图像分析软件 Aivia CR1600智能手持式有毒有害物质识别仪徕卡 MICA宽场活细胞全场景显微成像分析平台 Image ExFluorer 高内涵活细胞成像系统电子温湿度环境试验箱 VERTEX 70/70v FT-IR 光谱仪 AvaTarget SMART 3D器官芯片高内涵成像分析仪手持式穿透成像仪型号：DX-2S-P CytoSMART Omni FL 箱内高内涵荧光活细胞成像仪 TS系列一体式陶瓷纤维马弗炉

实验室

吉林大学符号计算与知识工程教育部重点实验室智能技术与系统国家重点实验室化学工程联合国家重点实验室(华东理工大学)智能信息技术北京市重点实验室中国科学院苏州纳米技术与纳米仿生研究所北京理工大学智能机器人与系统高精尖创新中心仿生机器人与系统国际合作联合实验室能源经济与环境管理北京市重点实验室国家企业信息化应用支撑软件工程技术研究中心仿生机器人及系统教育部重点实验室

上海AI实验室发布书生通用大模型体系

其他网友还关注过

人工智能导致人类灭绝的可能性为5％

2024年美国消费电子展开幕

中国工程院院士、同济大学校长郑庆华：人工智能赋能高校学科建设

科研人员如何使用生成式人工智能才合规？科技部发布《负责任研究行为规范指引（2023）》

2024年，AI会如何发展？

北京人工智能公共算力平台（上庄）正式上线

京东方推出显示工业大模型AIoT推动显示智造高质发展

AI大模型走出“泡沫期”未来何如

人工智能技术可准确识别笔石化石

与北大并列，武汉大学获批9项国家社科基金重大招标项目