发布时间:2023-07-19 18:15 原文链接: 上海AI实验室发布书生通用大模型体系

  如同人类的“五感”互相连通密不可分,人工智能的视觉、语言、音频等模态间的边界日渐融合,随着人工智能感知、交互和生成能力的快速发展,多模态大模型正推动人工智能迈进“通感”时代。

  上海人工智能实验室(上海AI实验室)于近日发布书生通用大模型体系,其中,书生·多模态包含200亿参数,由80亿海量多模态样本训练而成,支持350万语义标签的识别和理解,覆盖开放世界常见的类别和概念。

  核心能力一:开放世界理解

  在人工智能的研究中,“开放世界”指非预设、非学术集或封闭集定义的真实世界。传统研究中,人工智能仅能完成预定义任务,即学术集或封闭集定义的任务, 然而这种任务范围与真实的开放世界存在很大差距。例如,ImageNet-1K学术集包含1000种物体,其中约有2种花、48种鸟和21种鱼;而在真实世界中,花鸟鱼的种类数量分别约为45万、1万和2万。在开放世界中,书生·多模态正通过不断学习,获得更接近人类的感知和认知能力。在语义开放方面,书生·多模态可以识别和理解开放世界中超过350万种语义,覆盖日常生活中常见的物体类别、物体动作和光学字符等。书生·多模态完成了从解决预定义任务到执行开放任务的蜕变,为未来多模态AGI模型研究提供了有力的支持。在任务开放方面,书生·多模态可以将图像视为一种新的语言,用户可利用自然语言指令,灵活定义和管理任意视觉任务。该大模型同时拥有多种级别的自定义视觉感知、理解和逻辑推理能力,能力范围覆盖目标对象、输出格式、任务内容等模块。

  核心能力二:跨模态生成

  通过联合学习,书生·多模态可实现模态间的相互转换。研究人员尝试让书生·多模态根据张大千的《湖山清夏图》创作七言绝句。验证结果表明,经过联合学习,书生·多模态已经具备了较好的由图像到文本的跨模态生成能力,并且已经拥有了相当深厚的中国文化积累。生成文本的同时,书生·多模态还给出了创作思路:根据图片确定描绘的是山水清幽的自然景色画面;从画面中寻找能够表达出诗人思想情感的元素,如山峰高耸、云雾缭绕、松涛入画;根据元素构思出诗句;最后根据诗句的韵律和格律进行完善。书生·多模态还特别描述了第四句的灵感:借鉴了唐代诗人韦庄的名句“春水碧于天,画船听雨眠”。

  书生·多模态根据张大千的《湖山清夏图》创作的七言绝句

  核心能力三:多模态交互

  书生·多模态继承在上一代书生在常规预定义视觉任务上性能的同时,还创新了人机交互的方式,用户通过光标点击、聊天等方式,即可精准传达指令。书生·多模态降低了AI任务的门槛,使AI成为万千大众都能使用的生产工具。多模态理解、生成和交互能力正成为大模型新一轮演化的重要方向。面向未来,书生·多模态将持续通过原始创新提升模型能力,通过开源开放赋能创新生态,让大模型更好服务于人。

相关文章

人工智能导致人类灭绝的可能性为5%

许多人工智能研究人员认为,未来,超级人工智能的发展有可能导致人类灭绝。不过,对于这种风险,存在广泛的分歧和不确定性。这些发现来自对2700名人工智能研究人员的调查,他们最近在6个顶级人工智能会议上发表......

2024年美国消费电子展开幕

2024年美国拉斯维加斯消费电子展9日开幕,人工智能技术及相关应用是今年展会最大的热点。据展会主办方美国消费技术协会介绍,将有来自150多个国家和地区的4000多家企业参加为期4天的展会。其中,除佳能......

中国工程院院士、同济大学校长郑庆华:人工智能赋能高校学科建设

党的二十大报告提出,要推动战略性新兴产业融合集群发展,构建新一代信息技术、人工智能等一批新的增长引擎。人工智能日益成为引领新一轮科技革命和产业变革的核心技术,在各个领域的应用场景不断落地,极大改变了既......

科研人员如何使用生成式人工智能才合规?科技部发布《负责任研究行为规范指引(2023)》

近日,科技部监督司发布《负责任研究行为规范指引(2023)》。《指引》共11个部分,覆盖了科研活动的主要方面和重点环节,针对科研人员、科研单位、科研资助机构、科技类社团、学术期刊等不同主体,提出了开展......

2024年,AI会如何发展?

时光如白驹过隙,转眼间已是新的一年,那些旧岁未完成的梦想又将翻开新章。去年底英国《自然》杂志刊文预测的2024年十大科学进展中,人工智能的进步和ChatGPT人工智能占据前两位。人工智能的发展,在过去......

北京人工智能公共算力平台(上庄)正式上线

12月26日,由京能集团主办的“浮点时代·京能智算”北京人工智能公共算力平台(上庄)发布仪式在京举办,宣告由京能集团承建和运营的北京人工智能公共算力平台(上庄)正式上线。中科曙光是该算力平台的项目建设......

京东方推出显示工业大模型AIoT推动显示智造高质发展

近日,BOE(京东方)显示工业大模型正式发布,该大模型在原有的AIoT技术底座基础之上,深度融合BOE(京东方)半导体显示行业知识与经验,旨在向研发设计、生产管理、制造执行、管理服务等显示制造核心场景......

AI大模型走出“泡沫期”未来何如

今年3月ChatGPT-4上线以来,国内科技龙头企业密集推出人工智能大模型,百度“文心一言”、阿里云“通义千问”、华为“盘古”、360“智脑”、昆仑万维“天工”、京东“灵犀”、科大讯飞“星火”、腾讯“......

人工智能技术可准确识别笔石化石

近期,中国科学院南京地质古生物研究所地层古生物大数据中心研究员徐洪河,联合天津大学副教授牛志彬等,基于笔石化石多模态数据集以及深度学习残差网络算法,在笔石化石智能识别领域取得系列进展。相关研究成果日前......

与北大并列,武汉大学获批9项国家社科基金重大招标项目

近日,全国哲学社会科学规划办公室发布2023年度国家社科基金重大招标项目立项名单,武汉大学获批9项,立项数与北京大学并列,位居高校第三。获批项目分别是信息管理学院李纲教授《情报学视角下的科技安全领域国......