发布时间:2023-07-19 18:15 原文链接: 上海AI实验室发布书生通用大模型体系

  如同人类的“五感”互相连通密不可分,人工智能的视觉、语言、音频等模态间的边界日渐融合,随着人工智能感知、交互和生成能力的快速发展,多模态大模型正推动人工智能迈进“通感”时代。

  上海人工智能实验室(上海AI实验室)于近日发布书生通用大模型体系,其中,书生·多模态包含200亿参数,由80亿海量多模态样本训练而成,支持350万语义标签的识别和理解,覆盖开放世界常见的类别和概念。

  核心能力一:开放世界理解

  在人工智能的研究中,“开放世界”指非预设、非学术集或封闭集定义的真实世界。传统研究中,人工智能仅能完成预定义任务,即学术集或封闭集定义的任务, 然而这种任务范围与真实的开放世界存在很大差距。例如,ImageNet-1K学术集包含1000种物体,其中约有2种花、48种鸟和21种鱼;而在真实世界中,花鸟鱼的种类数量分别约为45万、1万和2万。在开放世界中,书生·多模态正通过不断学习,获得更接近人类的感知和认知能力。在语义开放方面,书生·多模态可以识别和理解开放世界中超过350万种语义,覆盖日常生活中常见的物体类别、物体动作和光学字符等。书生·多模态完成了从解决预定义任务到执行开放任务的蜕变,为未来多模态AGI模型研究提供了有力的支持。在任务开放方面,书生·多模态可以将图像视为一种新的语言,用户可利用自然语言指令,灵活定义和管理任意视觉任务。该大模型同时拥有多种级别的自定义视觉感知、理解和逻辑推理能力,能力范围覆盖目标对象、输出格式、任务内容等模块。

  核心能力二:跨模态生成

  通过联合学习,书生·多模态可实现模态间的相互转换。研究人员尝试让书生·多模态根据张大千的《湖山清夏图》创作七言绝句。验证结果表明,经过联合学习,书生·多模态已经具备了较好的由图像到文本的跨模态生成能力,并且已经拥有了相当深厚的中国文化积累。生成文本的同时,书生·多模态还给出了创作思路:根据图片确定描绘的是山水清幽的自然景色画面;从画面中寻找能够表达出诗人思想情感的元素,如山峰高耸、云雾缭绕、松涛入画;根据元素构思出诗句;最后根据诗句的韵律和格律进行完善。书生·多模态还特别描述了第四句的灵感:借鉴了唐代诗人韦庄的名句“春水碧于天,画船听雨眠”。

  书生·多模态根据张大千的《湖山清夏图》创作的七言绝句

  核心能力三:多模态交互

  书生·多模态继承在上一代书生在常规预定义视觉任务上性能的同时,还创新了人机交互的方式,用户通过光标点击、聊天等方式,即可精准传达指令。书生·多模态降低了AI任务的门槛,使AI成为万千大众都能使用的生产工具。多模态理解、生成和交互能力正成为大模型新一轮演化的重要方向。面向未来,书生·多模态将持续通过原始创新提升模型能力,通过开源开放赋能创新生态,让大模型更好服务于人。

相关文章

开启不断迭代的治理进程

11月28日,刚刚成立的教育部教师队伍建设专家指导委员会正式发布《教师生成式人工智能应用指引(第一版)》(以下简称《指引》)。这是我国在教育治理领域迈出的标志性一步。《指引》不仅是国内第一份专门面向教......

人脑优于人工智能的关键机制揭示

美国普林斯顿大学神经科学家在一项新研究中,揭示了大脑在人工智能(AI)面前保持优势的一个关键机制:大脑会在不同任务中重复使用相同的认知“模块”,通过组合和重组这些模块,如同“拼积木”一般,大脑能够迅速......

清华大学首发人工智能教育应用指导原则

在历经一年的深入调研论证和广泛征求意见后,不久前,一份名为《清华大学人工智能教育应用指导原则》(以下简称《指导原则》)的文件出现在清华大学校内网站上。这一文件标志着清华大学首次系统性地对校内人工智能(......

人工智能终端产业链供需对接专题活动在厦门举行

2025年11月25日,为促进人工智能终端产业链融通创新,加快形成开放协同、优势互补的产业生态,2025年“百场万企”大中小企业融通对接活动人工智能终端产业链专场在福建省厦门市举办。活动由厦门市工业和......

释放“人工智能+”指数效应筑牢经济增长新引擎

作为新一轮科技革命和产业变革的核心驱动力,人工智能正以前所未有的广度、深度和速度渗透至经济社会各领域,催生出以数据驱动、智能主导为特征的新经济范式。其展现出的指数级驱动效应,远非传统技术的线性叠加所能......

“人工智能+”的概念界定与路径选择——基于技术和政策视角的分析

当前,以大模型、智能体、具身智能、类脑智能等为代表的人工智能技术飞速发展,正在引领新一轮科技革命和产业变革,深刻改变着人类的生产生活方式。自2024年政府工作报告首次提出“人工智能+”行动概念以来,“......

我国学者在乳腺癌人工智能辅助精准诊断及疗效预测研究方面取得进展

图乳腺癌HER2状态及新辅助疗效预测的多模态影像模型在国家自然科学基金项目(批准号:82001986、82360345、82441023)等资助下,上海科技大学沈定刚教授、昆明医科大学李振辉教授、香港......

中国科学院工业人工智能研究所成立

11月26日上午,中国科学院工业人工智能研究所成立大会在江苏省南京市举行。中国科学院院长、党组书记侯建国,江苏省委书记、省人大常委会主任信长星出席会议并讲话。江苏省委副书记、省长刘小涛主持会议。中国科......

我国学者在超稳定蛋白质设计领域取得进展

图AI与化学生物学知识相融合设计超稳定性蛋白质模块在国家自然科学基金项目(批准号:22222703、22477058)等资助下,南京大学郑鹏团队在蛋白质的可控设计及其稳定性研究方面取得进展,相关工作以......

特朗普签署行政令启动人工智能“创世纪计划”

凌晨,特朗普签令!据央视新闻,当地时间11月24日,美国白宫发布声明表示,总统特朗普签署了一项行政命令,启动一项旨在利用人工智能(AI)变革科学研究方式、加速科学发现的全新国家计划“创世纪计划”。声明......