5月14日,腾讯宣布其旗下混元文生图大模型全面升级,并对外开源。据了解,这是首个中文原生的类Sora 架构开源模型,填补了国产大模型在文生图先进架构上的空白。
目前,主流的文生图开源生态基本围绕英文建设,如Stable Diffusion 等主流开源模型,虽然一定程度支持中文输入,但其核心数据集仍以英文为主,对中国的语言、美食、文化、习俗都理解不够,容易因翻译而产生语义分歧乃至生成错误。
建设中文原生的大模型以及相应的开源生态迫在眉睫。据腾讯文生图负责人芦清林介绍,混元文生图大模型以中文原生为基础,支持中英文双语输入及理解,更理解中文语境,对中国的古诗词、俚语、美食、文化、习俗等都有更好的生成效果。升级后的混元文生图模型采用了基于Transformer的扩散模型架构(简称DiT架构,是此前爆红的文生视频产品Sora 背后的关键技术),具备更强的可扩展性,参数量越多、性能越强,可持续提升视觉模型生成效果及效率。
目前,腾讯混元文生图模型参数量为15 亿。评测数据显示,最新的腾讯混元文生图模型效果相比前代提升超过20%,远超开源的Stable Diffusion模型,在目前已开源的文生图模型中,综合性能佳,达到国际先进水平。
据介绍,腾讯混元的文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台“腾讯广告妙思”,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具。
芦清林表示,腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,共建中文文生图开源生态,加速大模型行业发展。
芦清林介绍,基于腾讯此次开源的文生图模型,开发者和企业无需从头训练,即可直接用于推理,并可基于混元文生图打造专属的AI绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也让模型的安全性和可靠性得到保障。同时,基于开放、前沿的混元文生图基础模型,也有利于在以英文为主的文生图开源社区之外,丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。
6月28日,国家能源集团在京举行发布会,正式发布全球首个千亿级发电行业大模型——“擎源”。该模型构建了覆盖安全环保、电力交易、产调中枢、设备检修全链条的智能决策体系,实现电力全场景智慧化升级、模型自主......
近日,中国首个海洋领域开源大模型OceanGPT(沧渊)在杭州正式发布。该大模型由海洋精准感知技术全国重点实验室(浙江大学)牵头研发,具备基础的海洋专业知识问答,以及声呐图像、海洋观测图等海洋特色多模......
近日,中国热带农业科学院南亚热带作物研究所旱作农业工程团队在基于混合监督学习的菠萝智能识别算法方面取得新进展。该团队设计了一个基于混合监督学习(MIset)的掩蔽自关注实例分割网络,以快速提取菠萝的位......
近日,首个可精准诊断罕见病的医学影像多模态大模型矩阵“明岐”正式亮相。当天,由上海交通大学主办,上海交通大学计算机学院(网络空间安全学院)、上海交通大学国际与公共事务学院、健康长三角研究院共同承办的“......
近期,国家自然科学基金委员会与腾讯公司正式签约,腾讯公司向国家自然科学基金委员会无偿捐赠人民币5亿元,用于资助青年学生基础研究项目(博士研究生项目),重点支持其中女性、西部、粤港澳大湾区获资助者开展基......
在国内的头部人工智能大模型研发队伍中,腾讯混元大模型率先采用“混合专家(MoE)”结构,模型参数规模突破万亿,处于中国大模型第一梯队。许多人可能不知道,在锻造“混元”的过程中,腾讯选择的是从零开始的自......
国家药监局药审中心关于发布《模型引导的创新药物剂量探索和优化技术指导原则》的通告(2024年第53号)。为推动创新药物高质量发展,进一步指导我国创新药物临床试验阶段剂量探索和优化,药审中心组织制定了《......
据腾讯官微消息,腾讯今日宣布,混元大模型上线并开源文生视频能力。据介绍,该模型参数量为130亿,已经在HuggingFace平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企......
据腾讯官微消息,腾讯今日宣布,混元大模型上线并开源文生视频能力。据介绍,该模型参数量为130亿,已经在HuggingFace平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企......
被称为是“未来已来”和“无所不能”的人工智能(AI)技术,通过迅猛发展和广泛应用,正影响着人类生活与工作的方方面面,其未来发展趋势广受关注。2024年世界科技与发展论坛“人工智能治理创新为培育科技治理......