发布时间:2023-12-12 13:58 原文链接: 这只火眼金睛的的AI“小猴子”,由华科大团队研发

  近日,华中科技大学软件学院教授白翔领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。

图为团队将Monkey代码在全球最大的代码托管服务平台GitHub上开源

  多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在众多场景中展现了惊人的能力。据该团队负责人介绍,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。此外,Monkey在文本密集的问答任务中显示出显著的优势,甚至在某些样本上超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。

  Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。比如,对下面的图片进行的文本描述中,Monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有Monkey和GPT-4V能将其准确地识别为作者名。

  这样惊人的描述能力是怎么做到的?目前,几乎所有多模态大模型都需要运用网上爬取的图文对数据集,这些数据集只能进行简单的图文描述,无法大分辨率图片的需求。Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具的特性,打出一套威力十足的“组合拳”,大幅度提升描述的准确性和丰富程度。

  “一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”白翔说。

  白翔表示:“我们团队从2003年开始便从事图像识别研究,去年我们又从海外引进了专攻多模态大模型的青年人才,Monkey的最终方案是大家一起反复讨论,尝试了10余种方案后最终确定的。”

  Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

  据了解,目前业内能处理的图片最大分辨率为448×448像素。而想要进一步提升处理能力,需投入十分高昂的算力成本。如何更低成本扩大输入分辨率?该团队骨干青年教师刘禹良向记者介绍,团队采用了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,就能提取更多局部特征。

  “未来,我们希望Monkey更强大,真正成为神通广大的‘孙悟空’!”对这只小猴子,白翔信心满满。

相关文章

“共情”AI出现了,你会与之共情吗

情感智能包括从行为中推断意图和偏好的能力,因此在某种意义上,情感智能才是AI界面最重要的功能。图片来源:VentureBeat网站当我们想到有情感的人工智能(AI)时,素材其实都来源于科幻作品,其中的......

“共情”AI出现了,你会与之共情吗

情感智能包括从行为中推断意图和偏好的能力,因此在某种意义上,情感智能才是AI界面最重要的功能。图片来源:VentureBeat网站当我们想到有情感的人工智能(AI)时,素材其实都来源于科幻作品,其中的......

AI“复活”逝者,最令人担忧的是什么

最近,人工智能(AI)“复活”逝者的话题颇受关注。从技术上看,“复活”逝者其实是AI技术的一个具体应用场景——以逝者的特征为人设,通过某种算法生成虚拟数字人。然而,当AI“复活”逝者成为一门生意,当“......

AI“复活”逝者,最令人担忧的是什么

最近,人工智能(AI)“复活”逝者的话题颇受关注。从技术上看,“复活”逝者其实是AI技术的一个具体应用场景——以逝者的特征为人设,通过某种算法生成虚拟数字人。然而,当AI“复活”逝者成为一门生意,当“......

提供“百亿补贴”!无问芯穹发布大模型服务平台

3月31日,源自清华的创新企业无问芯穹在上海举办“多元计算·泛在链接”AI算力优化论坛暨产品发布会,清华大学电子工程系长聘教授、无问芯穹发起人汪玉携联合创始人团队首次集体公开亮相,并发布“无穹Infi......

提供“百亿补贴”!无问芯穹发布大模型服务平台

3月31日,源自清华的创新企业无问芯穹在上海举办“多元计算·泛在链接”AI算力优化论坛暨产品发布会,清华大学电子工程系长聘教授、无问芯穹发起人汪玉携联合创始人团队首次集体公开亮相,并发布“无穹Infi......

AI能否让医生表现更好?

医疗人工智能(AI)最受“吹捧”的承诺之一,就是它们能够帮助人类临床医生更精确地解读X光和CT扫描等图像,从而作出更准确的诊断报告,增强影像科医生的表现。但实际情况确实如此吗?美国哈佛大学医学院、麻省......

AI能否让医生表现更好?

医疗人工智能(AI)最受“吹捧”的承诺之一,就是它们能够帮助人类临床医生更精确地解读X光和CT扫描等图像,从而作出更准确的诊断报告,增强影像科医生的表现。但实际情况确实如此吗?美国哈佛大学医学院、麻省......

既有帮助,也有干扰,AI能否让医生表现更好?

医疗人工智能(AI)最受“吹捧”的承诺之一,就是它们能够帮助人类临床医生更精确地解读X光和CT扫描等图像,从而作出更准确的诊断报告,增强影像科医生的表现。  ?肺部肿块的胸部X光检......

既有帮助,也有干扰,AI能否让医生表现更好?

医疗人工智能(AI)最受“吹捧”的承诺之一,就是它们能够帮助人类临床医生更精确地解读X光和CT扫描等图像,从而作出更准确的诊断报告,增强影像科医生的表现。  ?肺部肿块的胸部X光检......