近日,由中国图象图形学学会主办的2024中国图象图形大会在西安开幕。大会通过20多场论坛、百余项成果,集中展示了生成式人工智能、大模型、机器学习、类脑计算等多个图像图形领域的进展。
大模型一路“高歌猛进”的背后,隐藏着一场关于模型训练语料的“能源危机”。根据人工智能研究人员小组Epoch研究估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。现阶段,大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中,复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。文档解析技术的进步,让机器能够识别文档中的多种元素,更好地处理文本、表格、图像等多类型数据,还原文档阅读顺序,加速大模型训练与应用。
大会期间,由CSIG文档图像分析与识别专委会与上海合合信息科技股份有限公司(简称“合合信息”)联合主办了“大模型技术及其前沿应用”论坛。论坛上,合合信息智能创新事业部研发总监常扬表示,文档解析的难点在于如何准确识别文档中的各个元素,并理解其之间的逻辑关系,需要关注“物理版面分析”和“逻辑版面分析”。
据常扬介绍,物理版面分析侧重于视觉特征、文档布局,主要任务是把相关性高的文字聚合到一个区域,比如一个段落,一个表格等等,并选用目标检测任务进行建模,使用基于回归的单阶段检测模型进行拟合,从而获得文档中各种各样的布局方式;逻辑版面分析侧重于对语义特征的分析,主要任务是把不同的文字块根据语义建模,例如通过语义的层次关系,形成一个目录树结构。
此外,文档解析技术中文档元素检测、文字表格识别、文档版面分析、阅读顺序还原等任务涉及对版面元素和版面整体布局的判断,是文档处理领域典型的技术难题。
“我们研究过程中发现,真实世界的文档有着极为丰富的布局类型,没法单纯地用单栏,双栏、三栏等类别去定义。”常扬表示,近年来的开放词汇目标检测,视觉语义对齐等工作,以及生成式模型等前沿进展,将给版面分析带来新的研究思路。
■本报见习记者叶满山沿着定武高速(G2012)一路向东,当道路与包兰铁路线平行时,只需再前行几公里,便能远远望见黄河沿着群山的北面,在沙山下转了个大弯,向东奔流。铁路线两侧的沙漠被条状的绿色长廊阻隔,......
5月30日,腾讯宣布旗下混元大模型全面升级,基于混元大模型的App“腾讯元宝”正式上线,苹果及安卓应用商店均可下载。相比此前测试阶段的混元小程序版本,面向工作效率场景,腾讯元宝提供了AI搜索、AI总结......
戈壁滩上有一种野草,茎秆细韧,叶子坚硬窄短内卷,花序粗壮,小穗紧密平行排列成两行。它有一个好听的名字——冰草。由于冰草营养丰富,适口性佳,被各种家畜所喜食,成为中国北方干旱及半干旱地区人工草地种植的重......
鹰嘴豆是世界第三大豆类作物,具有重要的经济价值和营养价值,其固氮能力能改善土壤肥力,具有独特的生态价值。但鹰嘴豆的遗传背景相对狭窄、抵抗生物或非生物胁迫的能力不足,限制了它的育种改良。5月29日,华大......
日前,哈尔滨工业大学深圳校区机电工程与自动化学院教授李兵、李曜团队在微小型机器人领域取得新进展,相关成果发表于《先进科学》。在微型机器人领域,简化驱动形式和减少驱动器数量是一大难题,因为驱动器是限制机......
5月27日至29日,广东省市场监督管理局与省总工会联合举办2024年首届“民生杯”食用农产品快速检测职业技能竞赛。经过理论、实操和竞答3轮次的激烈角逐,深圳市市场监督管理局代表队和深圳某农产品检测认证......
5月30日,由中国科学院广州能源研究所研发设计,中国船舶集团旗下广船国际所属文冲修造负责建造的半潜式深远海智能养殖旅游平台“普盛海洋牧场6号”在广州南沙命名交付。记者获悉,“普盛海洋牧场6号”半潜式深......
近日,广州市科技局和广州市财政局联合发布了《关于进一步完善广州市科技计划项目经费“负面清单+包干制”工作方案》(以下简称《方案》)。记者获悉,“包干制+负面清单”管理模式取消了传统的预算编制要求,允许......
近日,广州海洋地质调查局科研人员在南海北部天然气水合物气源成因研究方面取得新进展,他们发现深部热成因烃源能为天然气水合物成藏提供气体。相关成果发表于《海洋和石油地质》(MarineandPetrole......
近日,南方海洋科学与工程广东省实验室(广州)教授、广东省创新团队“南海生态环境权益综合研究”带头人唐丹玲团队与合作者,利用无网格方法研究波浪与可渗结构相互作用方面取得进展。相关成果发表于《流体物理学》......