发布时间:2018-01-22 17:14 原文链接: 靠这个“谱”让机器会思考

   如果说波士顿动力的翻跟头是在帮机器人锻炼筋骨,那么知识图谱的“绘制”则是在试图“创造”一个能运转的机器人大脑。

  “目前,还不能做到让机器理解人的语言。”中国科学院软件所研究员、中国中文信息学会副理事长孙乐说。无论是能逗你一乐的Siri,还是会做诗的小冰,亦或是会“悬丝诊脉”的沃森,它们并不真正明白自己在做什么、为什么这么做。

  让机器学会思考,要靠“谱”。这个“谱”被称为知识图谱,意在将人类世界中产生的知识,构建在机器世界中,进而形成能够支撑类脑推理的知识库。

  为了在国内构建一个关于知识图谱的全新产学合作模式,知识图谱研讨会日前召开,来自高校院所的研究人员与产业团队共商打造全球化的知识图谱体系,建立世界领先的人工智能基础设施的开拓性工作。

  技术原理:把文本转化成知识

  “对于‘姚明是上海人’这样一个句子,存储在机器里只是一串字符。而这串字符在人脑中却是‘活’起来的。”孙乐举例说。比如说到“姚明”,人会想到他是前美职篮球员、“小巨人”、中锋等,而“上海”会让人想到东方明珠、繁华都市等含义。但对于机器来说,仅仅说“姚明是上海人”,它不能和人类一样明白其背后的含义。机器理解文本,首先就需要了解背景知识。

  那如何将文本转化成知识呢?

  “借助信息抽取技术,人们可以从文本中抽取知识,这也正是知识图谱构建的核心技术。”孙乐说,目前比较流行的是使用“三元组”的存储方式。三元组由两个点、一条边构成,点代表实体或者概念,边代表实体与概念之间的各种语义关系。一个点可以延伸出多个边,构成很多关系。例如姚明这个点,可以和上海构成出生地的关系,可以和美职篮构成效力关系,还可以和2.26米构成身高关系。

  “如果这些关系足够完善,机器就具备了理解语言的基础。”孙乐说。那么如何让机器拥有这样的“理解力”呢?

  “上世纪六十年代,人工智能先驱麻省理工学院的马文·明斯基在一个问答系统项目SIR中,使用了实体间语义关系来表示问句和答案的语义,剑桥语言研究部门的玛格丽特·玛斯特曼在1961年使用Semantic Network来建模世界知识,这些都可被看作是知识图谱的前身。”孙乐说。

  随后的Wordnet、中国的知网(Hownet)也进行了人工构建知识库的工作。

  “这里包括主观知识,比如社交网站上人们对某个产品的态度是喜欢还是不喜欢;场景知识,比如在某个特定场景中应该怎么做;语言知识,例如各种语言语法;常识知识,例如水、猫、狗,教人认的时候可以直接指着教,却很难让计算机明白。”孙乐解释,从这些初步的分类中就能感受到知识的海量,更别说那些高层次的科学知识了。

  构建方式:从手工劳动到自动抽取

  “2010年之后,维基百科开始尝试‘众包’的方式,每个人都能够贡献知识。”孙乐说,这让知识图谱的积累速度大大增加,后续百度百科、互动百科等也采取了类似的知识搜集方式,发动公众使得“积沙”这个环节的时间大大缩短、效率大大增加,无数的知识从四面八方赶来,迅速集聚,只待“成塔”。

  面对如此大量的数据,或者说“文本”,知识图谱的构建工作自然不能再手工劳动,“让机器自动抽取结构化的知识,自动生成‘三元组’。”孙乐说,学术界和产业界开发出了不同的构架、体系,能够自动或半自动地从文本中生成机器可识别的知识。

  孙乐的演示课件中,有一张生动的图画,一大摞文件纸吃进去,电脑马上转化为“知识”,但事实远没有那么简单。自动抽取结构化数据在不同行业还没有统一的方案。在“百度知识图谱”的介绍中这样写道:对提交至知识图谱的数据转换为遵循Schema的实体对象,并进行统一的数据清洗、对齐、融合、关联等知识计算,完成图谱的构建。“但是大家发现,基于维基百科,结构化半结构化数据挖掘出来的知识图谱还是不够,因此目前所有的工作都集中在研究如何从海量文本中抽取知识。”孙乐说,例如谷歌的Knowledge Vault,以及美国国家标准与技术研究院主办的TAC-KBP评测,也都在推进从文本中抽取知识的技术。

  在权威的“知识库自动构建国际评测”中,从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中,中科院软件所—搜狗联合团队获得综合性能指标第3名,事件抽取单项指标第1名的好成绩。

  “我国在这一领域可以和国际水平比肩。”孙乐介绍,中科院软件所提出了基于Co-Bootstrapping的实体获取算法,基于多源知识监督的关系抽取算法等,大幅度降低了文本知识抽取工具构建模型的成本,并提升了性能。

  终极目标:将人类知识全部结构化

  《圣经·旧约》记载,人类联合起来兴建希望能通往天堂的高塔——“巴别塔”,而今,创造AI的人类正在建造这样一座“巴别塔”,帮助人工智能企及人类智能。

  自动的做法让知识量开始形成规模,达到了能够支持实际应用的量级。“但是这种转化,还远远未达到人类的知识水平。”孙乐说,何况人类的知识一直在增加、更新,一直在动态变化,理解也应该与时俱进地体现在机器“脑”中。

  “因此知识图谱不会是一个静止的状态,而是要形成一个循环,这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning(学无止境)的概念。”孙乐说。

  资料显示,目前谷歌知识图谱中记载了超过35亿事实;Freebase中记载了4000多万实体,上万个属性关系,24亿多个事实;百度百科记录词条数1000万个,百度搜索中应用了联想搜索功能。

  “在医学领域、人物关系等特定领域,也有专门的知识图谱。”孙乐介绍,Kinships描述人物之间的亲属关系,104个实体,26种关系,10800个事实;UMLS在医学领域描述了医学概念之间的联系,135个实体,49种关系,6800个事实。

  “这是一幅充满美好前景的宏伟蓝图。”孙乐说,知识图谱的最终目标是将人类的知识全部形式化、结构化,并用于构建基于知识的自然语言理解系统。

  尽管令业内满意的“真正理解语言的系统”还远未出现,目前的“巴别塔”还只是在基础层面,但相关的应用已经显示出广阔的前景。例如,在百度百科输入“冷冻电镜”,右竖条的关联将出现“施一公”,输入“撒币”,将直接在搜索项中出现“王思聪”等相关项。其中蕴含着机器对人类意图的理解。

  “知识图谱的应用涉及到众多行业,尤其是知识密集型行业,目前关注度比较高的领域:医疗、金融、法律、电商、智能家电等。”孙乐介绍,基于信息、知识和智能形成的闭环,从信息中获取知识,基于知识开发智能应用,智能应用产生新的信息,从新的信息中再获取新的知识,不断迭代,就可以不断产生更加丰富的知识图谱,更加智能的应用。

相关文章

哈工程学子在“华为杯”第五届中国研究生人工智能创新大赛中获佳绩

近日,哈尔滨工程大学智能学院4位研究生研发的用于脑卒中靶肌穿刺治疗与技能评估的智能医疗导航系统在“华为杯”第五届中国研究生人工智能创新大赛中获得一等奖,入围全国十五强。哈尔滨工程大学学生科创团队研发的......

芯片市场的角逐,自研产品推出,后续如何?

微软在最近的年度开发者大会MicrosoftIgnite上推出了两款自研芯片——Maia100和AzureCobalt100,目标是为大语言模型的训练和推理提供动力。这一举动标志着微软正式加入了谷歌、......

印度加快稀土研发,确保稳定矿产供应

近日,外媒报道称印度正在加紧努力确保关键矿物和稀土矿物的供应,矿业部邀请有关采矿技术的研究和开发建议。重点将放在深海和绿色采矿,以及锂、镍和钨等关键矿物上。科技部的目标是,在3年的时间里,建立并支持利......

以智能制造为主攻方向,加快推进新型工业化

“以智能制造为主攻方向、加快制造业数字化转型,是新时代新征程推进新型工业化的一项重要任务,是建设制造强国同发展数字经济、产业信息化等有机结合的关键抓手。”11月14日,工业和信息化部总工程师赵志国在2......

脑机接口“连接”产业新空间

科技感满满的假肢不是装饰,而是能握拳、抓取,甚至持笔写字、握拍打球;仅靠“意念”就能驱动机械臂拿取东西,甚至操作电脑输入信息;穿戴式的设备记录脑电波的波动,将大脑的运转情况以数值形式反馈……众多科幻电......

助力新质生产力“2023企业科技创新发展论坛”关注下一代互联网技术

“刷脸”进入景区的安保系统,微笑就能打折的无人超市,“伸手”即可付款的“刷掌支付”……在近日召开的互联网大会和进博会上,这些曾在科幻大片里出现的场景已不是新鲜事。而放眼更广袤的空间,互联网技术带来的革......

广东2025目标:智能算力规模领跑全国,冲刺全球领先

11月13日,广东省人民政府发布关于加快建设通用人工智能产业创新引领地的实施意见。其中提到,目标到2025年,智能算力规模实现全国第一、全球领先,通用人工智能技术创新体系较为完备,人工智能高水平应用场......

医疗AI引领范式革命,国内首家人工智能医院正式揭牌

经过十年深耕,人工智能已广泛应用于医疗领域,嵌入影像学、信息学、生命科学等各个应用场景,为医疗流程降本增效,甚至颠覆传统范式。然而,由于缺乏统筹的人工智能厂商,医院内的人工智能应用往往分散、间断,无法......

人工智能可用人类“化学直觉”

研究总体框架图片来源:《自然·通讯》在线版《自然·通讯》31日发表的一篇论文报道了一种机器学习模型,该模型能部分重现职业化学家在工作中积累的集体知识,这类知识通常被称为“化学直觉”。研究团队认为,该研......

拜登签署行政命令,发布白宫首个生成式AI监管规定

·行政命令要求美国多个政府机构制定标准,对人工智能产品进行测试,寻求“水印”等内容验证的最佳方法,拟定网络安全计划,吸引技术人才,以保护隐私,促进公平和公民权利,维护消费者和劳动者的利益,促进创新和竞......