AI技术分支——浅谈知识图谱

来源:AI产品经理总舵

1. 什么是知识图谱

知识图谱属于AI领域的是一个分支,很多人觉得它和CV(计算机视觉),ASR(语音识别),以及NLP(自然语言处理)一样都是特指的某一项技术,其实这么理解并不准确,它应该算是多种技术融合后的一种综合型技术。

知识图谱的历史最早要追溯到2012年,由google公司提出主要用于提升搜索引擎的检索效率,但随着其发展其背后更深刻意义,远不仅是提高检索效率这么简单,而是整个搜索引擎结构的整体转型:将传统基于关键字的搜索模型转向基于语义的搜索升级。

如今针对知识图谱的技术方案已被国内外多家搜索引擎公司所采用,如:美国的微软必应,中国的百度、搜狗等,都在在短短的一年内纷纷宣布了各自的“知识图谱”产品,足以看出这革新对整个搜索引擎界的整体影响。

但现在这项技术的应用并不仅拘泥于搜索引擎领域范围,很多的数据分析软件,CRM系统也开始采用基于知识图谱的模式去处理数据,从而去深入发现数据更大的价值。

知识图谱从字面上看,可以拆分为知识+图谱,这样我们就可以理解:将需要的知识数据(结构化或非结构化数据)以图谱的形式进行展示,这种简单的过程也是知识图谱的构建过程。

2. 知识图谱中的“知识”

说到知识,就是将数据中有价值的内容加以提炼,数据我们每天都会接触,如系统产生的数据、客户数据,甚至一些非结构化的网络数据。

但是数据不等同于知识,其中结构化的数据其实还好,因为在存储之初就已经对要存储的数据进行了相应的设计,所以入库的数据基本都是有价值的数据。

但相比于结构化数据,非结构化数据就显示更加复杂,目前分布在互联网上的知识常常以分散、异构、自治的形式存在,另外还具有冗余、噪音、不确定、非完备的特点,清洗并不能解决这些问题,因此从这些知识出发,通常需要融合和验证的步骤,来将不同源不同结构的数据融合统一,以保证知识的一致性。

把大量的知识汇聚存储起来就成为了知识库。

知识库构建流程:,从大量数据中提取有价值的数据作为有效支持,将知识内容进行整合入库,从而构建数据库。

3. 知识应用“图谱”构建

知识图谱旨在描述真实世界中存在的各种实体或概念,因此知识整理进行入库时,对应的知识内容都会转为实体(eneity)概念,每个实体上都会标示一个唯一ID,并且每个对象属性值(attribute-value)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。

因此,将无数实体以对应关系的形式进行存储,知识图谱亦可被构建成一张巨大的网络图。

其中上述提到的实体、关系、属性,在存储之前都需要采用RDF方式对其进行结构化声明,即需要事先定义一套标准的schema在抽取数据之前做预备工作,由于是标准的schema,所以不管是抽取结构化数据或非结构化数据,内容都是适用的。

除了三元素定义,另外知识图谱领域还有一个三元组的概念。

如下图:

我们以搜索:“姚明的妻子是谁?”这句话为例,其对应结果三元组规则为{实体:姚明,关系:配偶,实体:叶莉},

而当我们改以搜索:“叶莉今年多大?”进行检索,其对应结果三元组规则为{实体:叶莉,属性:age,属性值:34},

4. 整体架构与核心功能点

(1)实体抽取

指的是从原始语料中自动识别出命名实体,由于实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识库的质量。因此,实体抽取是知识抽取中最为基础与关键的一步。

(2)实体对齐

实体对齐也称为实体匹配或实体解析,主要是用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。

(3)知识推理

知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。在推理的过程中,往往需要关联规则的支持。由于实体、实体属性以及关系的多样性,人们很难穷举所有的推理规则,一些较为复杂的推理规则往往是手动总结的。

对于推理规则的挖掘,主要还是依赖于实体以及关系间的丰富同现情况。知识推理的对象可以是实体、实体的属性、实体间的关系、本体库中概念的层次结构等。知识推理方法主要可分为基于逻辑的推理与基于图的推理两种类别。

(4)知识更新

根据知识图谱的逻辑结构,其更新主要包括模式层的更新与数据层的更新。模式层的更新是指本体中元素的更新,包括概念的增加、修改、删除,概念属性的更新以及概念之间上下位关系的更新等。

其中,概念属性的更新操作将直接影响到所有直接或间接属性的子概念和实体。通常来说,模式层的增量更新方式消耗资源较少,但是多数情况下是在人工干预的情况下完成的,例如:需要人工定义规则,人工处理冲突等。因此,实施起来并不容易。

5. 知识图谱应用

知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。

目前,知识图谱已在智能搜索、深度问答、社交网络以及一些垂直行业中有所应用,成为支撑这些应用发展的动力源泉。

如下是总结的一些知识图谱的应用场景:

微信公众号微信公众号