知识谱技术及其应用完善的探讨

前言和背景:在构建知识图谱的过程中,大量的知识信息来源于文档和网页,从文档中提取知识的过程往往会出现偏差,这些偏差来自两个方面:

(1)文档中会有大量的噪音信息,即无用信息,这些信息可能来自知识抽取算法本身,也可能与语言本身的有效性有关;

(2)文档的信息量是有限的,不会涵盖所有的知识,尤其是很多常识性的知识。

以上都会导致知识地图的不完整,所以知识地图的完备化在构建知识地图中越来越重要。

通过获取的知识,预测实体之间的关系,从而完成实体之间的关系,或者实体类型的信息。这个过程可以通过使用这个知识库的内部知识或者引入第三方知识库的知识来完成。

编译了一个200G的AI数据包:

①人工智能课程和项目包含课件源代码。

②人工智能学习路线图的超详细讲解。

③人工智能一定要看高质量的书和电子书摘要。

④国内外知名精英资源

(5)整理优质人工智能资源网站(找前辈、找代码、找论文)

⑥人工智能行业报告

⑦人工智能论文集

/P3 . toutiaoimg . com/origin/tos-cn-I-qvj 2 LQ 49k 0/36 AE 8d 96 bccf 490 bb 4d 877 abda 852 f 7d "," uri ":"," width":31," height":27," darkImgUrl ":"-I-qvj 2 LQ 49k 0/b 81 AEA 2925484 cf 5 bde 9 cbb4 C2 c 62 FD "," darkImgUri

数据在网盘里排列的非常整齐干净!希望对大家的学习有帮助。请加收藏私信note 05。

知识图谱补全分为概念级知识补全和实例级知识补全两个层次。

经常提到的是,知识图谱构建过程中只提到实体和关系的提取,然后就可以生成由实体和关系组成的RDF。

但是,仅仅获得三元组是不够的,应该考虑这些,因为三元组中的实体除了它们的属性和关系之外,还可以映射到与知识概念层次结构相关联的类型,一个实体可以有多种类型。

例如,奥巴马的实体类型在不同的关系中有所不同。

在出生信息描述中,类型为人类;在创作回忆录的描述中,也可以是作家;在职位描述中你也可以是政治家。

实体类型的概念层次模型

这里:人、作家、政治家的概念之间是有层次的,这是概念的层次模型。

1,概念层面的知识补全——主要解决实体类型信息缺乏的问题。

如前面的例子所述,一旦实体被识别为人类类型,除了人类类型之外,它仍然需要搜索更低的概念,以便找到更多的类别描述信息。

(1)基于描述逻辑的规则推理机制。

本体和模式:两个实体都可以归于一个本体,而这个本体有一套模式来保证它的唯一性,可以用规则来描述,所以对于本体来说,可以用这套规则来描述。

比如奥巴马是一个实体,他的本体可以归于人,而人的模式是可以使用语言和工具,改造其他事务,等等。这些模式可以用规则来描述,于是出现了基于描述逻辑的规则推理方法。

描述逻辑是一种常见的知识表示,它基于概念和关系。

例如,您可以收集关于人的实体实例(可以是文本),从中提取模式,并以规则的形式记录下来。这样,只要遇到新的实体实例,只需要代入之前记录的规则进行比较就可以做出判断。如果符合规则,则意味着该实例可以归为人类概念类型,否则将被判定为非概念类型。

(2)基于机器学习的类型推理机制。

在经历了基于描述逻辑的规则推理发展阶段后,机器学习相关研究开始占据主流。这时候不仅要利用实例产生的规则等内部线索进行判断,还要利用外部特征和线索学习类型预测。

对于未知类型的实体e1,如果可以找到相似且已知类型的实体e2,则可以推断实体e1的类型应该与e2的类型相同或至少相似。

这类方法可分为三个方向:基于内容的类型推理、基于链接的类型推理和基于统计关系的类型推理(如马尔可夫逻辑网络)。

(3)基于表征学习型的推理机制。

在类型推理中引入了嵌入式学习和深度学习。大多数基于机器学习的类型推理方法都假设数据中没有噪声,其特征仍然需要作为选择和设计来考虑。引入深度学习可以避免特征工程。类型推理应该基于文本内容,还需要链接结构等其他特征的支持。这时候嵌入式方法就可以发挥自己的优势了。

2.实例级的知识完成

可以理解为:对于一个示例三元组(SPO,主语-谓语-宾语),可能的遗漏情况有(?,P,O),(S,?,o)或(s,p,),就好比知识库中不存在三联体,所以需要预测缺失的实体或关系是什么。

其实很多缺失的知识都可以从获得的知识中推断出来,有时候这个过程也叫链接预测。

注:有时知识不是缺失,而是新的,即出现新的三元组,而这个三元组是原来知识库中不知道的。这时候就需要把它作为新知识加入知识库,但是这种情况并不是传统意义上的完成。

(1)基于随机游走的概率完成方法

(2)基于表征学习的补码方法

知识地图嵌入流程:

①结构嵌入表征

②张量神经网络方法

③矩阵分解法

④翻译方法

(3)其他完成方式

跨知识库补全方法、基于信息检索技术的知识库补全方法和知识库中的常识知识补全。

挑战和主要发展方向:

(1)解决长尾实体和关系的稀疏性。

名人明星之间关系的例子会很多,普通人的例子很少,但却多如牛毛,这就导致了他们相关关系的例子很稀疏,而且这种情况随着数量的增加会更加明显。

(2)实体的一对多、多对一、多对多问题。

对于大规模的数据,不是一对几十或几十个数量级那么简单,而是几百个数量级。传统的解决方法不可能有效,深圳根本解决不了这种数量级的关系学习问题。

(3)三联体的动态增加和变化导致KG动态变化的加剧。

新的知识不断产生,之前的知识可能后来被证明是错误的,或者需要修正。这些都会使得知识补全的过程需要修正和改变。如何使知识图谱补全技术适应KG的动态变化变得越来越重要,但是这项技术还没有引起足够的重视。

(4)在4)KG中的关系的预测路径长度将持续增加。

关系预测推理的长度是有限的,但是当大规模知识图谱闪现时,实体之间的关系路径序列会变得越来越长,这就需要更高效的模型来描述更复杂的关系预测模型。