本事情由来自清华大学、墨尔今年夜学、喷鼻香港中文大学、中国科学院大学的 Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, Jianzhong Qi 等学者团队联合完成。该团队专注于大模型、知识图谱、推举搜索、自然措辞处理、大数据等方向的研究。
知识图谱作为构造化知识的主要载体,广泛运用于信息检索、电商、决策推理等浩瀚领域。然而,由于不同机构或方法构建的知识图谱存在表示办法、覆盖范围等方面的差异,如何有效地将不同的知识图谱进行领悟,以得到更加全面、丰富的知识体系,成为提高知识图谱覆盖度和准确率的主要问题,这便是知识图谱对齐(Knowledge Graph Alignment)任务所要办理的核心寻衅。
传统的知识图谱对齐方法必须依赖人工标注来对齐一些实体(entity)和谓词(predicate)等作为种子实体对。这样的方法昂贵、低效、而且对齐的效果不佳。来自清华大学、墨尔今年夜学、喷鼻香港中文大学、中国科学院大学的学者联合提出了一种基于大模型的全自动进行知识图谱对齐的方法——AutoAlign。AutoAlign彻底不须要人工来标注对齐的种子实体或者谓词对,而是完备通过算法对付实体语义和构造的理解来进行对齐,显著提高了效率和准确性。
论文:AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models,36 (6) TKDE 2024
论文链接:https://arxiv.org/abs/2307.11772
代码链接:https://github.com/ruizhang-ai/AutoAlign
模型先容
AutoAlign 紧张由两部分组成:
用于将谓词(predicate)对齐的谓词嵌入模块(Predicate Embedding Module)。
用于将实体(entity)对齐的实体嵌入学习部分,包括两个模块:属性嵌入模块 (Attribute Embedding Module)和构造嵌入模块(Structure Embedding Module)。
总体流程如下图所示:
谓词嵌入模块:谓词嵌入模块旨在对齐两个知识图谱中代表相同含义的谓词。例如,将“is_in”和“located_in”进行对齐。为了实现这一目标,研究团队创建了一个谓词临近图(Predicate Proximity Graph),将两个知识图谱合并成一个图,并将个中的实体更换为其对应的类型(Entity Type)。这种办法基于以下假设:相同(或相似)的谓词,其对应的实体类型也应相似(例如,“is_in”和“located_in”的目标实体类型大概率属于location或city)。通过大措辞模型对类型的语义理解,进一步对齐这些类型,提高了三元组学习的准确性。终极,通过图编码方法(如TransE)对谓词临近图的学习,使得相同(或相似)的谓词具有相似的嵌入,从而实现谓词的对齐。
详细实现上,研究团队首先构建谓词临近图。谓词临近图是一种描述实体类型之间关系的图。实体类型表示实体的广泛种别,可以自动链接不同的实体。纵然某些谓词的表面形式不同(例如“lgd:is_in”和“dbp:located_in”),通过学习谓词临近图,可以有效识别它们的相似性。构建谓词临近图的步骤如下:
实体类型提取:研究团队通过获取每个实体在知识图谱中的rdfs:type谓词的值来提取实体类型。常日,每个实体有多个类型。例如,德国(Germany)实体在知识图谱中可能有多个类型,如“thing”、“place”、“location”和“country”。在谓词临近图中,他们用一组实体类型更换每个三元组的头实体和尾实体。
类型对齐:由于不同知识图谱中的实体类型可能利用不同的表面形式(例如,“person”和“people”),研究团队须要对齐这些类型。为此,研究团队利用最新的大措辞模型(如ChatGPT和Claude)来自动对齐这些类型。例如,研究团队可以利用Claude2来识别两个知识图谱中相似的类型对,然后将所有相似类型对齐为统一的表示形式。为此,研究团队设计了一套自动化提示词(prompt),能够根据不同的知识图谱进行自动化对齐词的获取。
为了捕捉谓词相似性,须要聚合多个实体类型。研究团队提出了两种聚合方法:加权和基于把稳力的函数。在实验中,他们创造基于把稳力的函数效果更好。详细而言,他们打算每个实体类型的把稳力权重,并通过加权求和的办法得到终极的伪类型嵌入。接下来,研究团队通过最小化目标函数来演习谓词嵌入,使得相似的谓词具有相似的向量表示。
属性嵌入模块和构造嵌入模块:属性嵌入模块和构造嵌入模块都用于实体(entity)对齐。它们的思想和谓词嵌入相似,即对付相同(或相似)的实体,其对应的三元组中的谓词和另一个实体也该当具有相似性。因此,在谓词对齐(通过谓词嵌入模块)和属性对齐(通过 Attribute Character Embeding 方法)的情形下,我们可以通过TransE使相似的实体学习到相似的嵌入。详细来说:
属性嵌入学习:属性嵌入模块通过编码属性值的字符序列来建立头实体和属性值之间的关系。研究团队提出了三种组合函数来编码属性值:求和组合函数、基于LSTM的组合函数和基于N-gram的组合函数。通过这些函数,我们能够捕捉属性值之间的相似性,从而使得两个知识图谱中的实体属性可以对齐。
构造嵌入学习:构造嵌入模块基于TransE方法进行了改进,通过授予不同邻居不同的权重来学习实体的嵌入。已对齐的谓词和隐含对齐的谓词将得到更高的权重,而未对齐的谓词则被视为噪声。通过这种办法,构造嵌入模块能够更有效地从已对齐的三元组中学习。
联合演习:谓词嵌入模块、属性嵌入模块和构造嵌入模块这三个模块可以进行交替演习,通过交替学习的办法相互影响,通过优化嵌入使其在各个构造的表示中达到整体最优。演习完成后,研究团队得到了实体(entity)、谓词(predicate)、属性(attribute)和类型(type)的嵌入表示。末了,我们通过比拟两个知识图谱中的实体相似性(如cosine similarity),找到相似性高的实体对(须要高于一个阈值)来进行实体对齐。
实验结果
研究团队在最新的基准数据集DWY-NB (Rui Zhang, 2022) 上进行了实验,紧张结果如下表所示。
AutoAlign在知识图谱对齐性能方面有显著提升,特殊是在短缺人工标注种子的情形下,表现尤为出色。在没有人工标注的情形下,现有的模型险些无法进行有效对齐。然而,AutoAlign在这种条件下依然能够取得精良的表现。在两个数据集上,AutoAlign在没有人工标注种子的情形下,比较于现有最佳基准模型(纵然有人工标注)有显著的提升。这些结果表明,AutoAlign不仅在对齐准确性上优于现有方法,而且在完备自动化的对齐任务中展现了强大的上风。
参考文献:
Rui Zhang, Bayu D. Trisedya, Miao Li, Yong Jiang, and Jianzhong Qi (2022). A Benchmark and Comprehensive Survey on Knowledge Graph Entity Alignment via Representation Learning. VLDB Journal, 31 (5), 1143–1168, 2022.