雷锋网 (大众号:雷锋网) AI 科技评论按:阿里巴巴有 11 篇论文被 AAAI 2018录用,辨别来自机器智能技术实验室、业务平台事业部、阿里妈妈事业部、人工智能实验室、云批发事业部,其中有 5 位作者受邀在主会做 Oral&Spotlight 方式报告,另有 1 位作者携两篇论文在主会以 Poster 方式做报告。论文内容触及对立学习、神经网络、进步轻量网络功能的训练框架、机器翻译、聊天机器人、无监视学习框架、极限低比特神经网络等技术方向。
以下为阿里巴巴 AI Lab 与微软研讨院、伊利诺伊大学厄巴纳-香槟分校的协作论文解读投稿。
次要作者(中英文):钟泽轩 Zexuan Zhong、曹涌 Yong Cao、郭沐 Mu Guo、聂再清 Zaiqing Nie
论文下载地址:https://102.alibaba.com/downloadFile.do?file=1518508273059/Colink%20An%20Unsupervised%20framework%20for%20User%20Identity%20linkage.pdf
摘要
将几个子知识图谱上的同一实体信息链接在一同(也被称为用户身份链接(UIL)成绩)对很多使用而言都至关重要。实体链接成绩有两大次要难点。
第一,搜集人工链接的实体信息对(user pairs)作为训练数据的本钱十分昂扬。
第二,不同子知识图谱的实体属性通常有十分不同的定义方式和格式,这使得属性对齐(attribute alignment)十分困难。
我们在本论文中提出了 Colink,一种用于实体信息链接成绩的通用型无监视框架。Colink 运用了一种能同时操作两个独立模型(基于属性的模型和基于关系的模型)的协同训练算法,并且能以无监视学习的方式迭代式地让两个模型彼此相互加强。我们还提出运用「序列到序列」学习作为基于属性的模型十分无效,这种办法能将属性对齐难题当作机器翻译成绩处置。我们将 Colink 使用到了将企业网络中的员工映射到他们的领英(linkedIn)团体材料的实体信息链接义务上。实验后果标明 Colink 在 F1 分数上的表现超越之前最佳的无监视办法的 20% 以上。
引言
将不同子知识图谱上的同一实体信息链接起来(也被称为用户身份链接(UIL)成绩)通常能失掉对该实体的更好和更深度的了解,这通常又能进一步失掉更好的商业智能。
虽然机器学习算法曾经在实体链接成绩上失掉了普遍的使用,但训练数据的标注任务并不复杂。首先,寻觅已链接实体信息配对是极端耗时的,由于这需求搜索一切子知识图谱以及细心评价少量候选配对。另外这个任务还需求人类标注者具有普遍的范畴知识。其次,由于隐私维护的缘由,并非一切知识图谱的实体数据都可以提供应人类标注者,尤其是当这些材料来自团体社交网络或企业外部网络时。
在两个子知识图谱之间链接实体需求细心比对两个子图谱中的实体属性,比方称号、职位、地位等。因而,属性值的对齐对实体链接成绩而言至关重要。但是,传统的字符串类似度函数有两个缺乏之处:
-
没有一个通用办法可以处置相反属性在不同实体网络中的变化
-
无法找到隐式的属性对应关系
在这篇论文中,我们提出了一种用于实体链接成绩的通用型无监视框架 Colink。 知识图谱中的实体数据可以自然地划分为两个独立的角度的特征:属性和关系,这完满契合协同训练(co-training)算法的要求。
Colink 运用两个独立的模型:一个基于属性的模型和一个基于关系的模型。基于属性的模型和基于关系的模型都是二元分类器,决议两个实体能否能链接起来。它们可以基于任何机器学习或启示式算法。因而,只需知识图谱材料中包括属性和关系,那就可以将 Colink 使用于该知识图谱的实体链接成绩上 。
更进一步,我们在 Colink 的基于属性的模型的完成中运用了 「序列到序列」 学习算法,这为不同实体网络之间的属性对齐提供了一种通用办法。我们没有将属性对齐当成字符串类似度比拟而停止处置,而是试图将一种「言语」(一种特定作风的网络)的属性值「翻译」成另一种「言语」。缩略语、缩写、同义词甚至隐式对应关系都可被视为翻译的特殊状况。我们选择「序列到序列」算法的缘由是其曾经表现出了在机器翻译义务上的无效性。详细而言,「序列到序列」办法有两种可用于 Colink 的优势。 首先,它简直无需手动提取特征就能自动失掉词层面的映射和序列层面的映射。其次,它只需求正例(已对齐的属性对)作为训练数据,这能加重采样负例的任务。
我们将 Colink 使用到链接社交网络的相反用户的义务上,其中我们试图将企业网络中的员工和他们的领英团体材料链接起来。我们进一步比拟了 Colink 和之前最佳的无监视办法。实验后果标明 Colink 在 F1 分数上的表现总体上能超越之前最佳的无监视办法的 20%。我们的奉献总结如下:
-
我们最早将协同训练算法用在了知识图谱实体链接的成绩上。由于实体网络中的实体属性和实体关系是自然分开的,这使得协同训练是一种完满且无本钱的处理方案。
-
我们最早将属性对齐成绩建模为机器翻译。我们运用「序列到序列」办法作为基于属性的模型的根底,这简直无需提取特征就能完成很好的泛化。
-
我们停止了少量实验,比拟了我们提出的办法和之前最佳的无监视办法,罗列了不同的设置和模型,后果标明了我们提出的处理方案的无效性。
Colink
成绩定义
知识图谱上的实体链接成绩定义为:其输出包括一个源知识图谱和一个目的知识图谱。其输入为一个实体链接对集合,表示从源图谱中链接到目的图谱中的实体对。
Colink 框架
Colink 框架基于如算法 1 所示的协同训练算法。我们在该框架中定义两个不同的模型:一个基于属性的模型 fatt 和一个基于关系的模型 frel。这两个模型都会停止二元分类预测,将一组给定实体对分类为正例(链接的)或负例(非链接的)。该协同训练算法以迭代的方式不时加强这两个模型。在每一次协同训练迭代进程中,两个模型都会运用已链接配对集 S 停止再训练。然后运用这两个模型生成的高质量的已链接配对会被兼并到 S 中以用于下一次迭代,直到 S 收敛。在最开端时,需求一个初始的已链接配对集(简称种子集)来启动这个协同训练进程,这个集合可以经过一组种子规则生成。依据模型所用的算法,基于属性的模型和基于关系的模型的训练能够会需求负例。算法 1 中没有给出采样负例的进程。
算法 1:Colink 中的协同训练算法
这个协同训练算法不会修正之前的迭代中生成的已链接配对。因而由之前的迭代引入的误差不会在前面失掉修复。这种算法的一种替代方案是在协同训练收敛之后停止一次最终修正。即便用该协同窗习进程所失掉的最终模型来重构 S。
种子规则
该协同训练算法的启动需求一个已链接实体对构成的小型种子集。获取种子集的一种复杂直接的办法是依据人工设计的规则来生成,我们称之为种子规则。这些种子规则可以思索来自目的知识图谱的以下现实:
-
实体称号独一性
-
实体属性值映射
-
实体关系传达
种子规则的选取会直接影响 Colink 的表现。
基于属性的模型
基于属性的模型经过思索实体的属性来预测链接的实体对。它可以运用任何分类算法。在这篇论文中,我们尝试了两种不同的机器学习算法:「序列到序列」和支持向量机(SVM)。
序列到序列
由于属性有不同的变化方式,所以传统的字符串类似度办法在处置属性对齐方面表现很差。由于属性对齐相似于机器翻译成绩,所以我们采用了「序列到序列」办法。缩略语、缩写、同义词甚至隐式链接都可被视为翻译的特殊状况。
我们采用了 Sutskever, Vinyals, and Le (2014) 提出的「序列到序列」网络构造。该网络由两局部构成:序列编码器和序列解码器。编码器和解码器都运用了深度长短期记忆(LSTM)架构。编码器深度 LSTM 会读取输出序列并求出每个词地位的表示向量。然后这些向量会被送入一个留意层(attention layer),从而失掉一个思索了输入词地位的输出序列的全体表示。然后解码器深度 LSTM 的隐藏形态会进一步被送入一个全衔接层(其输入包括词汇库大小的维度信息),进而预测输入词。
我们依照之前的任务,运用已链接属性值配对训练了「序列到序列」网络。但是,我们不是运用网络预测输入序列,而是在 Colink 中运用所学习到的「序列到序列」网络来停止二元分类。首先,我们运用该网络求出关于一对属性婚配的概率。然后,我们选择一个婚配概率阈值,超越该阈值的实体对被以为是有链接的。
支持向量机
SVM 等传统的分类算法也可以用在基于属性的模型中。不同于只需求正例训练样本(已链接配对)的「序列到序列」办法,SVM 还需求负例。由于用户配对空间十分大,所以正例在整个空间中实践上十分稀疏。在每次结合训练迭代中,给定已链接配对,我们还会选择同等数量的随机实体对作为负例。
基于关系的模型
基于关系的模型仅运用实体关系来预测链接实体对。只依据关系来寻觅两个网络中同等结点的成绩通常被称为网络对齐成绩。
基于关系的模型可以运用任何基于关系的网络对齐模型。由于本文的重点是协同训练算法和「序列到序列」的基于属性的模型,所以我们在本论文中运用了一种复杂的启示式模型,该模型基于一个假定:假如两个来自不同网络的实体都具有少量相互关联的已链接实体,那么这两个实体很能够也是链接的。
实验
我们的实验比拟了 Colink 与以后最佳的无监视办法。我们还研讨了种子规则和链接概率阈值的选择,以更好天文解它们对链接后果的能够影响方式。
数据集
我们选择了一个真实数据集来评价 Colink,它包括两个社交网络。其中一个社交网络是领英,另一个网络是一个企业外部用户网络。
表 1:数据集总体状况
候选实体对的选择
我们构建了一个候选实体对过滤器,它能移除少量不能够链接的实体对。该候选项过滤器思索了以上司性。
-
实体名
-
组织机构
在过滤之后,我们失掉了 758046 个候选实体对,其涵盖了测试集合中一切有链接的配对。
序列到序列
我们实验中的「序列到序列」网络由一个带留意网络的深度 LSTM 编码器和一个深度 LSTM 解码器构成。编码器深度 LSTM 和解码器深度 LSTM 都有 2 个层叠的 LSTM,由于我们发现关于实体链接义务而言,超越 2 层的编码器或解码器不能再带来更多提升。每个 LSTM 的循环单元大小为 512。每个词在被送入编码器和解码器之前都首先会被转换成一个 512 维的嵌入向量。「序列到序列」模型的训练工夫取决于训练数据的规模。均匀而言,运用一个 Tesla K40 GPU,让模型在 10 万个属性配对上完成训练需求 30 分钟。
种子规则
为了测试 Colink 的稳健性,我们尝试了下列 3 个种子规则集:
-
粗略调整的集合
-
精密调整的集合
-
有噪声集合
图 1:种子集比拟;协同训练迭代开端后的 P/R/F1 趋向
协同训练
我们经过将关系特征和属性特征分开而运用了协同训练。基于属性的模型和基于关系的模型都能在每次迭代中找到新配对然后加强彼此。图 2 给出了每个模型所失掉的已链接配对的统计状况。在这项义务中,基于属性的模型生成的配比照基于关系的模型多,这是由于我们没有完好的领英关系数据。我们爬取了地下的领英团体材料中的「人们还看回到当下汹涌澎湃的AI浪潮,正如所有的企业都被互联网化一样,所有的互联网企业都将 AI 化。而这些互联网企业中,也包含CSDN。同时,作为全球最大的中文IT社区,CSDN还有一个历史使命——为广大的互联网公司进行AI赋能。了」列表,这只能为每位用户提供不到 10 个关系。
图 2:基于粗略调整的种子配对运用结合训练迭代失掉的已链接配对的增长状况
概率阈值
图 3 给出了不同阈值的比拟状况。运用更严厉的阈值(更小的百分数)会失掉更高的精度和绝对更低的召回率。我们在本义务中选择的阈值是 95%。
图 3:序列到序列链接概率阈值比拟
比拟后果
表 2:不同办法的表现的比拟
属性对齐
经过运用「序列到序列」办法,Colink 可以处置运用传统字符串类似度函数难以应付的属性对齐成绩。表 3 给出了一些选择出的应该是对齐的属性示例以及来自不同办法的类似度分数(全都位于 [0,1] 区间中)。在「序列到序列」的协助下,简直无需提取特征,就可以轻松地呼吁行业者在政府部门出台相关政策标准的之前,从业者一定要规范自己的行为准则健康有序的快速发展。将这种办法使用于其它实体婚配义务。
表 3:选择出的一些属性示例以及它们的类似度分数
雷锋网版权文章,未经受权制止转载。概况见。