农企新闻网

经典论文解读

发布者:张同
导读大众号/PaperWeekly本期引荐的论文笔记来自 PaperWeekly 社区用户@britin。本文给出了一种 end-to-end 的零碎来自动将 NL 成绩转换成 SPARQL 查询言语。作者综合了实体辨认以及间隔监视和 learning-to-rank 技术,使得 QA 零碎的精度进步了不少,整个进程引见比拟详细,模型牢靠接地气。假如你对本文任务感兴味,点击底部的阅读原文即可检查原论文
大众号/ PaperWeekly

本期引荐的论文笔记来自 PaperWeekly 社区用户 @britin本文给出了一种 end-to-end 的零碎来自动将 NL 成绩转换成 SPARQL 查询言语。

作者综合了实体辨认以及间隔监视和 learning-to-rank 技术 ,使得 QA 零碎的精度进步了不少,整个进程引见比拟详细,模型牢靠接地气。

假如你对本文任务感兴味,点击底部的 阅读原文 即可检查原论文。

关于作者:Britin,中科院物理学硕士,研讨方向为自然言语处置和计算机视觉。

■ 论文 | More Accurate Question Answering on Freebase

■ 链接 | https://www.paperweekly.site/papers/1356

■ 源码 | https://github.com/ad-freiburg/aqqu

论文动机

在知识问答中,要把一个自然言语的问句映射到知识库 KB 中是很难的 ,目前的问答零碎通常是将 NLP 问句转换成一个 SPARQL 查询语句去检索 KB 。如何完成这一转换进程面临着很多成绩,比方怎样在 KB 中找到和问句中婚配的实体与关系。

首先成绩中的实体名能够不完全按照数据库中的称号,同一个实体有多种叫法。其次数据库中多个实体对应的称号能够是一样的。比方 Freebase 里叫 apple 的就有 218 种实体。准确婚配的话很难找到答案,模糊婚配又会从大型数据库中搜索到冗余的数据。

本文在学习算法根底上采用了 learning-to-rank 来重点关注被大局部任务疏忽掉的实体辨认的成绩。

模型引见

本文要完成的义务是依据 KB 知识来答复自然言语成绩 ,给出了一个叫 Aqqu 的零碎,首先为成绩生成一些备选 query,然后运用学习到的模型来对这些备选 query 停止排名,前往排名最高的 query,整个流程如下:

比方要答复这个成绩: What character does Ellen play in finding Nemo? 

1. Entity Identification 实体辨认

首先在 KB 中找到和问句中名词婚配相信度较高的实体集合,由于问句中的 Ellen,finding Nemo 表达并不明白,会婚配到 KB 中互联网思维,就是在(移动)互联网+、大数据、云计算等科技不断发展的背景下,对市场、用户、产品、企业价值链乃至对整个商业生态进行重新审视的思考方式。的多个实体。

先用 Stanford Tagger 停止词性标注。然后依据词性挑出能够是实体的词与 KB 停止婚配,应用了 CrossWikis 数据集婚配到称号类似或别名类似的实体,并停止类似度评分和词语盛行度评分。

2. Template Matching 模板婚配

这一步对上一步失掉的候选实体在数据库中停止查询,然后应用三种模板生成多个候选 query。三种模板和示例如图所示:

经典论文解读

3. Relation Matching 关系婚配

这一步将候选 query 中的 relation 与问句中剩下的不是实体的词停止婚配,辨别从 Literal,Derivation,Synonym 和 Context 四个角度停止婚配。

Literal 是字面婚配,Derivation 应用 WordNet 停止衍生词婚配,Synonym 应用 word2vec,婚配同义词。Context 则是从 wiki 中找出和 relation 婚配的句子,然后应用这些句子计算原问句中的词语和这些 relation 婚配呈现的概率,采用 tf-idf 算法。

4. Answer Type Matching 答案类型婚配

这里采用了较为简约的办法,将 relation 衔接的对象类型和问句中的疑问词婚配,比方 when 应该和类型为日期的对象婚配。

5. Candidate Features 人工设计的特征

  • 实体婚配的特征:(1)备选 query 中实体的个数(2)字面大局部婚配的实体个数(3)实体中婚配的token的数量(4-5)实体婚配概率的均匀值和总和(6-7)实体婚配盛行度的均匀值和总和
  • 关系婚配的特征:(8)婚配模板中的关系个数(9)字面婚配的关系个数(10-13)辨别在 literal,derivation,synonym 和 context 四个角度婚配的 token 个数(14)同义词婚配总分(15)关系上下文婚配总分(16)答案的 relation 在 KB 中呈现的次数(17)n-gram 特征婚配度
  • 综合特征:(18)特征 3 和 10 的总和(19)问句中婚配到实体或关系的词所占比重(20-22)二进制后果大小为 0 或 1-20 或大于 20(23)答案类型婚配的二元后果

6. Ranking

本文采用了基于 learning-to-ranking 的办法依据上述特征对备选后果停止 ranking。作者运用了 pairwise ranking,针对两个备选的 query,预测哪一个评分更高,然后取胜出最多的那个。

分类器采用了 logistic regression 和 random forest。

实验后果

本文运用 Freebase 作为 KB,但关于 WikiData 异样无效。

数据集运用了 Free917 和 WebQuestions。前者手动编写了掩盖 81 个 domain 的自然言语问句,语法精确,每个问句都对应一条 SPARQL 语句,用它可以在 KB 中查到规范答案。训练集和测试集比例为 7:3。

WebQuestions 包括 5810 条从 Google Suggest API 上爬上去的问句,和 Free917 不同的是,它比拟口语化,语法不一定精确,并且成绩掩盖的范畴多为 Google 上被问到最多的范畴。答案是用众包生成的,噪声较大,训练集和测试集比例为 7:3。

和 Sempre,GraphParser 等后果较好的模型比拟了 accuracy 和 F1 score,后果如下:

经典论文解读

文章还剖析了每个特征对零碎牢靠性的影响:

经典论文解读

关于 80% 的查询,正确答案都能呈现在 Top-5 里。

文章评价

本文给出了一种 end-to-end 的零碎来自动将 NL 成绩转换成 SPARQL 查询言语。零碎综合了实体辨认以及间隔监视和 learning-to-rank 技术。 设计的特征十分详细丰厚,比以往的模型精确度高了不少。并且听说顺序运转效率也很好,一秒就能答复出一个成绩。

零碎的精确虽然不是特别高,但在 Top-5 内的精确度很高,假如加上交互式问答的方式,后果能够就会改善。 本文没有采用深度学习的办法,采用的是统计学习的办法,并且手动设计了特征,人工代价比拟高,对数据集的要求和质量较高