农企新闻网

清华大学冯珺:当强化学习遇见自然言语处置有哪些巧妙的化学反响?

发布者:张熙东
导读雷锋网AI科技评论按:随着强化学习在机器人和游戏 AI 等范畴的成功,该办法也惹起了越来越多的关注。在近期雷锋网(大众号:雷锋网)GAIR大讲堂上,来自清华大学计算机系的博士生冯珺,为大家引见了如何应用强化学习技术,更好地处理自然言语处置中的两个经典义务:关系抽取和文本分类。 本文依据视频直播分享整理而成,内容若有疏漏,以原视频嘉宾所讲为准。视频回放地址:http://www.mooc.ai/op

雷锋网AI科技评论按 :随着强化学习在机器人和游戏 AI 等范畴的成功,该办法也惹起了越来越多的关注。在近期雷锋网 (大众号:雷锋网) GAIR大讲堂上,来自清华大学计算机系的博士生冯珺,为大家引见了如何应用强化学习技术,更好地处理自然言语处置中的两个经典义务:关系抽取和文本分类。 本文依据视频直播分享整理而成,内容若有疏漏,以原视频嘉宾所讲为准。

视频回放地址:http://www.mooc.ai/open/course/318

在关系抽取义务中,尝试应用强化学习,处理近程监视办法自动生成的训练数据中的乐音成绩。在文本分类义务中,应用强化学习失掉更好的句子的构造化表示,并应用该表示失掉了更好的文本分类效果。本次分享的两个任务均宣布于 AAAI2018。

冯珺,清华大学计算机系博士五年级,师从朱小燕和黄民烈教授,次要研讨方向为知识图谱,强化学习。目前已在 AAAI,COLING,WSDM 等国际会议上宣布多篇文章。

分享内容:

大家好,我是来自清华大学的冯珺,分享的主题是当强化学习遇见自然言语处置,分享内容次要是以下三方面:

  • 强化学习根本概念扼要引见

  • 基于强化学习的关系抽取办法,处理近程监视办法自动生成的训练数据中的乐音成绩

  • 基于强化学习的句子构造化表示学习办法


清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

强化学习的根本概念

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

形态,是agent从环境中失掉的举措;agent,是基于它失掉的以后形态后做出相应的举措。reward ,是环境给agent 的一个反应,收到这个reward就晓得做的这个举措是好还是不好。agent 的目的就是选举措,将全部reward最大化。

agent会和环境做很多的交互,环境每次做的举措能够会有一个临时的影响,而不只仅是影响以后的reward。reward 也有能够延迟。在这里复杂引见一下policy的概念。policy是决议一个agent的举措的一个函数。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

假如读者对上述概念还不清楚可以观看视频中的迷宫例子:http://www.mooc.ai/open/course/318

我们组做的两个任务是关系抽取和文本分类。

首先是第一个任务:应用加强学习从噪声数据中停止关系抽取 (Reinforcement Learning for Relation Classification from Noisy Data)

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

义务背景

关系分类义务需求做的是,判别实体之间是什么关系,句子中包括的实体对儿是已知的。关系分类义务是强监视学习,需求人工对每一句话都做标注,因而之前的数据集比拟小。

之前也有人提出Distant Supervision 办法,希望能应用已有资源对句子自动打上标签,使得失掉更大的数据集。但这种办法是基于已有知识图谱中的实体关系来对一句话的实体关系停止预测,它的标注未必正确。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

这篇文章就是用强化学习来处理这个成绩。之前也有一些办法是基于multi-instance learning 的办法来做的。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

这样做的局现性是不能很益处理句级预测。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

基于以上缺乏,我们设定了新模型。包括两个局部: Instance Selector 和 Relation Calssifier。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

这个模型有两个应战,第一是不晓得每句话的标注能否正确‘;第二个应战是怎样将两个局部合到一块 ,让它们相互影响。

Instance Selector 和 Relation Calssifier 的构造图

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

在Instance Selector中的“形态”就表示为,以后的句子是哪一句,之前选了哪些句子,以及以后句子包括的实体对儿。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

 Relation Classifier 是直接用了一个CNN的构造失掉句子的表示。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

模型训练步骤

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

实验局部关于数据集和baseline来源

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

总结

我们提到一个新的模型,在有噪声的状况下也能句子级别的关系分类,而不只仅是bags级别的关系预测。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

第二个义务

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

义务背景

假如做一个句子分类,首先要给句子做一个表示 ,经过sentence representation失掉句子表示,把“表示”输出分类器中,最终就会失掉这个句子属于哪一类。

传统的sentence representation 有以下几个经典模型:

  • bag-of-words

  • CNN

  • RNN

  • 参加留意力机制的办法

以上几种办法有一个共同的缺乏之处,完全没有思索句子的构造信息。一切就有第五种 tree-structured LSTM。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

不过这种办法也有一定的缺乏,虽然用到了却构信息,但是用到的是需求预处置才干失掉的语法树构造。并且在不同的义务中能够都是异样的构造,由于语法都是一样的。

所以我们希望可以学到和义务相关的构造,并且基于学到的构造给句子做表示,从而希望能失掉更好的分类构造。但面临的应战是我们并不晓得什么样的构造关于这个义务是好的,我们并没有一个构造标注可以指点我们去学这个构造。但我们可以依据新的构造做出的分类后果好不好从而判别这个构造好不好。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

这个义务异样可以建模为强化学习成绩,用强化学习的思想来解。异样的,在这个义务中的reward也是有延迟的,由于需求把整个构造都学到后,才干失掉句子的表示,才干用句子的表示做分类,两头的进程是不晓得这个构造是好的还是不好的。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

实验局部的数据集来源

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

实验的分类后果;最初两行是我们的办法。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?

总结

在这个任务中,我们学习了跟义务相关的句子构造,基于句子机构失掉了不同的句子表示,并且失掉个更好的文本分类办法。我们提出两种不同的表示办法,ID-LSTM和HS-LSTM。这两个表示也失掉了很好的分类后果,失掉了十分有意思的和义务相关的表示 。

雷锋网提供视频直播回放,假如对文中有不清楚的中央,可点击观看视频 :http://www.mooc.ai/open/course/318。

清华大学冯珺:当强化学习遇见自然语言处理有哪些奇妙的化学反应?