雷锋网 AI 科技评论音讯,2018 年关于 NLP 范畴、特别关于中国 NLP 研讨来说,想必是不伟大的一年。在斯坦福大学发起的 SQuAD(Stanford Question Answering Dataset)文本了解应战赛上,以阿里巴巴、 微软亚洲研讨院(下称 MSRA)为代表的中国研讨团队在近日相继刷新了 SQuAD 纪录,机器阅读才能的精确率初次逾越人类。
官网显示,阿里巴巴与 MSRA 目前并列 SQuAD 榜单的第一名。
阿里巴巴 iDST NLP 团队于 1 月 5 日提交的 SLQA + 在 EM 值(Exact Match, 表示预测答案和真实答案完全婚配)上也取得了 82.440 的优秀成果,F1 值(F1-score,评测模型的全体功能)则为 88.607。
MSRA 自然言语计算组于 2018 年 1 月 3 日提交的 R-NET 模型在 EM 值上取得了 82.650 的成果,在 F1 值上的表现为 88.493 。
两个团队的 EM 值成果都逾越了人类在该项目上的得分——82.304,这也标志着,机器阅读了解精确率逾越人类这一看似困难重重的目的,在 2018 年曾经成为理想。
SQuAD(Stanford Question Answering Dataset)是行业内公认的机器阅读了解范畴的顶级程度测试,被誉为机器阅读了解范畴的 ImageNet。它构建了一个包括十万个成绩的大规模机器阅读了解数据集,选取超越 500 篇的维基百科文章。机器在阅读数据集内的文章后,需求答复若干与文章内容相关的成绩,并经过与规范答案的比对,失掉准确婚配(Exact Match)和模糊婚配(F1-score)的后果。
在最新榜单中,包括腾讯、科大讯飞在内的中国研讨团队也有着不俗表现,成果获得了相应的大幅提升。 科大讯飞与哈工大结合实验室(HFL) 、 微软 都已经刷新过 SQuAD 的纪录,雷锋网 (大众号:雷锋网) AI 科技评论也曾做过相关报道。
机器阅读了解技术拥有宽广的使用场景,比方在精准问答上能为用户提供极大的协助;另外,它也能推进很多 NLP 相关范畴的提高,如知识的表示、上下文篇章了解、知识推理等。
阿里巴巴自然言语处置首席迷信家司罗表示,将来希望能向终极目的迈进,即机器真正对通用内容「能了解会考虑」。
据理解,阿里巴巴 iDST NLP 团队在本次 SQuAD 的榜单上取得第一,次要得益于其提出的「基于分层交融留意力机制」的深度神经网络模型。这一模型可以模仿人类在阅读了解中所发生的行为,包括审题、带着成绩阅读文章,对文章停止标注等。
这样一来,模型可以在找寻成绩与文章关联的同时,借助分层战略,逐渐集中留意力,使答案边界明晰;另外,采用「交融方式将全局信息参加留意力机制」,以确保关注点正确。
这一技术实践上已被使用于阿里巴巴外部,例如顾客在双十一时期对活动规则停止征询,阿里小蜜经过机器阅读了解技术,协助顾客停止相关成绩的解答。又如,这一技术可以协助顾客阅读商品概况页,智能提取信息,为顾客直接解答根底成绩等。
MSRA 副院长、自然言语计算组担任人周明博士也第一工夫对研讨院的优秀成果表示恭喜:「恭喜中国的自然言语了解研讨曾经走在世界前列!整个范畴的提高需求大家共同的努力和投入来推进。自然言语处置长路漫漫,让我们共勉。」
关于 MSRA R-NET 的技术细节,可以了解为一个多层的网络构造,对整个阅读了解义务的算法停止建模。详细包括如下步骤:
-
阅读文章及审题: 最底层做表示学习,采用多层的双向循环神经网络,给成绩和文本中的每一个词做一个表示,即深度学习里的向量。
-
寻觅成绩与文中内容的关联,综合全文停止验证: 经过留意力机制(attention),将成绩中的向量和文本中的向量做一个比对,找出成绩和哪些文字比拟接近。然后,再将后果放在全局中比对。
-
精筛,选出正确答案: 针对挑出的答案候选区中的每一个词汇停止预测,哪一个词是答案的开端,到哪个词是答案的完毕。这样,零碎会挑出能够性最高的一段文本,最初将答案输入出来。
整个进程就是一个基于以下层面的神经网络的端到端零碎(见下图)。
关于 R-Net 的详细内容,可参考 AI 科技评论往期文章 《从短句到长文,微软研讨院如何教计算机学习阅读了解?》 。
更多精彩内容,敬请关注雷锋网 AI 科技评论。
。