腾讯科技讯 2月21日,春节假期最初一天,百度自然言语处置团队研发的V-Net模型以46.15的Rouge-L得分登上微软的MS MARCO(Microsoft MAchine Reading COmprehension)机器阅读了解测试排行榜首。
图1 MS MARCO 排行榜
对此,微软 MARCO官方 twitter也发文表示恭喜。
图2 MS MARCO 官方twitter 向百度表示恭喜
MARCO是微软基于搜索引擎BING构建的大规模英文阅读了解数据集,包括10万个成绩和20万篇不反复的文档。MARCO数据集中的成绩全部来自于 BING 的搜索日志,依据用户在BING 中输出的真实成绩模仿搜索引擎中的真实使用场景,是该范畴最有使用价值的数据集之一。
此次百度NLP在MARCO提交的V-NET模型,运用了一种新的多候选文档结合建模表示办法,经过留意力机制使不同文档发生的答案之间可以发生交流信息,相互印证,从而更好的预测答案。据引见,此次百度只凭仗单模型(single model)就拿到了第一名,并没有提交更容易拿高分的多模型集成(ensemble)后果。
此前,在机器阅读了解范畴,研讨者多参与由斯坦福大学发起的SQuAD应战赛。但相比SQuAD,MARCO的应战难度更大,由于它需求测试者提交的模型具有了解复杂文档、答复复杂成绩的才能。
据理解,关于每一个成绩,MARCO 提供多篇来自搜索后果的网页文档,零碎需求经过阅读这些文档来答复用户提出的成绩。但是,文档中能否含有答案,以及答案详细在哪一篇文档中,都需求零碎本人来判别处理。更风趣的是,有一局部成绩无法在文档中直接找到答案,需求阅读了解模型本人做出判别;MARCO 也不限制答案必需是文档中的片段,很多成绩的答案必需经过多篇文档综合提炼失掉。这对机器阅读了解提出了更高的要求,需求机用具备综合了解多文档信息、聚合生成成绩答案的才能。
百度在自然言语处置范畴曾经过十余年积聚与沉淀,具有了最前沿、最片面、最抢先的技术规划,不只专注于前瞻技术探究,更努力经过技术使用处理实践成绩。这也是百度此次选择MARCO数据集而不是SQuAD的次要缘由。目前,百度的阅读了解、深度问答等技术曾经在搜索等产品中实践使用,它可经过深化地剖析、了解用户的成绩,从相关网页中定位答案,并经过总结、提炼、归结后把答案在明显的地位出现给用户,运用户不需求点开网页就可以直接获取精确答案,大大地提升了用户获取精准信息的效率。这样的技术和效劳,每天呼应着数亿次的用户恳求。
“此次在MARCO的测试中获得第一,只是百度机器阅读了解技术阅历的一次小考,”百度自然言语处置首席迷信家兼百度技术委员会主席吴华表示,“我们希望可以与范畴内的其他同行者一同,推进机器阅读了解技术和使用的研讨,使AI可以了解人类的言语、用自然言语与人类交流,让AI更‘懂’人类。”