讯飞与哈工大结合实验室刷新SQuAD成果，两项目标均大幅提升

2025-08-08 00:45:59

导读雷锋网AI科技评论按：科大讯飞与哈工大结合实验室（HFL）在 SQuAD 上又刷新了成果，不只在准确婚配（Exact Match，下称 EM）目标上超越人类均匀程度，模糊婚配（F1-score，下称 F1）目标也初次到达 89.281 。SQuAD（Stanford Question Answering Dataset）为斯坦福大学发起的文本了解应战赛，是行业内公认的机器阅读了解范畴的顶级程度测试

雷锋网AI科技评论按：科大讯飞与哈工大结合实验室（HFL）在 SQuAD 上又刷新了成果，不只在准确婚配（Exact Match，下称 EM）目标上超越人类均匀程度，模糊婚配（F1-score，下称 F1）目标也初次到达 89.281 。

讯飞与哈工大联合实验室刷新SQuAD成绩，两项指标均大幅提升

SQuAD（Stanford Question Answering Dataset）为斯坦福大学发起的文本了解应战赛，是行业内公认的机器阅读了解范畴的顶级程度测试，它构建了一个包括十万个成绩的大规模机器阅读了解数据集，选取超越 500 篇的维基百科文章。

在阅读数据集内的文章后，机器需求答复若干与文章内容相关的成绩，并经过与规范答案的比对，失掉 EM 和 F1 的后果。

在 2018 年 1 月初，以阿里巴巴、微软亚洲研讨院（下称 MSRA）为代表的中国研讨团队相继刷新了 SQuAD 的 EM 纪录，机器阅读才能的精确率初次逾越人类。而在明天，科大讯飞与哈工大结合实验室也在 SQuAD 上取得了逾越人类的 EM 分数，并在 F1 上也取得了第一名的成果。

早在 2017 年 7 月，科大讯飞与哈工大结合实验室( HFL )在 SQuAD 上提交的零碎模型就曾夺得第一，这也是中国外乡研讨机构初次获得该竞赛的冠军。为此，雷锋网 AI 科技评论专访了科大讯飞研讨院副院长王士进，事先他指出，成为世界第一，只是阅读了解零碎万里长征的第一步。

虽然国际研讨机构所提交的零碎相继在 SQuAD 中超越了人类均匀程度，相比往期毫无疑问是一个宏大的提高，但这并不能代表机器在阅读了解义务上「完全」打败人类。毕竟在认知推理层面，机器依然没有到达人类所具有的真实才能。

阅读了解是 NLP 范畴里一个公认的难题，也是将来一个十分重要的趋向。据理解，讯飞与哈工大结合实验室提交的交融式层叠留意力零碎（Hybrid Attention-over-Attention Reader）交融了基于上下文的文本表示、自顺应转随机梯度下降的优化办法等前沿技术。王士进在此前的采访中表示，在 7 月份向 SQuAD 提交后果前，科大讯飞与哈工大结合实验室团队在该数据集中花了四个多月的工夫，次要采用的办法还是主流的深度学习。

原来的做法是，零碎会给出一些训练集，包括包括篇章、成绩和对应的答案，然后经过神经网络去学习，自动构建找到成绩和答案的对应关系的一个方式。但我们做法有两点不一样的中央：

一个是我们的“基于交互式层叠留意力模型”，一开端她能够先锁定住一些片段，然后经过多轮迭代的方式停止过滤，进一步锁定挑选出更精准的一些内容，去除整篇文章的搅扰，最终得出成绩的答案。

第二，我们采用了模型交融的方式。关于成绩我们会提出不同的模型，然后对这些模型停止一个交融（ensamble）。由于我们晓得，普通来说单一模型的功能并不是特别好，我们其实研讨的是如何把多个不同机理的模型交融和在一同发生最好的效果。

详细的技术细节剖析与趋向讨论，可参考雷锋网 AI 科技评论的往期报道《成为世界第一，只是阅读了解零碎万里长征的第一步》。

更多精彩内容，敬请关注雷锋网 (大众号：雷锋网) AI 科技评论。

雷锋网版权文章，未经受权制止转载。概况见。

免责声明：本文章由会员“李同一”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：