农企新闻网

2018机器阅读了解技术竞赛开端报名 百度提供中文阅读了解数据集

发布者:马同东
导读3月1日,由百度公司、中国中文信息学会(CIPS)、中国计算机学会(CCF)联手举行的“2018机器阅读了解技术竞赛”正式开启报名通道。本次竞赛,百度将提供面向真实使用场景迄今为止规模最大的中文阅读了解数据集DuReader。竞赛官网及报名通道已正式开启,任何团队和团体都可以报名参与,获胜团队还将分享总额近10万人民币的奖金。阅读不只是人类获取知识、进步心智的重要途径,关于机器而言,拥有阅读才能异

3月1日,由百度公司、中国中文信息学会(CIPS)、中国计算机学会(CCF)联手举行的“2018机器阅读了解技术竞赛”正式开启报名通道。本次竞赛,百度将提供面向真实使用场景迄今为止规模最大的中文阅读了解数据集DuReader。竞赛官网及报名通道已正式开启,任何团队和团体都可以报名参与,获胜团队还将分享总额近10万人民币的奖金。


阅读不只是人类获取知识、进步心智的重要途径,关于机器而言,拥有阅读才能异样也可以完成继续学习和退化。机器阅读了解让机器阅读文本,然后答复和阅读内容相关的成绩,其中触及到的了解、推理、摘要等复杂技术,对机器而言颇具应战。该义务的研讨关于智能搜索、智能引荐、智能交互等人工智能使用具有重要意义,是自然言语处置和人工智能范畴的重要前沿课题。这也是百度结合举行2018机器阅读了解技术竞赛的重要缘由。

为了给予参赛者最鼎力度支持,本次竞赛将提供面向真实使用场景的大规模中文阅读了解数据集DuReader,包括来自百度搜索的30万个真实成绩,每个成绩对应5个候选文档文本,以及人工撰写的优质答案。同时,数据集还标注了成绩类型、实体和观念等丰厚信息。数据集将划分为28万的训练集,1万开发集和1万测试集。该数据集中包括了去年11月百度首零售布的DuReader数据集中的20万成绩数据,参赛者可自在下载用于训练和测试。本次竞赛报名团队还将取得新增的10万成绩数据集。DuReader是迄今为止最大的面向真实需求的中文阅读了解数据集,将为此次参赛的研讨者提供无力支撑。

据悉,本次竞赛的义务是关于给定成绩q及其对应的文本方式的候选文档集合D=d1, d2, ..., dn,要求参评阅读了解零碎自动对成绩及候选文档停止剖析,输入可以满足成绩的文本答案a。为了便于参赛选手疾速理解竞赛义务,竞赛还提供了两个开源的阅读了解基线零碎,并采用ROUGH-L和BLEU作为评价目标。

百度在自然言语处置(NLP)范畴曾经过十余年积聚与沉淀,具有了最前沿、最片面、最抢先的技术规划,不只专注于前瞻技术探究,更努力经过技术使用处理实践成绩。在刚刚过来的春节假期中,百度NLP团队研发的V-Net模型以46.15的Rouge-L得分登上微软MS MARCO机器阅读了解测试排行榜首。对此,微软 MARCO官方 twitter也发文表示恭喜。值得一提的是,此次百度只凭仗单模型(single model)就拿到了第一名,并没有提交更容易拿高分的多模型集成(ensemble)后果。

目前,世界机器阅读了解范畴经典赛事多集中在英文范畴,比方由斯坦福大学发起的SQuAD应战赛以及微软的MS MARCO机器阅读了解测试,而基于百度DuReader的2018机器阅读了解技术竞赛无疑将成为中文机器阅读了解范畴的一大盛事。此次百度与CIPS、CCF结合举行20高端智能装备、新一代信息技术、新能源、新材料、新制造、新零售、新技术、生物制药等新的产业集群正在迸发活力;创新驱动、科技支撑、知识产权转化、技术转移等新的动能正在超越旧的动力,新经济成为支撑经济发展的重要力量。18机器阅读了解技术竞赛并开放数据集,旨在进一步提升机器阅读了解技术的研讨程度,并希望研讨者可以应用数据集产出更好更优质的机器阅读了解模型,推进言语了解和人工智能范畴技术研讨和使用的开展。报名地址及赛事概况请登录2018机器阅读了解技术竞赛官网。