农企新闻网

自然言语处置顶会 NAACL 近日召开,五大主题报告片面解读

发布者:何龙
导读雷锋网(大众号:雷锋网)AI 科技评论按,本文作者为华盛顿大学方昊,他为 AI 科技评论撰写了关于 NAACL 的独家稿件。第 16 届 NAACL(NAACL 2018)于外地工夫 6 月 1 日至 6 月 6 日在美国路易斯安那州新奥尔良市举行。NAACL 是自然言语处置范畴十分受关注的顶级会议之一,据统计,往年共接纳 207 篇长论文(32% 接纳率)、125 篇短论文(29% 接纳率),美

雷锋网 (大众号:雷锋网) AI 科技评论按,本文作者为华盛顿大学方昊,他为 AI 科技评论撰写了关于 NAACL 的独家稿件。

第 16 届 NAACL(NAACL 2018)于外地工夫 6 月 1 日至 6 月 6 日在美国路易斯安那州新奥尔良市举行。NAACL 是自然言语处置范畴十分受关注的顶级会议之一,据统计,往年共接纳 207 篇长论文(32% 接纳率)、125 篇短论文(29% 接纳率),美国是接纳论文的次要来源国,中国紧随其后。值得一提的是,NAACL 在往年第一次推出了 Industry Track 吸引来自工业界的研讨任务。

在6 月 2 日——6 月 4 日的主会上,迎来五位主讲嘉宾,其中 3 位嘉宾在 Research Track 环节,2 位嘉宾在 Industry Track 环节。

6 月 2 日上午,迎来第一位主讲嘉宾——宾夕法尼亚大学的 Charles Yang 教授。他的演讲主题是《Why 72?》。

自然语言处理顶会 NAACL 近日召开,五大主题报告全面解读

这次的演讲是关于他在研讨儿童学习言语的进程中发现的规律,他们尝试在机器上运用这些规律。他们做了一系列关于儿童数数的研讨,发现关于说英语的儿童,总是无法从 1 完好地数到 72,但一旦他们能完好地数到 72,那就能成功地数到 100。换句话说,没有儿童在从 72 数到 100 之间会失败。他经过一系列的研讨和察看发现了一些可解释的规律,并且尝试将这些规律使用在机器学习上。

他在演讲最初提出两点结论:第一,儿童可以从很少的数据中学习到言语,所以机器也应该可以;有时分更多的数据并不一定会有协助。第二,研讨言语才能获取的进程会协助非监视自然言语处置零碎的开展。

关于演讲内容的详细 PPT,大家可以点击如下网址:

http://www.ling.upenn.edu/~ycharles/naacl2018.pdf

下午是来自华盛顿大学的 Mari Ostendorf 教授的主题演讲。她演讲的次要内容是关于她率领的华盛顿大学队伍在 2017 年亚马逊 Alexa Prize 获胜零碎 Sounding Board 的任务。

自然语言处理顶会 NAACL 近日召开,五大主题报告全面解读

演讲的第一局部是 Sounding Board 的零碎描绘,她提到搭建社交对话零碎的两个次要理念:以用户为中心,以内容为导向。她表示,Sounding Board 可以被看成是一个接入大规模网络内容的对话式的入口。

演讲的第二局部次要讨论了搭建社交对话零碎的难点和应战:

第一,自然言语处置技术处置语音辨认零碎输入的成绩;第二,用户有十分大的多样性,包括他们的交互方式、特性、对新闻和内容的兴味;第三,互联网提供了很多有用的数据,但也是一把双刃剑,网上充满着很多不合适讨论的内容,所以需求开发十分好的伴随着互联网和移动生活的日趋成熟,芝麻信用高分和良好的个人征信记录,不仅可以办理贷款、申请信用卡延伸你的财富,更能大大便利我们的生活。内容了解和过滤零碎;第四,和用户停止深度讨论十分困难,需求有针对用户言语和网上内容的愈加弱小的了解零碎。

在演讲的最初,Mari 讨论了学术界和工业界协作的一些经历。首先,学术界和工业界的协作提供了让在校先生和教授可以接触到大规模用户的时机,这能影响到学术界的研讨方向和处理办法,也会让先生有更好的全局观念。其次,与工业界的协作也可以给先生提供资金支持,而先生和教授也能直接提供工业界新产品或许功用的反应。她表示,也有很多方面需求进一步改良,比方如何在不影响用户隐私的状况下取得数据,如何提供愈加丰厚的语音界面,以及怎样达成愈加临时和波动的协作。

演讲内容 PPT 详见如下链接:

https://sounding-board.github.io/index_files/Ostendorf_naacl2018.pdf

Kevin Knight 在主会次日上午带来主题演讲。他被 AMiner 评为机器翻译界十大领军人物之一,在卡内基梅隆大学计算机迷信系取得博士学位,目前是南加州大学信息迷信研讨所的一名教授,也是机器翻译界公认的首领,统计机器翻译的次要倡议者之一。

自然语言处理顶会 NAACL 近日召开,五大主题报告全面解读

这个演讲是关于他最近在自然言语解密和自然言语生成方面的任务。

在自然言语解密方面,他谈到他们运用统计模型协助历史学家翻译一些陈旧文献,以及协助拍摄关于解密黄道十二宫杀手函件的纪录片的阅历。

接上去他分享了他们关于自然言语生成,特别是运用循环神经网络在生成诗歌方面的任务。他讨论了如何运用循环神经网络控制诗歌的话题和韵律的一些实验后果。他表示,在自然言语生成范畴,学术界暂时还没有一个普遍承受的权衡规范。但他同时强调,即便有一些研讨范畴暂时还没有一个良好定义的权衡规范,大家也应该持续在这个范畴投入研讨。他举了机器翻译范畴的例子,早在 BLEU 被提出前很多年,就曾经有十分多的高质量的机器翻译的任务宣布,所以大家不要被权衡目标限制了研讨的多样性。

另一个风趣的音讯是,他也在演讲中提到他于 2018 年 6 月 1 日正式参加滴滴出行,将在洛杉矶开设一个自然言语处置实验室。

下午,亚马逊的 Daniel Marcu 带来主题演讲,他目前在亚马逊管理一个机器学习/自然言语处置团队。

自然语言处理顶会 NAACL 近日召开,五大主题报告全面解读

他分享了他在过来一段工夫将前沿研讨转化到成功的创业公司上的经历,也谈到剖析数据和权衡目标的重要性。他指出有些研讨太过注重进步在一些已有权衡目标上的分数,但是疏忽了实践使用场景的用户要素。

演讲的最初,他强调博士任务一方面要在一个十分专注的范畴做出奉献,但同时也不要遗忘纵观全局。

主会第三日上午,迎来最初一位演讲嘉宾——谷歌 AI 的 Dilek Hakkani-Tür。

自然语言处理顶会 NAACL 近日召开,五大主题报告全面解读

演讲伊始,她回忆了端到端的对话零碎研讨,并指出义务导向的对话零碎和闲谈零碎近期有会聚到同一个方向的趋向。之后,她提到可以将对话看成一个协作式的用户和机器之间的游戏。同时,她再次强调了 Mari 在演讲中提到的结合语音和自然言语处置研讨对基于语音对话零碎的重要性,并且讨论了视觉信息在对话零碎中的使用。

演讲最初,她描绘了谷歌近期关于训练对话零碎的框架 :首先经过模仿用户来引导初始化模型训练,然后经过众包 (crowdsourcing) 平台来改善零碎,最初在和实践用户的交流中迭代改善零碎。

主会第三日下午是出色论文演讲。往年 NAACL 共选出 4 篇出色论文,值得一提的是,华盛顿大学参与完成其中 3 篇,出色论文名单如下:

Deep Contextualized Word Representations

地址: https://arxiv.org/abs/1802.05365

Learning to Map Context-Dependent Sentences to Executable Formal Queries

地址: https://arxiv.org/abs/1804.06868

Neural Text Generation in Stories using Entity Representations as Context

地址: https://jiyfeng.github.io/publication/papers/clark2018neural.pdf

Recurrent Neural Networks as Weighted Language Recognizers

地址: https://arxiv.org/abs/1711.05408

关于这四篇论文的简介,可参见雷锋网 AI 科技评论此前文章: 自然言语处置顶会 NAACL 2018 最佳论文、工夫检验论文揭晓

最佳论文(Deep Contextualized Word Representations)也在出色论文之列,这篇论文由来自 AI2(艾伦人工智能研讨院)和华盛顿大学的团队共同完成。在这篇关于 ELMo 的任务中,他们描绘了如何经过 LSTM 言语模型取得编码了语境的词向量,并表示这样失掉的词向量可以使用在各个自然言语处置零碎上,取得明显的功能提升。

这篇论文的模型和代码曾经在 AllenNLP(基于 PyTorch)和 TensorFlow 中完成。更多细节可以参考他们的网站: https://allennlp.org/elmo

在此次会议上,可以看到学术界和工业界的协作越来越多,工业界也越来越关注在学术会议上宣布论文。会上除了有来自各所高校的教授和先生,也有很多来自工业界的研讨员,大家相互交流经历。这也是 NAACL 尝试开设 Industry Track 的缘由之一。

另外,会议上有来自腾讯、阿里巴巴、京东等公司的论文,可以看到中国公司的曝光率越来越高。

全体来说可以觉得到学术界和工业界在 NLP 范畴如今都处于比拟好的形态,从而也促进了越来越多高质量的论文和任务。

(完)

雷锋网特约稿件,未经受权制止转载。概况见。

自然语言处理顶会 NAACL 近日召开,五大主题报告全面解读