阿里巴巴达摩院机器智能技术实验室 +6 AI影响因子 活动 企业: 阿里巴巴 操作: 企业活动 事项: 自行组织首场NLP学术研讨会
5 月 23 日,阿里巴巴达摩院机器智能技术实验室自然言语了解研讨组在杭州举行了阿里巴巴自然言语处置学术初级研讨会,共有近 30 位来自全国各高校机构的学者嘉宾及 8 位阿里巴巴集团参会代表莅临列席,并停止了为期一天的学术分享。
本次会议旨在搭建高校学术与企业理论的交流平台,增进校企协作,创新自然言语处置新技术。本次会议约请了多位高校教授分享其在 NLP 范畴的任务和效果,与此同时,阿里巴巴达摩院机器智能技术实验室自然言语了解研讨组成员也分享了他们在自然言语根底研讨、机器翻译等多方面的研讨停顿。
阿里巴巴达摩院机器智能技术实验室自然言语了解研讨组在雷锋网学术频道AI科技评论旗下数据库项目 「AI 影响因子」 中有突出表现,凭仗刷新 SQuAD 纪录取得加分。
以下是雷锋网 AI 科技评论依据现场实录整理的演讲内容。
研讨会伊始,阿里巴巴达摩院机器智能技术实验室主任金榕博士及自然言语了解研讨组首席迷信家司罗博士辨别做了收场致辞。
金榕博士表示,在十几年前,做翻译更多的是一种「探究型」的东西,很难想像它在明天会开展到这样的壮大规模;「能够很多人觉得阿里巴巴更多是一个电商企业,所以像引荐、搜索等功用是它最次要的事情,但是以明天阿里业务的形状来看,翻译成为十分重要的方向。」而金榕博士也表示,阿里也希望翻译在电商范畴的价值异样能迁移到日常生活当中。
而司罗博士则结合他已经的学术界研讨阅历和如今在阿里巴巴的研讨阅历,分享了他的心得领会。「只要自然言语处置达成真正的打破,我觉得我们才干更进一步发明更多的智能,发明更多的时机。」AliNLP 平台支持着阿里关于自然言语处置方方面面的需求,包括机器翻译和多言语处置场景,在司罗博士的了解里,他以为阿里提供的 AliNLP 平台是「世界上自然言语处置范畴最有价值的舞台」。其次,司罗博士也提及了技术的开放业态,经过阿里云等多种手腕对外输入阿里的技术,做「普惠的自然言语技术的创造」。最初,司罗博士也强调了「兢兢业业」这个关键词。「我们希望做一些让子孙后代记住我们的事情,可以对未来的孙子吹嘘的事情。我们特别希望做有应战性、创新性的技术任务。」因而,他也向在场的嘉宾们建议一同推进技术的学致使用,为人类发明更美妙的价值与更美妙的将来。
随后,苏州大学计算机迷信与技术学院张民教授也作为嘉宾代表致辞。在过来的一年里,苏州大学与阿里巴巴坚持亲密协作并获得优秀效果。张民教授在致以谢意的同时,也提及整个行业处在一个「好的机遇」,即产业化的需求曾经成为时代的必定。此外,张民教授也指出情感、认知、了解依然是亟待处理的成绩,用微软的话讲是「得言语者得天下」,或许说,自然言语处置是人工智能皇冠上的一颗明珠。因而,阿里巴巴与高校的亲密协作,不只是企业的侥幸,也是教员与团体于这个时代的侥幸。
在上午场的分享中,五位高校教师分享了他们在各自研讨自然言语处置进程中的效果。
陈文亮 - 面向电商平台的自然言语处置相关技术研讨
来自苏州大学的陈文亮首先引见了成立 30 年的苏州大学自然言语处置团队,该团队目前在信息检索、篇章剖析、信息抽取、情感剖析、机器翻译及知识图谱等六大研讨范畴都有着深沉的学术积聚。
随后,陈文亮分享了团队与阿里不同团队的协作项目,结合在电商平台业务需求中所发生的自然言语处置实践成绩,并展开创新性前沿使用技术研讨和开发,研讨如何应用大规模多范畴跨言语无标注语料资源,并进步自然言语处置义务的精确率和鲁棒性。基于依存句法树库构建和剖析模型、面向单产品问答文本的情感剖析办法研讨、面向知识图谱构建的文本发掘算法研讨和面向神经机器翻译的干涉技术研讨等四个范畴,苏州大学自然言语处置团队辨别在 IJCNLP-2017、IJCAI-2018 和 AAAI-2018 等国际顶级学术会议宣布了相关任务。
赵东岩 - 基于知识图谱的文本语义了解及其智能使用
北京大学计算机研讨所的赵东岩首先从类人智能研讨静态动手,引见了文本语义了解技术的相关背景,并从语义发掘、语义了解、对话零碎三个研讨方向引见了相关技术研讨。
在语义发掘范畴,赵东岩团队曾经构建了超越 1300 万条 RDF 知识条目、80 万实体的中文知识图谱,并支持静态构建、相信度评价、自然言语问答等。
在语义了解范畴,团队构建了基于图构造的大规模 RDF 语义网络存储与查询零碎,搜狗知立方 10 亿条知识图谱实测的均匀查询工夫为 400ms。
在对话零碎范畴,比拟成熟的检索式对话技术经过从少量对话数据库中搜索候选答复,并将用户成绩停止构造化,经过深度神经网络技术对候选答复停止排序,失掉最优答复。
此内在语义引擎、对话机器人等方面,语义了解也有着多种技术使用,如理财参谋机器人、法律助理机器人等。
邱锡鹏-自然言语处置中的多义务学习
复旦大学的邱锡鹏首先回忆了 NLP 的开展历程,并引出深度学习在自然言语处置中的「为难」位置次要有两个方面。一是 NLP 义务中的神经网络并不深,少数状况下,一层 LSTM 加 attention 机制就足够处理成绩;二是深度学习面临数据标注需求量大与代价高之间的矛盾。邱锡鹏指出在数据量小的状况下,可以采用多义务学习来结合训练多个不同义务,经过找到个性以互相进步,深度学习也为多义务学习在自然言语处置中的使用提供蓬勃发展的行业不仅给从业者提供了巨大的发展机遇,也带来了全新的挑战。了条件,详细的结合方式包括硬共享形式,软共享形式,以及共享-公有形式等。不过邱锡鹏也指出,在多范畴义务、多级义务及多言语义务上,多义务学习依然面临不同层面的应战。
蒋静- Match-LSTM 模型在自然言语推理和机器阅读了解上的使用
新加坡管理大学的蒋静围绕团队提出的 Match-LSTM 模型分享了这一算法在自然言语推理和机器阅读了解上的使用。该模型改良了 Rocktaschel et al. (2015) 提出的基于 word-by-word attention 的模型,在处理文本包含义务中获得提升,在 SQuAD 数据集中获得了最好效果。经过给定前提 (premise) 去判别相应的假说 (hypothesis) 能否正确,是则判别为包含 (entailment),否则为矛盾 (contradiction)。
戴新宇-异质数据交融的引荐零碎
引荐零碎在传统建模中通常采用基于矩阵分解的打分预测。南京大学的戴新宇在分享中指出,这一模型面临冷启动与矩阵稀疏的两大成绩。以社交关系数据、商品的评论数据为代表的异质数据可以协助处理上述成绩。戴新宇引见了如何设计一个模型来交融评论做基于隐式反应的排序引荐,以及如何将神经网络的办法融入到引荐零碎中。
下午场中,首先由阿里巴巴自然言语处置相关技术团队代表分享阿里引见在研讨当中和任务当中的一些应战及相应效果。随后由两名来自高校的教师分享了他们在相关学术研讨任务的一些心得领会。
陈博兴 - 机器翻译在跨境电商范畴的使用与研讨
阿里集团都谈使命,阿里巴巴的使命是「让天下没有难做的生意」,阿里翻译平台的使命是「让商业没有言语妨碍」。
秉承这一使命,阿里翻译平台的翻译总量曾经到达每日 7.5 亿次,每天翻译的词语数高达 2600 亿。不过,据陈博兴表示,目前电商翻译仍存在包括翻译质量、翻译速度及效劳质量等多重成绩。为处理上述成绩,阿里翻译平台搜集和构建了少量的电商范畴的平行语料和知识库,并结合不同业务场景有的放矢,设计了基于规则的翻译模块(Rule based Machine Translation,RBMT),基于短语的统计机器翻译模型(Statistical Machine Translation,SMT)和基于神经网络的机器翻译模型(Neural Machine Translation,NMT)等。最初陈博兴总结道,翻译的精确性、灵敏性、可用性及波动性不断都是机器翻译零碎的重要规范。虽然目前机器翻译的效果并不算尽善尽美,但它在一些场景中能提供宏大的商业价值。
李林琳 - 阿里巴巴自然言语处置根底技术及其使用
围绕阿里巴巴 NLP 根底技术体系平台 AliNLP,李林琳引见了平台在分词、语法错误检测、垂直知识库、本次涌现的 AI、区块链和物联网热潮不同于以往,将对产业、社会和生活产生真正堪称“颠覆性”的变革。IT 技术人员需要全方位地“换脑”:对原有的知识结构进行全面刷新,全面升级。文本纠错处理方案、国际化业务、搜索方案等多个范畴的探究和尝试,目前在搜索引荐、广告、金融、客服、文娱、平安等业务场景普遍运用,支持阿里云城市大脑、医疗大脑等产业创新,同时片面掩盖 Alibaba.com, AliExpress, Lazada 国际化业务。
刘晓钟 - 文本发掘中的用户变量
关于一个拥有海量多维数据的企业,阿里 MIT 在文本发掘上也做出了不少尝试。刘晓钟在分享中引见了团队在智能司法、言论剖析、文本生成、反渣滓、特性化引荐、事情发掘等多范畴的探究及理论使用。经过用户行为数据更好天文解用户,抽取重要的用户变量,代入文本发掘的算法,进而提升算法精确度,阿里巴巴希望「天下没有难做的生意」。在最初,刘晓钟也提出了一些感兴味的研讨方向,约请各位教师一同与阿里协作。
我们是 NLP 的团队,但是我们的研讨并不只仅指 NLP,我们特别等待的事情是把 NLP 做成算法,但我们会更多参加 User 的成分,User 的局部是我明天希望引荐给大家的,希望教师跟我们的协作。
刘奕群 - 互联网搜索技术:应战与停顿
清华大学刘奕群分享了清华大学在 NLP 范畴所获得的成果。随后,他引见了异质环境下的用户交互行为模型的构建,包括搜索、native、信息流场景下的交互。异质化的出现方式很多,信息源的来源多样化,尝试运用用户感知的办法搜集行为数据,应用这些数据停止建模,可以应用这些模型来预测用户能够留意的内容,估测用户的留意力。搜索后果资源的聚合排序,经过少量的搜索后果和文本后果和在一同,给出一个最优的排序。此外,团队也探究了在点击行为之外,交融视觉特征、构造化特征等各种不同的表示方式,并运用深度学习的办法停止排序,以取得更优解。关于功能评价、欺诈检测和 CQA 作弊行为,刘奕群也分享了团队所做的一些任务。
赵铁军、杨沐昀 - 机器翻译建模与后优化的研讨停顿
哈尔滨工业大学 杨沐昀
哈尔滨工业大学的赵铁军教师和杨沐昀教师从机器翻译模型的改良和机器翻译译文的后优化两方面停止分享。前者次要围绕部分上下文加强词汇表示及句法导向的留意力机制;后者则次要围绕基于实例的翻译分歧性优化及基于伪反应的编辑分歧性优化停止分享。围绕 MI&T Lab 机器翻译研讨,团队将「语义为中心,句法篇章为两翼,认知为前沿」作为根底实际,基于平行语料库 NMT、基于非平行语料库的无指点 NMT 还有基于团体语料的机器翻译后优化为关键技术,在特性化检索、知识图谱、对话零碎等范畴做落地尝试,并使用于安康信息等垂直范畴。
在最初,阿里巴巴集团机器智能技术实验室的骆卫华教师与黄非教师对本次研讨会停止了总结。二位教师首先感激诸位与会嘉宾远道而来参与研讨会。
骆卫华表示,这是阿里 NLP 团队初次组织相关的研讨会,也希望将来能与大家多做交流。他以为本次研讨会的次要作用有两个方面。
-
首先是思想碰撞。骆卫华希望这些阿里与学术界、学术界外部的协作课题讨论,能给与会嘉宾们有所启示:「我觉得一个真正好的会议并不是(在会上)处理多少成绩,而是大家能碰撞出来一些有价值的、新的成绩。」
-
其次是构建协作桥梁。在研讨会的分享之下,阿里巴巴也希望能将能够有的一些协作点串联、嫁接起来,促进多方协作。
「工业界和学术界各有各的优势和分工,我们也希望可以把大家的优势结合起来,把各自由各自方向做坏事情的才能结合起来,可以推进这个技术范畴更快地开展,可以处理临时以来悬而未决没有处理的事情。」
黄非教师十分赞同骆卫华教师的观念,他表示本人在会上收获颇丰。经过阿里的任务引见,他希望嘉宾们能借这个时机理解到自然言语处置,特别是多言语自然言语处置的机器翻译在阿里的重要战略位置,特别是在阿里国际化中起到的技术作用。
「在这样的场景下,我以为学术界的教师和工业界的研讨者有很大的研讨时机和互补的时机。工业研讨中会提出一些新的成绩,对学术使用会有促进;同时各位教师在学术界的深沉积聚,对阿里的技术推进也有很大的协助。」
我们也置信,阿里 NLP 团队将在将来举行更多与自然言语处置相关的研讨会,在研讨与理论中不时带动学界与业界的交流与交融。更多资讯敬请关注雷锋网 (大众号:雷锋网) AI科技评论。
附阿里巴巴达摩院机器智能技术实验室自然言语了解研讨组团队简介:
阿里巴巴达摩院机器智能技术实验室自然言语了解研讨组团队努力与学术界、产业界一同创新自然言语技术。团队成员普遍拥有 10 年以上自然言语处置研发经历,散布在中国、美国、新加坡的近百位研讨员,30% 以上拥有博士学历(如 CMU、伯克利、普林斯顿、清华、北大等),其中包括前国际知名院校终身教授、知名研讨所研讨员等。团队及成员屡次在国际自然言语技术竞赛中获得冠军成果 (2016 年 CIKM Cup 电商搜索,2017 年 IJCNLP 语法纠错,2017 年美国规范计量局信息提取,2017 年 WMT 俄语到英语等),在历年顶级国际会议上 (ACL,AAAI,SIGIR,CIKM) 均有学术论文及报告产出。
团队次要从事自然言语根底技术,机器翻译,文本发掘,语义计算,文本搜索和引荐等方向的研讨,努力于构建阿里巴巴自然言语技术体系,支撑阿里巴巴经济体言语智能技术和使用,秉持「让商业没有言语妨碍」的使命理念,赋能阿里巴巴协作者,开展普惠自然言语智能技术。
创新自然言语技术,探究将来智能。
。