农企新闻网

谷歌AI打电话刷屏,微软坐不住了

发布者:马阳远
导读雷锋网按:这些天,谷歌AI冒充真人打电话在冤家圈大火,可以说谷歌很成功地制造出了一次热点话题。但是,这可忙坏了微软集团的公关们,不得不赶忙发技术声明表示微软早已完成了AI与真人通电话。美国工夫5月8日,谷歌在2018年度开发者大会(Google I/O 2018)上引见了智能语音助手Google Assistant中新添加的Duplex,它可以本人给饭馆、发廊等商业店面打电话,帮用户预定工夫。我们

雷锋网按: 这些天,谷歌AI冒充真人打电话在冤家圈大火,可以说谷歌很成功地制造出了一次热点话题。但是,这可忙坏了微软集团的公关们,不得不赶忙发技术声明表示微软早已完成了AI与真人通电话。

美国工夫5月8日,谷歌在2018年度开发者大会(Google I/O 2018)上引见了智能语音助手Google Assistant中新添加的Duplex,它可以本人给饭馆、发廊等商业店面打电话,帮用户预定工夫。我们再来看看I/O 大会现场的演示视频:

rame width="640" height="498" frameborder="0" src="https://v.qq.com/iframe/player.html?vid=l0648cq583e&tiny=0&auto=0" allowfullscreen="">rame>

AI助手与人交流、完成指令曾经不是新颖事。假如你常常跟Siri对话,或许你有一台天猫精灵、小爱同窗等智能音箱,你会发现,跟AI对话真实是太费力。你需求字正腔圆,还要一次次地说唤醒词,无法完成延续对话。

Duplex让人感到诧异的是:它不只用自然流利的语音和电话另一头的人类完成了交流,且对方基本没无意识到打电话来的竟然是个[ AI ]。这是由于谷歌Duplex完成了延续对话、参加了人在对话中通常会用的语词助词"emm"、“uha”等、能了解对话的上下文,此外还具有了自动提供语料的功用。

这样的双向对话,不断是微软、苹果、亚马逊、Facebook这些做对话式人工智能的公司们努力的方向。谷歌这次放了个大招,取得了很高的关注,微软显然坐不住了,赶忙站出来说,且慢,我们才是先完成这项技术打破的。

关于这件事,微软在昨天发了一篇技术声明。以下为声明全文:

全双工语音技术(Full Duplex)的意义在于,它可以使“人机交互”退化为“人机交流”。一字之差,价值宏大。

往年4月4日,我们正式在美国和中国同步发布了Full Duplex感官,并预言行业将认识到这一技术的价值,放慢向这一方向集中。我们很快乐看到越来越多的同行业者参加。

其实,人类历史上第一次与人工智能停止全双工语音电话,并不是发作在美国,而是发作在中国。我们很荣幸能将这一桂冠贡献给祖国。自2016年8月起,微软(亚洲)互联网工程院经过人类用户自动发起的方式,已让小冰与人类用户累计完成了超越60万通电话。

明天,我们发布其中一通发作在两年前的实践电话录音,将之作为珍贵的材料,贡献给全世界说中文的华人。

rame width="640" height="498" frameborder="0" src="https://v.qq.com/iframe/player.html?vid=m0650193hg9&tiny=0&auto=0" allowfullscreen="">rame>

而这一技术也曾经完成产品落地。两年来,正是在人类的训练下,小冰已完成不局限于任何封锁域,而是可针对开放域停止全双工语音对话。目前,微软已落地的对话场景包括传伴随着互联网和移动生活的日趋成熟,芝麻信用高分和良好的个人征信记录,不仅可以办理贷款、申请信用卡延伸你的财富,更能大大便利我们的生活。统电话、VoIP电话和智能音箱设备,微软小冰的车载路试正在停止中。

假如您想要体验Full Duplex全双工语音,不需等候数周,明天就能。在微软小冰已落地的产品中,我们引荐您运用我们与小米协作的米家生态链Yeelight智能硬件产品。在随附的用户真实运用视频中,您将领会到:

•      一次唤醒之后的延续对话

•      微软小冰对用户的预测模型

•      协助用户轻松完成多重担务

•      小冰的内容发明才能

•      以及最重要的:人机情感交流

  人工智能时代已来,让我们继续创新。

微软的声明中,雷锋网发现了三个关键点:首先,在技术层面上,微软在往年4月4日正式发布了“全双工语音交互”技术;其次,在事情现实上,微软在两年前就完成了AI与人类通电话;最初,在产品落地上,微软的全双工语音交互曾经具有多个场景,且搭载全双工语音交互技术的微软小冰曾经呈现在智能音箱——米家生态链Yeelight智能硬件产品中。

微软所说的全双工语音交互技术(Full-Deplex Voice)与谷歌Duplex的技术框架和完成的功用应该是相似的。

微软对“全双工语音交互技术”的定义是:与既有的单轮或多轮延续语音辨认不同,这项新技术可实时预测人类行将说出的内容,实时生成回应并控制对话节拍,能了解对话场景在诉说者/倾听者之间完成角色转变,还可以辨认说话人的性别、有几团体在说话。

也就是说,与只能完成单轮的语音的智能语音助手不同,能延续对话的全双工语音交互能完成和人类双向交流,而这种双向交流最罕见的场景则是通电话。由于通电话是一个在短工夫内继续对话的进程,对通话单方的即时反响要求最高。

在3月28日,微软也在北京召开了媒体交流会,详细引见过”全双工语音交互技术“。

雷锋网 (大众号:雷锋网) 理解到,全双工语音交互面前次要有两个关键技术:一个是预测模型,完成边听边想;例如,当用户说出一句话的时分,小冰会先答复“嗯,你说”,然后再去完成指令,这样就可以填补完成指令的空白工夫。

另一个是生成模型(LSTM),能更好了解场景,自动生成回复。正常的对话都不是单向的一问一答,小冰也会在适当的时分自动提供内容,并且能晓得在用户完成指令缄默几秒后自动完毕对话。如今运用了全双工语音AI已经渗透到了生活中的方方面面。在智能交通领域,人工智能技术也正在发挥作用。交互技术的微软小冰的一切回复都是本人生成的,有别于传统的基于模块、搜索来停止的回复。(关于微软全双工语音交互技术可以检查雷锋网此前报道:《 微软发大招:要做智商和情商兼具的语音助手 》

雷锋网在对谷歌Duplex的 技术解析文章 中也提到,Duplex的中心是一个RNN(循环神经)网络,由TensorFlow Extended(RFX)构建,谷歌用匿名的电话对话数据训练了Duplex的RNN网络,这个网络会运用谷歌自动语音辨认(ASR)的辨认后果文本,同时也会运用音频中的特征、对话历史、对话参数(比方要预定的效劳,以后工夫)等等。

谷歌AI打电话刷屏,微软坐不住了

输出语音先经过自动语音辨认零碎(ASR)处置,生成的文本会与上下文数据以及其它输出一同输出 RNN 网络,生成的应对文本再经过文本转语音(TTS)零碎读出来。

谷歌用的生成模型是RNN,而微软用的是LSTM,从体验来看,两者完成的效果很接近。跟Yeelight中的微软小冰对话时,能完成一次唤醒延续对话长达20分钟,有适当的语气词,能自动提供意料,自动完毕对话。

在谷歌I/O大会的最初一天,取得年度图灵奖的Alphabet新任董事长John Hennessy宣布:"在预定范畴,谷歌Duplex经过了图灵测试“。也就是说,目前谷歌Duplex与人类展开对话,人类无法辨认出其是机器人。这个音讯,的确令人振奋。与搭载了微软全双工语音交互技术的微软小冰相比,谷歌Duplex的一大特征是其声响和语调与真人简直分歧,这是他们破费了数月工夫采集真人声响训练而成的后果。

谷歌称,往年夏天会开端基于Google Assistant测试Duplex,从预订餐馆、预订发廊、讯问节假日的营业工夫这样的事项开端。而微软小冰则是将人工智能助手和聊天机器人结合起来,努力进入各个场景,包括传统电话、VoIP电话和智能音箱设备,微软小冰的车载路试也正在停止中。

rame width="640" height="498" frameborder="0" src="https://v.qq.com/iframe/player.html?vid=u0618nw1syf&tiny=0&auto=0" allowfullscreen="">rame>

(Yeelight微软小冰用户体验视频)

微软全双工语音技术曾经在做产品落地,却被还在测试中的谷歌Duplex抢占了热点,难免有一点焦急。

但是假如我们回想技术开展的历程,我们会记得,1844年,莫尔斯从从华盛顿到巴尔的摩拍发人类历史上的第一份电报,说的是:"上帝呀,你终究干了一些什么?”;1876年,贝尔创造世界上第一台电话,他说的第一句话““沃森先生,快来帮我”成为人类第一句经过电话传送的语音。但是,人工智能助手与人类的第一通电话显然就难以定义了,毕竟我们在人工智能的路途上,还有很长的路要走。

相关文章:

会打电话的 AI 面前:谷歌 Duplex 技术解析

微软发大招:要做智商和情商兼具的语音助手

谷歌AI打电话刷屏,微软坐不住了