谷歌AI打电话刷屏，微软坐不住了

2026-07-15 20:07:19

导读雷锋网按：这些天，谷歌AI冒充真人打电话在冤家圈大火，可以说谷歌很成功地制造出了一次热点话题。但是，这可忙坏了微软集团的公关们，不得不赶忙发技术声明表示微软早已完成了AI与真人通电话。美国工夫5月8日，谷歌在2018年度开发者大会（Google I/O 2018）上引见了智能语音助手Google Assistant中新添加的Duplex，它可以本人给饭馆、发廊等商业店面打电话，帮用户预定工夫。我们

雷锋网按： 这些天，谷歌AI冒充真人打电话在冤家圈大火，可以说谷歌很成功地制造出了一次热点话题。但是，这可忙坏了微软集团的公关们，不得不赶忙发技术声明表示微软早已完成了AI与真人通电话。

美国工夫5月8日，谷歌在2018年度开发者大会（Google I/O 2018）上引见了智能语音助手Google Assistant中新添加的Duplex，它可以本人给饭馆、发廊等商业店面打电话，帮用户预定工夫。我们再来看看I/O 大会现场的演示视频：

rame width="640" height="498" frameborder="0" src="https://v.qq.com/iframe/player.html?vid=l0648cq583e&tiny=0&auto=0" allowfullscreen="">rame>

AI助手与人交流、完成指令曾经不是新颖事。假如你常常跟Siri对话，或许你有一台天猫精灵、小爱同窗等智能音箱，你会发现，跟AI对话真实是太费力。你需求字正腔圆，还要一次次地说唤醒词，无法完成延续对话。

Duplex让人感到诧异的是：它不只用自然流利的语音和电话另一头的人类完成了交流，且对方基本没无意识到打电话来的竟然是个[ AI ]。这是由于谷歌Duplex完成了延续对话、参加了人在对话中通常会用的语词助词"emm"、“uha”等、能了解对话的上下文，此外还具有了自动提供语料的功用。

这样的双向对话，不断是微软、苹果、亚马逊、Facebook这些做对话式人工智能的公司们努力的方向。谷歌这次放了个大招，取得了很高的关注，微软显然坐不住了，赶忙站出来说，且慢，我们才是先完成这项技术打破的。

关于这件事，微软在昨天发了一篇技术声明。以下为声明全文：

全双工语音技术（Full Duplex）的意义在于，它可以使“人机交互”退化为“人机交流”。一字之差，价值宏大。

往年4月4日，我们正式在美国和中国同步发布了Full Duplex感官，并预言行业将认识到这一技术的价值，放慢向这一方向集中。我们很快乐看到越来越多的同行业者参加。

其实，人类历史上第一次与人工智能停止全双工语音电话，并不是发作在美国，而是发作在中国。我们很荣幸能将这一桂冠贡献给祖国。自2016年8月起，微软（亚洲）互联网工程院经过人类用户自动发起的方式，已让小冰与人类用户累计完成了超越60万通电话。

明天，我们发布其中一通发作在两年前的实践电话录音，将之作为珍贵的材料，贡献给全世界说中文的华人。

rame width="640" height="498" frameborder="0" src="https://v.qq.com/iframe/player.html?vid=m0650193hg9&tiny=0&auto=0" allowfullscreen="">rame>

而这一技术也曾经完成产品落地。两年来，正是在人类的训练下，小冰已完成不局限于任何封锁域，而是可针对开放域停止全双工语音对话。目前，微软已落地的对话场景包括传伴随着互联网和移动生活的日趋成熟，芝麻信用高分和良好的个人征信记录，不仅可以办理贷款、申请信用卡延伸你的财富，更能大大便利我们的生活。统电话、VoIP电话和智能音箱设备，微软小冰的车载路试正在停止中。

假如您想要体验Full Duplex全双工语音，不需等候数周，明天就能。在微软小冰已落地的产品中，我们引荐您运用我们与小米协作的米家生态链Yeelight智能硬件产品。在随附的用户真实运用视频中，您将领会到：

• 一次唤醒之后的延续对话

• 微软小冰对用户的预测模型

• 协助用户轻松完成多重担务

• 小冰的内容发明才能

• 以及最重要的：人机情感交流

人工智能时代已来，让我们继续创新。

微软的声明中，雷锋网发现了三个关键点：首先，在技术层面上，微软在往年4月4日正式发布了“全双工语音交互”技术；其次，在事情现实上，微软在两年前就完成了AI与人类通电话；最初，在产品落地上，微软的全双工语音交互曾经具有多个场景，且搭载全双工语音交互技术的微软小冰曾经呈现在智能音箱——米家生态链Yeelight智能硬件产品中。

微软所说的全双工语音交互技术（Full-Deplex Voice）与谷歌Duplex的技术框架和完成的功用应该是相似的。

微软对“全双工语音交互技术”的定义是：与既有的单轮或多轮延续语音辨认不同，这项新技术可实时预测人类行将说出的内容，实时生成回应并控制对话节拍，能了解对话场景在诉说者/倾听者之间完成角色转变，还可以辨认说话人的性别、有几团体在说话。

也就是说，与只能完成单轮的语音的智能语音助手不同，能延续对话的全双工语音交互能完成和人类双向交流，而这种双向交流最罕见的场景则是通电话。由于通电话是一个在短工夫内继续对话的进程，对通话单方的即时反响要求最高。

在3月28日，微软也在北京召开了媒体交流会，详细引见过”全双工语音交互技术“。

雷锋网 (大众号：雷锋网) 理解到，全双工语音交互面前次要有两个关键技术：一个是预测模型，完成边听边想；例如，当用户说出一句话的时分，小冰会先答复“嗯，你说”，然后再去完成指令，这样就可以填补完成指令的空白工夫。

另一个是生成模型（LSTM），能更好了解场景，自动生成回复。正常的对话都不是单向的一问一答，小冰也会在适当的时分自动提供内容，并且能晓得在用户完成指令缄默几秒后自动完毕对话。如今运用了全双工语音AI已经渗透到了生活中的方方面面。在智能交通领域，人工智能技术也正在发挥作用。交互技术的微软小冰的一切回复都是本人生成的，有别于传统的基于模块、搜索来停止的回复。（关于微软全双工语音交互技术可以检查雷锋网此前报道：《微软发大招：要做智商和情商兼具的语音助手》

雷锋网在对谷歌Duplex的技术解析文章中也提到，Duplex的中心是一个RNN（循环神经）网络，由TensorFlow Extended（RFX）构建，谷歌用匿名的电话对话数据训练了Duplex的RNN网络，这个网络会运用谷歌自动语音辨认（ASR）的辨认后果文本，同时也会运用音频中的特征、对话历史、对话参数（比方要预定的效劳，以后工夫）等等。

谷歌AI打电话刷屏，微软坐不住了

输出语音先经过自动语音辨认零碎（ASR）处置，生成的文本会与上下文数据以及其它输出一同输出 RNN 网络，生成的应对文本再经过文本转语音（TTS）零碎读出来。

谷歌用的生成模型是RNN，而微软用的是LSTM，从体验来看，两者完成的效果很接近。跟Yeelight中的微软小冰对话时，能完成一次唤醒延续对话长达20分钟，有适当的语气词，能自动提供意料，自动完毕对话。

在谷歌I/O大会的最初一天，取得年度图灵奖的Alphabet新任董事长John Hennessy宣布："在预定范畴，谷歌Duplex经过了图灵测试“。也就是说，目前谷歌Duplex与人类展开对话，人类无法辨认出其是机器人。这个音讯，的确令人振奋。与搭载了微软全双工语音交互技术的微软小冰相比，谷歌Duplex的一大特征是其声响和语调与真人简直分歧，这是他们破费了数月工夫采集真人声响训练而成的后果。

谷歌称，往年夏天会开端基于Google Assistant测试Duplex，从预订餐馆、预订发廊、讯问节假日的营业工夫这样的事项开端。而微软小冰则是将人工智能助手和聊天机器人结合起来，努力进入各个场景，包括传统电话、VoIP电话和智能音箱设备，微软小冰的车载路试也正在停止中。

rame width="640" height="498" frameborder="0" src="https://v.qq.com/iframe/player.html?vid=u0618nw1syf&tiny=0&auto=0" allowfullscreen="">rame>

（Yeelight微软小冰用户体验视频）

微软全双工语音技术曾经在做产品落地，却被还在测试中的谷歌Duplex抢占了热点，难免有一点焦急。

但是假如我们回想技术开展的历程，我们会记得，1844年，莫尔斯从从华盛顿到巴尔的摩拍发人类历史上的第一份电报，说的是："上帝呀,你终究干了一些什么?”;1876年，贝尔创造世界上第一台电话，他说的第一句话““沃森先生，快来帮我”成为人类第一句经过电话传送的语音。但是，人工智能助手与人类的第一通电话显然就难以定义了，毕竟我们在人工智能的路途上，还有很长的路要走。

会打电话的 AI 面前：谷歌 Duplex 技术解析

微软发大招：要做智商和情商兼具的语音助手

。

免责声明：本文章由会员“马阳远”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：