专访鄢志杰：阿里片面进军 IoT，语音交互能做什么、将做什么？

2026-07-16 06:22:00

导读在 3 月底的云栖大会上，阿里云总裁胡晓明在会上做出战略宣布：阿里巴巴片面进军 IoT。这是继电商、金融、物流、云计算之后的一条新的主赛道。阿里巴巴希望数字化整个物理世界，并作为 IoT 根底设备的搭建者而存在。这样一层「新身份」也让不少人为之振奋，以为「5 年内 100 亿设备」的将来将成为阿里云 IoT 事业部总经理库伟所说的「万物智联」的全新世界。在阿里巴巴这样的企业战略规划之下，以语音交互

在 3 月底的云栖大会上，阿里云总裁胡晓明在会上做出战略宣布：阿里巴巴片面进军 IoT。这是继电商、金融、物流、云计算之后的一条新的主赛道。

阿里巴巴希望数字化整个物理世界，并作为 IoT 根底设备的搭建者而存在。这样一层「新身份」也让不少人为之振奋，以为「5 年内 100 亿设备」的将来将成为阿里云 IoT 事业部总经理库伟所说的「万物智联」的全新世界。

在阿里巴巴这样的企业战略规划之下，以语音交互智能实验室为代表的众多研讨部门如何明白本人的定位，并助力阿里巴巴更好地领跑这一赛道，也成为一个亟待解答的成绩。

在 3 月底举行的首届 AITech 峰会上，阿里巴巴达摩院-机器智能技术研讨院的语音交互智能实验室首席迷信家鄢志杰做了题为《IoT 时代的语音交互智能》的主题演讲。

专访鄢志杰：阿里全面进军 IoT，语音交互能做什么、将做什么？

图via 新一代人工智能联盟

计算是心脏，AI 是大脑，IoT 是神经；这是阿里巴巴数字化进程中发扬重要作用的三个「器官」。那么作为「阿里集团乃至蚂蚁金服语音技术的研讨开发和产品部门」，鄢志杰所在的语音交互智能实验室在 IoT 中担任怎样的角色？

移动互联网在带来全新社交体验的同时，也或多或少使人们产生了依赖。移动互联网使网络、智能终端、数字技术等新技术得到整合，建立了新的产业生态链，催生全新文化产业形态。

鄢志杰以为， 语音是最自然的与 IoT 交互的方式。 首先它无需学习。用言语交流是人类所具有的一种共同才能；其次，语音「hands-free」、「eyes-free」的特点也让教育用户的本钱简直可以降到最低。

「语音交互智能是 AI 与群众最近的接触。」 鄢志杰如是说。不管是 BB-8 还是 R2-D2，能与机器顺畅自在地交流不断是科幻作品的美妙想象。得益于 AI 近年来的打破性停顿，以语音、计算机视觉为代表的感知智能；与语义了解、语义生成的认知智能，技术的飞跃有目共睹。

在近年来，业界也推出了以聊天机器人、智能音箱为代表的语音交互产品，也让这一愿景不再悠远。而智能语音交互也已跨越了「能用」的根本诉求，正在逐渐向「好用」迈进。

阿里巴巴的语音交互智能实验室也正在尝试架起「人机交互」和「特性化效劳」的桥梁。而上升到技术层面来总结， 语音交互智能将成为 IoT 与互联网内容和效劳的桥梁。

以 NUI 自然交互平台为例，背靠「云+端根底设备」和相应的开发者社群，语音交互智能得以从意图了解、对话管理、问答零碎、聊天零碎、引荐广告和数据闭环展开对自然输出输入的技术发现，并衔接不同的功用选项（如出行、购物、天气等）和相应的 IoT 设备（如手机、汽车等）。

而从语音交互智能实验室的研讨切入点来剖析，一个完好的交互进程有两个次要环节，语音进和语音出。

从用户说第一句话开端，首先触及的是麦克风采集传感器的硬件技术，到麦克风阵列的信号处置；在明晰采集到语音信息之后，零碎需求对语音停止正确辨认；再者，对语义做出正确的判别和了解，并结合用户的需求获取相应的回复；最终，分解语音达成输入，反应给用户。鄢志杰还补充道，话题面前的相关数据积聚，也作为整个交互进程的一个调用环节而存在。

语音交互智能实验室每半年会迭代一次声学模型，原来的 BLSTM（双向长短时记忆单元，Bidirectional LSTM）到后来的 Low frame rate latency controlled 的 BLSTM，在精度上曾经有了很大飞跃。而往年行将在国际声学会议 ICASSP 2018 上做 oral 报告的 DFSMN（深度前馈序列记忆网络）。DFSMN 运用基于 BLSTM 的统计参数语音分解零碎作为基线零碎，采用普遍运用的腾跃衔接技术，在执行反向传达算法时，梯度可以绕过非线性变换。鄢志杰通知雷锋网 AI 科技评论，这一技术曾经在阿里巴巴的实践业务中发光发热。

除了典型的 IoT 产品，如天猫音箱、荣威智联网汽车、天猫盒子、海尔人工智能电视外，鄢志杰还提及了 IoT 在公共场所效劳上的使用案例。去年 12 月，上海地铁与阿里云携手推出了上海地铁语音售票机。

专访鄢志杰：阿里全面进军 IoT，语音交互能做什么、将做什么？

实际要使用到 IoT 实践层面，也有着不少门槛和妨碍。在实践生活的体验和接触中不难发现，市面上的语音交互产品多使用于家庭、办公等安静场景中，强乐音场景下的技术落地存在诸多难点。

首先是辨认「谁在说话」的成绩。语音交互智能实验室结合摄像头带来的视觉数据，结合语音输出的信息，可以进一步确认说话者及相应的指令。视觉和语音的多模态交互配合可以让辨认率愈加精准，进一步提升强乐音场景的使用才能。
处理了「谁在说话」的成绩，下一步则是更好地保证语音输出的信息完好。在排队买票的进程中，如何精准辨认买票者的语音信息，而尽能够防止前方排队者带来的噪声搅扰，也是困扰语音交互智能实验室的又一成绩。经过改造麦克风阵列的平面规划，将关注点更多地定位在站在售票机前说话者身上，则成为理解决这一办法的无效手腕。

而相应地，上海地铁的硬件设备也停止了一次「大改造」，添加了光学摄像头及面板面前的麦克风阵列，这也触及与以传感器为代表的硬件厂商的协作。

鄢志杰也对雷锋网 (大众号：雷锋网) AI 科技评论表示，从 IoT 的层面上看，语音交互智能实验室能够本来只需求研讨纯软件的技术，但进军 IoT 赛道后，包括机器智能技术研讨院都要下沉到硬件，团队的扩张有很大一局部源于声学硬件人才的加盟，如雷锋网 AI 科技评论已经采访过的冯津伟博士。

但不可无视的一个现状是，语音尚未成为主流的交互方式。鄢志杰常常在外部分享提一句话， 「明天语音交互技术的真实程度，与用户的等待、业界的 PR 存在分明的鸿沟。」 针对这一点，鄢志杰以为能够有两个方式可以去着力。

首先是良好的交互设计。

交互设计自身是一门迷信，它可以经过用户调研将客观的体验观感转化为客观的目标。这样一来，即便技术程度在短工夫内无法有大的提升，但可以以巧妙的方式将技术的缺陷掩盖过来。在《夏洛特懊恼》里有一个情节，沈腾通知老大爷，本人要找马冬梅。老大爷没听清，反问，「马什么梅」。这就是一个典型的交互案例。

假如零碎在辨认时没有完全听清，对正确了解用户的意图没有掌握时，聪明的交互设计可以选择防止让用户直接反复所说过的话，而是换一种角度让用户再次重申本人的意图。

其次是如何找到使用场景，经过无效（useful）的交互后果让用户发生良好的反应（reward），并最终培育用户习气。

在汽车内的语音交互就是一个重要的强场景。在车载零碎上用语音输出想去的地点，在技术成熟度和交互体验上都有了极大的提升，这也促使了正循环，逐渐淘汰原有的键盘输出方式。如何畅想 IoT 能够与语音交互发生关联的场景？鄢志杰表示，「当万物互联，或许说万物智联真正走向纵深，在你一天所能够接触的任何场景都一定会有相应的 IoT 设备。」

从商业化的角度来看，在 IoT 时代下的语音交互智能，需求将互联网内容和效劳经过 IoT 触达用户构成商业闭环，并做好端和云的规划。

鄢志杰也在会上提及了阿里巴巴的研讨与理论，次要分为三个方面。

构建有深度、全链路、多模态的关键技术栈；
其次，产出低本钱、易复制的智能化 IoT 方案；
再者，以打造标杆硬件为「手腕」，以根底平台建立为「目的」。天猫音箱等产品和 NUI 自然交互平台就是明证。

鄢志杰重复重申的多模态交互概念，也让语音交互智能实验室不再局限于语音层面。这也就意味着，它与其他技术团队的交流也会变得越来越频繁和深化。鄢志杰表示，目前次要协作较多的还是计算机视觉团队和用户体验的团队。在将来，交融表情、举措等包含高语境的模态辨认，或许也会成为人机交互的一个重点攻关方向。

在此，援用鄢志杰在年终的技术预测做为开头：

「从 2018 年开端，人类与机器的交互方式将开端彻底摆脱任何方式的交互界面，变得更接近人与人的交互。这面前是对听觉、视觉、触觉，甚至味觉等多模态技术的片面交融。机器将能感知到人类在语气语态、肢体举措、面部表情等更丰厚的表达方式，从而更智能的了解人类的意图。生活空间、交通空间、任务空间将是三个首先落地范畴。」

附鄢志杰简介：

阿里巴巴达摩院-机器智能技术研讨院语音交互智能实验室首席迷信家。在 2015 年参加阿里巴巴前，就职于微软亚洲研讨院，任语音组主管研讨员。毕业于中国迷信技术大学讯飞语音实验室，获博士学位。研讨范畴次要包括语音辨认、语音分解、说话人辨认验证、OCR/ 手写辨认、机器学习算法等。在语音及文本辨认范畴顶级学术期刊及会议宣布多篇论文，临时担任语音范畴顶级学术会议及期刊的专家评审，并拥有多项美国及 PCT 专利，目前是 IEEE senior member。

。

免责声明：本文章由会员“马楠华”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：