10 年前电影《钢铁侠》上映,影片中那个能协助主人翁 TonyStark 处置各种事物、计算各种信息的智能管家 Jarvis,凭仗着流利无障的人机对话、近乎无所不能的技艺、具有人格和独立思想等理想的设定,成为了不少人对 AI 助手的完满假想对象。
是的,在科幻作品历来都不缺乏想象力,回想起晚期标榜科幻的动漫作品《人型电脑天使心》,异样也为我们描画了一个愈加理想化的 AI 世界:AI 变成人型具象的产品形状,来效劳人类。
当然,以上只是科幻作品关于 AI 所停止的畅想,间隔理想生活仍有十分大的差距,不过一局部在过来曾被以为是科幻情节的功用,例如语音助手,其实曾经在智能手机、智能音箱等产品上出面了。
虽然它们不能做到像 Jarvis 那样将自主见识转移到云端,从而变得无处不在;也不能做到像人型电脑那般拟人仿真,但作为一个搭载智能语音助手的产品,它们根本也能完成用户在日常生活中指派的少数命令。
(图自: TechHive )
相比起智能手机,在销量上还缺乏以被称得上是「爆款」的智能音箱,近年来反而变成了被越来越多企业寄予厚望的 AI 「新容器」,在现今的智能音箱范畴里,不只有硅谷科技巨头的风向指引,还有一局部国际创业团队全力押注。
虽然智能音箱的存在感正在逐步变得越来越分明,但有不少用户反应,现阶段的智能音箱依然无法勾起他们的购置愿望。
不过,这成绩究竟出在哪里?
这能够是「落差感」的锅
后面之所以提到科幻作品中 AI 的情节与理想中 AI 状况的比照,其实我想顺延上去表达一个点—落差感。实践上,大少数用户在买智能音箱之前和买智能音箱之后,往往都会构成这样一个十分分明的反差:
买之前:这些功用看上去好方便、好好用!
买之后:用起来仿佛也就那样…
假如将智能音箱带来的这个落差感从运用体验的角度再进一步剖析并拆分,我们根本上可以总结出培养这种反差感受的几个细分点。
功用并非刚需
如今的智能音箱在功用上根本都迥然不同,它们大多都是以播放音频内容作为中心,并在语音交互的根底上,拓展了聊天、控制智能家居、查询天气、讲笑话、查交通、定闹钟等方面的功用。
XX,帮我设一个 7 点的闹钟。
XX,播放一首周杰伦的歌。
XX,明天需求带雨伞吗?
…
实践上,关于用户来说,这些功用并非刚需,况且一局部智能手机曾经兼具了语音助手,透过这些智能手机,你也能取得类似的功用和体验。
(图自: Tata CLiQ )
不懂人意,答非所问
与宣传视频中描画的美妙现象不同,在实践体验中,语音辨认率和句意了解依然是障碍用户取得良好运用体验方面的妨碍之一。
首先是语音辨认率,我想很多用户在屡次唤醒智能音箱得逞,或音箱屡次无法精确辨认出指令后,应该会对智能音箱的兴味减掉了一大半。
其次是句意了解的成绩,在某些时分,大少数智能音箱其实是不能听懂你的意思的。一旦发问句式变得复杂、句子构造与智能音箱预设不符,那么它很容易将你的指令变成搜歌或搜索网页的关键词。
不具有「流利」的对话才能
也正由于它不懂人意、答非所问,并且它呼应速度慢、每次承受指令前,都需求唤醒词唤醒。因此这些成绩所带来的中缀感和方便,就让你很难与智能音箱展开一次流利的对话。
而且,目前还有蛮多的智能音箱并不支持聊天内容上下文关联,复杂来说,就是智能音箱曾经记不住你上几句话说了什么。
AI 仍需求用户帮助培育
实践上,如今的智能音箱产品还不能做到真正的「智能」。它需求持续积聚用户的数据,并经过剖析用户的运用状况,逐渐完善其智能性,这样它才干在你需求的时分,变得绝对更懂你。
从这一进程到真正成熟,能够需求绝对漫长的工夫,而这关于购置了产品的用户来说,能够不是一件能承受的事情。由于这样便会在他们的客观印象中,留下一个智能音箱技术不成熟、不适用的烙印。
用户希望从智能音箱中取得什么呢?
外媒 Forbes 曾在《 解释人工智能重要性的关键定义 》一文中提到,人工智能的定义曾经逐步从传统字面上的了解转变为 3 种试图完成的形状:
- 构建与人类思想方式相近的零碎(强 AI)
- 只会执行而不懂人类思想方式的零碎(弱 AI)
- 基于人类思想方式作为模板,但最终不时退化和开展的零碎
假如从上述的概念看,现阶段的智能音箱应该是属于第二种弱 AI 的范围内,它们不具有独立的思想,无法推测用户的想法,并且只会执行预设的指令。
关于这种水平的 AI 智能音箱,其实指望它能像 Jarvis、人型电脑那样知你懂你,是不理想的。不过,回归到实践需求下去看,用户希望从智能音箱中取得什么呢?假如将下面列出的这些成绩归结总结起来,大致能得出两个方面的需求,一个是要足够智能,另一个是技艺和效劳要多。
要足够智能
这里又可以拆分为两局部:一个是智能音箱要「知你懂你」,另一个是尽能够地想你所想。
「知你懂你」这里所说的含义,是指音箱可以晓得你说的指令,并懂你想表达的意思。复杂来说,就是语音辨认精确率和句意了解才能。
之前在我体验渡鸦 Raven H 智能音箱的时分,它的语音辨认精确率就让我称心:即使是用 80% 的音量播放音乐、离 Raven H 相距 3 米左右的间隔时,它都能呼应到,并精确辨认出语音指令。
而说到句意了解才能这一块,目前大少数智能音箱依然限制在预设句式的条条框框之中。
但实践上「知你懂你」这个成绩,曾经随着公用语音芯片的逐渐成熟以及语音交互生态的支持,可以从基本改善这个方面的体验。
至于想你所想,其实就是经过理解用户的运用习气来,来提早预知用户的需求。如今大少数智能音箱还不具有这样的才能,那么有没有处理的办法?渡鸦运用了一种「非智能」的方式来处理这个成绩。
在 Raven H 上,渡鸦提供了一个 Flow 的功用,经过用户手动事后设置后, Raven H 会在每天闹钟提示后,自动播报当天的天气、路况、限行以及你的日程布置。
虽然这离真正的想你所想还有蛮大的差距,但最少在 AI 技术还不够成熟的时分,这也算是一种折中的方案。
技艺和效劳要尽能够多
在运用各种不同的智能音箱后,它们留给我印象最深的并不是那些像播放音乐、查天气、讲笑话等根底功用,而是它们的技艺与效劳所带来的延伸功用。
例如,我就记住了天猫精灵 X1 可以点外卖、充话费;小米 AI 音箱和渡鸦 Raven H 可以查找手机…
虽然这当中某些技艺和效劳,未必是每个用户最需求、最适用的功用,但在根底功用体验拉不开较大差距的智能音箱范畴,这些小技艺和效劳,反而是一款智能音箱相较于其他竞品独有的小优势。
实践上,作为参照对象的亚马逊 Echo 智能音箱,它在刚开端面世的时分音质普通智能缺乏,但是随着亚马逊不时让其学习更多的技艺,于是它终成标杆。
其中 Echo 应用技艺和效劳所做到了的一个优势,便是将功用延伸到更多的智能家居设备上,并与它们树立起联动性。
而在联动智能家居这方面,爱范儿(ID:ifanr)此前体验苹果的样板房时,就曾经感遭到这方面的便当性。事先,苹果还未推出智能音箱 HomePod,掩盖了不少 HomeKit 设备的样板房仍以 Apple TV 或 iPad 作为智能家居的中枢。
但运用 Apple TV 控制又有些繁琐,iPad 又因随身携带的几率高而容易得到对智能家居中枢的近程控制。这个时分,音箱就是这个场景下最佳的处理方案。
毕竟,用户面对的都是一些逻辑复杂的操作,如控制设备开关和调整温度。这些经过语音就可以操控,两头也不需求屏幕的参与。在这个形态下,用户只需求一个可联网、带智能助手的音箱就可以处理成绩。
因而,尽能够多地扩展智能音箱的技艺和效劳,也是智能音箱一个关键的点。
总的来说,作为一种基于弱 AI 形状的产品,智能音箱的实质其实还只是生活中的一种「辅佐」工具,但这也不是说,它就没有成为生活必需品的潜质。随着 AI 技术的不时开展,硬件芯片的功用逐步完善、语音辨认等中心技术获得打破以及智能家居的普及,可以预见的是,像智能音箱这样的产品将会渐渐变得成熟、牢靠,并且更好地为我们的生活效劳。
指不准,将来的智能音箱形状就真的会变成一个无处不在的 Jarvis,或是一位人型电脑呢?
题图自: SailorBomber – DeviantArt