农企新闻网

在输出法都打 AI 牌的年代,讯飞的先发优势还在不在?

发布者:高书
导读早在2016年10月锤子科技新品发布会上,讯飞输出法就因罗永浩的现场演示火了一把,老罗在现场用很快的语速随口说了一段内容,讯飞输出法霎时“打”出文字,辨认后果一字不差。事先,讯飞输出法的语音辨认率是 97%。而在昨天下午举行的讯飞输出法媒体见面会上,产品总监翟吉博宣布,这个数字变成了 98%。罗永浩引见讯飞输出法此外,据市场品牌担任人李强军引见,讯飞输出法用户规模打破6亿,语音输出月掩盖率达50%

早在2016年10月锤子科技新品发布会上,讯飞输出法就因罗永浩的现场演示火了一把,老罗在现场用很快的语速随口说了一段内容,讯飞输出法霎时“打”出文字,辨认后果一字不差。

事先,讯飞输出法的语音辨认率是 97%。而在昨天下午举行的讯飞输出法媒体见面会上,产品总监翟吉博宣布,这个数字变成了  98%

在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?

罗永浩引见讯飞输出法

此外,据市场品牌担任人李强军引见,讯飞输出法 用户规模打破6亿,语音输出月掩盖率达50% ,语音浸透率坚持逐年上升态势。

至于精确率能否可以到达 百分之百 ,讯飞输出法产品总监翟吉博的答复是 :技术上目前还做不到

首先,同音字是个难题,只能尽能够进步命中率,这也是为什么搜狗、百度、讯飞都要给输出法参加语音修正功用的缘由。其次,用户十分口语化的表达机器无法精准辨认,人机交互习气需求磨合。此外,喧闹环境下语音辨认会遭到环境音的影响。

在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?

讯飞输出法产品总监:翟吉博

技术:DFCNN语音辨认框架

在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?

讯飞输出法从人脑神经迷信动手对人类记忆停止仿生,完成少量无监视的数据去辅佐有人工标注的数据。受图像范畴 CNN 使用的启示,科大讯飞研发了深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)语音辨认框架,运用少量的卷积层直接将语谱图作为输出,相比传统语音特征作为输出,降低了信息损失,表达了语音的长时相关性。

同时,自创图像辨认中效果最好的网络配置,每个卷积层运用 3×3 的小卷积核训练更深的 CNN 模型,输入单元直接为最终的辨认后果(比方音节或汉字),将感知智能、认知智能等 AI 技术使用在输出法上,一分钟可辨认 400 字,并支持多语种实时语音翻译、超长语音输出、耳语输出、离线语音输出等功用。

特征:提出方言语音处理方案

在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?

关于口音和方言辨认的难题,讯飞输出法提出方言语音输出方案来处理。依托科大讯飞对 AI 技术及言语深度研讨的积聚,采用 Multi-lingual 多言语建模,经过多方言数据共享方式训练;辅以 Global Phone全球音素集,从声学层面的类似性一致各方言的音素定义,对方言“语图谱”模型做进一步精进,从而有针对性地提升方言语种的辨认才能。

目前讯飞输出法支持 22 种方言,其中粤语、四川话、西南话等辨认率均已超越 90%。2017年对外发起“方言维护方案”,树立“中国方言库”,积聚海量方言数据,让这些数据为深度学习提供素材。本月底,讯飞输出法将新增苏州话辨认,方言辨认语种将扩大至23种。

基于科大讯飞精简和优化的 Hybrid-随着流量往智能终端设备迁移,新的机遇“物联网商业社交时代”也将迎来,通过人的第六器官(智能手机)和智能设备终端的联网互动,从而改变了人的行为习惯和消费方式。线下流量通过LBS定位重新分配,又通过物联网终端智能推荐引擎引导到网上任意有价值的地方,至此互联网下半场拉开帷幕。DFCNN 全新语音辨认框架,6月底讯飞输出法将上线 Hyper-CNN语音新引擎,随之通用语音辨认精确率将绝对提升 15%,此外可以优化中英混合语音输出、粤语等重点方言、标点判别精确率,提升语音输出的体验。

重新定义键盘,新增面对面翻译和 OCR 拍照

在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?

在百度输出法的发布会上,AIG 担任人王海峰宣布了他对输出法的看法,以为即使如今有语音输出的加持,其实还缺乏够,将来的输出方式一定是 AI 加持的“全感官输出”。讯飞的判别是,输出法将不再局限于五笔、九宫格、二十六键、手写固定键盘形状,从而推出“莫得键盘”、“语音键盘”、“VG 语音交互面板”等人机交互形式。

莫得键盘即“没有”键盘,基于讯飞输出法智能语音技术,支持语音输出、语音口令控制,完成无键盘输出。为语音重度用户量身定制了语音键盘,出现便捷的语音输出形状,只凭一张嘴就能轻松打字、修正甚至自动加标点符号,不需学习其他技艺。基于智能语音使用,打造 VG(VoiceGame)语音交互面板,应用 AI 在交互层面停止了尝试。输出进程同等“玩游戏”,语速快慢、声响大小等直接表现了创意交互。

讯飞输出法将语音辨认、语音分解以及机器翻译等新技术交融在一同,新增面对面翻译,支持中文与英日韩俄多语种即时翻译,并且将面对面的交互方式引入语音翻译使用中。例如,在对话单方各讲母语时,另一方就会同步看到翻译后果。

基于用户刚需,新增了 OCR 拍照输出,可以辨认书本、路牌、名片等印刷体上的文字以及手写字体。手写辨认精确率也高达 90% 以上。

体验:语音辨认哪家强?

会后,雷锋网辨别试用了搜狗输出法和讯飞输出法。

在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?

讯飞语音可一次性不连续输出249个字,搜狗语音可输出221个字。全体来看,讯飞辨认率更高一些。

在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?

在对诗歌的辨认方面,两家输出法都有很好的表现。读者也可试试用本人家乡的方言,看看这些有 AI 加持的输出法能否精准辨认。

随着语音辨认技术的开展,能够将来我们真的不再需求用手打字,至于讯飞对将来人工智能语音输出的瞻望,翟吉博的答复是:“如今的产品在省时高效和足够复杂自然这些维度上并没有做到极致。假设有一天技术成熟了,我们经过意念或许脑电波输出文字,翻开微信,盯着屏幕看两秒,文字就收回去了,我想这会是一个愈加极致的输出法。”

AI普遍化后,讯飞需求寻觅新的差别点

据速途研讨院2017年调研数据显示,输出法市场上,搜狗以 63.6% 的市场份额遥遥抢先,接上去是百度和讯飞。王海峰说,百度输出法是百度 AI 技术使用的桥头堡,新的 AI 技术将会首先使用在输出法上。搜狗 CEO 王小川也表示将 AI 赋能晋级输出法列为搜狗 2018 年度 AI 战略之一,并且输出法不止可以打字,还将承载信息获取和流量分发。在输出法都打 AI 牌的年代,讯飞的优势何在?

在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?

对此,翟吉博在承受雷锋网 (大众号:雷锋网) 的采访时表示,讯飞不断以来聚焦于语音输出,关于语音输出的用户场景体验和将来开展有着更深的了解。此外, 在语音技术方面继续创新,会不断寻觅新成绩并用技术和产品设计处理。“我们永远是往前多走一步,继续探究。”

但是,据雷锋网理解,目前用户的输出习气次要还是以拼音输出为主。速途研讨院的数据显示,六成多的用户还是选择拼音输出,其中九宫格拼音输出最接近用户的输出习气,可以单手掌控输出。

随着技术的开展,语音转化成文字的正确率越来越高,选择语音输出的用户在不时增多。关于语音输出,讯飞输出法支持 22 种方言,百度输出规律提供了语音翻译,支持 28 种高频次言语同声传译。


在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?

目前输出法市场格式构成了一超多强的场面,搜狗输出法临时坚持市场第一,且不时开展。百度输出法借AI 之力踌躇不前,讯飞等输出法也在不时差别化,努力增强特性化特征功用。在辨认率方面,头部厂商在语音辨认精确率上均到达 97% 以上的高水准,而百度和搜狗都拥有得天独厚的庞大搜索数据库为深度学习算法提供燃料,语音输出用户习气的养成却尚待时日,主打 AI 语音辨认的讯飞,能够还需求再持续探究其他差别化战略。

相关文章:

讯飞输出法3.0: 支持英语语音输出

讯飞输出法iOS 6.1完满适配版放出

CNCC 2016 | 搜狗 CEO 王小川:输出法的将来是自动问答

为iPhone X加点料,搜狗输出法iOS新版上线

百度输出法 8.0 版本上线,王海峰称其是“百度 AI 的桥头堡”

搜狗输出法医生版上线,处理医生群体打字难成绩

在输入法都打 AI 牌的年代,讯飞的先发优势还在不在?