语音辨认如今开展到什么阶段了？

2026-07-17 09:23:43

导读在人工智能疾速开展的明天，语音辨认开端成为很多设备的标配，语音辨认开端被越来越多的人关注，国外微软、谷歌、Facebook，国际的科大讯飞、思必驰等厂商都在研发语音辨认新战略新算法，明天小编就将为你做语音辨认技术的复杂引见，并谈谈它的开展历程和将来能够的开展方向。在电影《钢铁侠》中，智能助理贾维斯的出色表现让大家充溢了对智能语音助手的等待。语音辨认技术就是为了让机器人听明白你在说什么，它就好比“机

在人工智能疾速开展的明天，语音辨认开端成为很多设备的标配，语音辨认开端被越来越多的人关注，国外微软、谷歌、Facebook，国际的科大讯飞、思必驰等厂商都在研发语音辨认新战略新算法，明天小编就将为你做语音辨认技术的复杂引见，并谈谈它的开展历程和将来能够的开展方向。

语音识别现在发展到什么阶段了？

在电影《钢铁侠》中，智能助理贾维斯的出色表现让大家充溢了对智能语音助手的等待。语音辨认技术就是为了让机器人听明白你在说什么，它就好比“机器的听觉零碎”，该技术让机器经过辨认和了解，把语音信号转变为相应的文本或命令。

语音辨认零碎实质上是一种形式辨认零碎，包括特征提取、形式婚配、参考形式库等三个根本单元，它的根本构造如下图所示：

语音识别现在发展到什么阶段了？

语音辨认零碎构建进程全体上包括两大局部：训练和辨认。 训练通常是离线完成的，海量未知语音经过话筒变换成电信号后加在辨认零碎的输出端，首先经过预处置，再依据人的语音特点树立语音模型，对输出的语音信号停止剖析，并抽取所需的特征，在此根底上树立语音辨认所需的模板;而辨认进程通常是在线完成的，对用户实时的语音停止自动辨认。辨认进程通常又可以分为“前端”和“后端”两大模块：“前端”模块次要的作用是停止端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是应用训练好的“声学模型”和“言语模型”对用户说话的特征向量停止统计形式辨认(又称“解码”)，失掉其包括的文字信息。

语音识别现在发展到什么阶段了？

现实上，语音辨认60多年的开展进程可以分红多个阶段。 晚期的20多年，即从20世纪50年代到70年代，是迷信家们走弯路的阶段，全世界的迷信家以为必需先让计算机了解自然言语，也就是用电脑模仿人脑，这20多年的研讨效果近乎为零。

直到1970年后，统计言语学的呈现才使语音辨认重获重生，并获得了明天的特殊成就。推进这个技术道路转变的关键人物是德里克・贾里尼克。采用统计的办法，IBM将事先的语音辨认率提升到了90%，同时语音辨认的规模从几百单词上升到几万单词，这样语音辨认就有了从实验室走向实践使用的能够。

首先，我们晓得声响实践上是一种波。罕见的mp3等格式都是紧缩格式，必需转成非紧缩的纯波形文件来处置，下图是一个波形的示例。

语音识别现在发展到什么阶段了？

要对声响停止剖析，就需求对声响分帧。也就是把声响切开成一小段一小段，每一小段称为一帧，如上图25ms为一帧。

语音辨认的任务可以分为三步：第一步，把帧辨认成形态；第二步，把形态组分解音素；第三步，把音素组分解单词。

如下图所示：

语音识别现在发展到什么阶段了？

如上图，每个小竖条代表一帧，若干帧语音对应一个形态（如S1029），每三个形态组分解一个音素（如ay），若干个音素组分解一个单词。也就是说，只需晓得每帧语音对应哪个形态了，语音辨认的后果也就出来了。这个“对应”进程就需求用到统计言语学。比方每帧音素对应哪个形态呢?有个容易的方法：看某帧对应哪个形态的概率最大，那这帧就属于哪个形态；这也就是察看概率。此外，还包括：转移概率（每个形态转移到本身或转移到下个形态的概率），言语概率（依据言语统计规律失掉的概率）。

其中，前察看概率和转移概率从声学模型中获取，最初一种概率从言语模型中获取。言语模型是运用少量的文本训练出来的，可以应用某门言语自身的统计规律来协助提升辨认正确率。这样根本上语音辨认进程就完成了,这就是语音辨认技术的原理。

20世纪80年代当前，语音辨认研讨的重点则逐步转向大词汇量、非特定人延续语音辨认。20世纪90年代当前，在语音辨认的零碎框架方面并没有什么严重打破，直到大数据与深度神经网络时代的到来。

语音识别现在发展到什么阶段了？

任何技术都有蓄能阶段和迸发阶段，语音辨认技术的迸发是源于大数据，随同互联网呈现的涟漪效应和深度神经网络。 涟漪效应，指把研讨层、产品和用户运用组合在一同，构成一个闭环的迭代优化，这是互联网思想在中心技术优化和打破所发扬作用的一种表达。经过这种方式不只可以获取数据，还能学习经历、看法以及怎样运用等，比方说调整哪些东西让用户体验得更好。

语音识别现在发展到什么阶段了？

在大数据时代到来后，隐马尔可夫模型呈现了局限，即数据量提升时，它带来的表现提升没有深度神经网络那么大。 在异样具有涟漪效应的状况下，深度神经网络比之前的算法好，数据越多，深度神经网络的效果更好。深度神经网络由GeoffreyHinton与微软的邓力研讨员最先开端做。

虽然目前的语音辨认技术曾经可以让机器听懂大局部人类的声响，但离“贾维斯”这种假想的超级智能助理的交互才能还很远。语音辨认技术的开展方向将从辨认到感知认知。

例如，研讨者正在努力任务以确保语音辨认能在更为真实生活的环境中良好地任务。这些环境包括具有很多背景噪声的中央，比方聚会场所或在高速路上驾驶的时分。他们也将关注如何更好地在多人交谈环境中将不同的说话人区分开，不论说话人的年龄、口音或说话才能。例如谷歌近期发布了一项研讨效果：可以从喧闹的环境中别离出单团体的声响。

从更久远来看，研讨者将会关注如何教计算机不只是转录来自人类嘴巴的声响信号，而是回到20世纪50年代到70年代语音辨认范畴专家的最后想象：让计算机了解自然言语，用电脑模仿人脑。让机器可以依据本人原告知的内容答复成绩或采取举动。

语音识别现在发展到什么阶段了？

5月25日，相约北京·千禧酒店，与安防行业大咖共话安防AI创新！呈献一场安防行业千人盛宴。

在这里，安防巨头厂商海康、大华、宇视将论述安防产品AI创新；CV新秀商汤、旷视、依图、云从、云天励飞将引见创企如何抢占市场树立壁垒；投资机构真格、明势、IDG、高榕将共谈最受资本喜爱的公司当具有哪些特质；还有中科院威望专家，将带来AI以及各种生物辨认的最前沿科技。

仅剩200张门票，理解大会概况及抢票请戳： GIIS 2018·安防AI创新峰会

免责声明：本文章由会员“金阳远”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：