微软研讨员提出多束深度吸引子网络，处理语音辨认“鸡尾酒会成绩”

2026-07-16 12:54:11

导读或许这也是一种办法论：当针对一个成绩有多种办法时，无妨将它们综合起来，或能取各家之长，补各家之短。本文所要引见的任务正是采用了这种思绪，在语音辨认的鸡尾酒会成绩上获得了较大的打破。雷锋网(大众号：雷锋网)AI 科技评论按：近日来自 Microsoft AI and Research 的研讨员在 arXiv 上贴出一篇论文《Cracking the cocktail party problem by

或许这也是一种办法论：当针对一个成绩有多种办法时，无妨将它们综合起来，或能取各家之长，补各家之短。

本文所要引见的任务正是采用了这种思绪，在语音辨认的鸡尾酒会成绩上获得了较大的打破。

雷锋网 (大众号：雷锋网) AI 科技评论按：近日来自 Microsoft AI and Research 的研讨员在 arXiv 上贴出一篇论文《 Cracking the cocktail party problem by multi-beam deep attractor network 》，即应用多束深度吸引子网络处理鸡尾酒派对成绩。

微软研究员提出多束深度吸引子网络，解决语音识别“鸡尾酒会问题”

所谓「鸡尾酒会成绩」是指人的一种听力选择才能，在这种状况下，留意力集中在某一团体的说话之中而疏忽背景中其他的对话或乐音。雷锋网做一个类比，鸡尾酒会景象就是图形-背景景象的听觉版本。这里的「图形」是我们所留意或惹起我们留意的声响，「背景」是其他的声响。

微软研究员提出多束深度吸引子网络，解决语音识别“鸡尾酒会问题”

详细来说，鸡尾酒会成绩的义务就是在高度堆叠的音频中将不同说话者的内容别离和辨认出来。我们人类可以很容易完成这项义务，但是要想树立一个无效的零碎来模仿这个进程还是挺困难的。现实上这也是语音信号处置中最为困难的应战之一，对它曾经超越 60 年的研讨，但由于混合源的变化很大，所以即便如今鸡尾酒会成绩仍未处理。

在「深度学习时代」之前，有一些学者在这个义务上也做了一些尝试。现实上，鸡尾酒会成绩可以分红两类：单通道零碎和多通道零碎，两者的区别就在于前者只要一个麦克风，然后者后多个。在单通道零碎中，别离进程完全依赖于语音的频谱属性（例如音调的延续性、谐波构造、罕见的声母等），这可以经过统计模型、基于规则的模型或许基于分解的模型。在多通道零碎中，别离进程可以应用声源的空间属性。但是不论运用多少麦克风，大少数现有的零碎只能用于相当复杂的状况，例如固定扬声器、无限词汇表、不异性别的混合等，在普通的状况中则不能发生称心的功能。

随着深度学习的迸发，鸡尾酒会成绩也有了较大的提高。不过与大少数其他深度学习义务不同的的是，多人说话的别离有两个共同的成绩：置换成绩和输入维度成绩。

置换成绩：大少数深度学习算法要求评价目的是固定的，而在多人讲话别离义务重，别离源的恣意置换是等价的。
输入维度成绩：指混合说话的人数在不异样本中是不同的，这就形成了学习的困难，由于神经网络通常要求其输入层具有固定的维度。

目前有三种单通道神经网络模型，即深聚类（Deep Clustering）、深吸引子网络（Deep Attractor Network）、置换不变训练（Permutation Invariant Training）。在深聚类和深吸引子网络中，会将混合频谱中每个时频段映射到更高维度表示中，也即所谓的嵌入，这两种模型可以无效的处理上述两个成绩。而置换不变训练模型则经过掩码学习框架（Mask Learning framework），其中网络受限为每个目的说话者生成输入掩码，然后彻底搜索输入与洁净的参考音源之间的组合来处理置换成绩。这三种算法在很大水平上进步了语音别离范畴的程度。对他们的评价后果显示，它们在普通数据集的两音源和三音源别离成绩上具有类似的表现。

虽然以上基于深度学习的办法在鸡尾酒会成绩中获得了很大的打破，但是它们离使用于真实世界的使用顺序中还存在很大困难。这次要有两个缘由：

首先，它们的别离才能无限。例如当有四个讲话者时（即便是最复杂的两个男性和两个女性的别离义务），由于声响混合较为复杂，每个讲话者的声响大局部都会被其他讲话者的声响掩盖住，下面提到的几种单声道模型简直无法完成这样的义务。
其次，目前的单声道零碎通常容易遭到混响的影响，这次要是由于混响会模糊掉单通道别离零碎用来别离讲话者的语音频谱线索。

在多通道办法中，目前也有几种基于神经网络的模型，例如声学模型（Acoustic Modeling）和语音加强（Speech Enhancement）。但是现有的零碎都还没有处理鸡尾酒会成绩。例如在语音加强模型中，每个通道都需求一个事后学习的掩码，这在以后是不适用的，由于还没有一个零碎可以自动获取掩码。而在声学建模中，则需求多个聚集步骤，这不适用于多方讲话者的场景。作者表示，就他们所知目前还没有一种零碎可以处置复杂的多方讲话者语音别离成绩。

为了消弭以上这些模型功能上的限制，将单通道和多通道办法停止结合是一个很自然选择方向，由于这两种办法运用了不同的信息停止别离，因而会起到互相补充的作用。

在作者所宣布的这份任务中，他们提出了一种新颖、无效且复杂的多通道语音别离和辨认零碎。这个零碎由多声道局部和多声道局部组成。

微软研究员提出多束深度吸引子网络，解决语音识别“鸡尾酒会问题”

模型架构

多通道处置由 12 个固定束（beam）的差分波束构成器组成，它们在空间中停止等价的采样；然后停止单通道处置，这经过锚定深度吸引子网络（Anchored Deep Attractor Network）来完成，其中每个通道都会学习比率掩码（Ratio Mask）。

经过结合多声道处置和单声道处置，这种零碎可以充沛应用空间和频谱信息，并且可以克制大少数多声道零碎只能在封锁环境中运转的限制，从而使功能优于单通道和多通道零碎。该零碎应用 beam 作为神经网络输出，这可以消弭神经网络的复杂域处置，并且将空间处置和频谱处置独自处置，这可以使零碎独立于麦克风的地位散布。由于引入吸引子网络构造，作者所提出的这个零碎可以执行端到端的优化进程，并且可以扩展就任意数目的音源，而不会有置换或许输入维度的成绩。

实验后果

先来个直观的感受：

微软研究员提出多束深度吸引子网络，解决语音识别“鸡尾酒会问题”

在这个例子中，下面是原始混合频谱，两头为依据模型别离偏重构出四个说话者的音频频谱，最上面则为原始无混合的参考音频频谱。可以看出根本上分歧。在一切测试数据上都有相似的表现。再来看一下详细状况——

语音别离

微软研究员提出多束深度吸引子网络，解决语音识别“鸡尾酒会问题”

这个表格中绿色背景的为比照模型，数据单位为dB，越大越好。其中：

MBBF——大多数人都曾因不佳的交通状况而迟过到、叫过苦。经济的快速发展带动的是社会各方面的全面提升，但在此过程中，交通的发展却没跟得上前进的步幅，各类交通难题让交管部门伤透脑筋，如何利用AI来解决相关难题已成当务之急。multi-beam beamformer，
OGEV——oracle generalized eigenvalue

OMVDR——oracle minimum variance distortionless response
IRM——ideal-ratio-mask
DAN——deep attractor network

而 MBDAN、OMBDAN、MBIRM 则辨别是按照作者所提出的零碎对下面模型停止的改造。可以看出，这三种模型的表现远远优于其他模型。当然从这个表中其实还可以看出蛮多信息的。

首先，我们可以看到，无论是在封锁环境还是开放环境，这三个模型在功能上并没有太大变化。这阐明这些模型可以在理想世界的场景中运用。
其次，与其他波束构成算法（例如 MBBF、OGEV）相比，功能上有 40% 以上的提升，并获得了与 OMVDR 相似的功能，但 OMVDR 模型的缺陷是要求必需具有确切的地位信息。
再次，MBBF 和 MBDAN 的比照可以看出，多通道模型与单通道模型的结合可以发生互利的后果。
最初，当与单通道的模型比拟式，我们可以看到有分明的优势。这也是由于结合多通道后补偿了单通道模型混响成绩。

语音辨认

微软研究员提出多束深度吸引子网络，解决语音识别“鸡尾酒会问题”

上表中显示了用 OMBDAN 模型别离出语音后再做辨认的功能，辨别有 clean model 和 Far-field model 两种。可以看出表中六种条件的混合语音的 WER（word error rate）都接近 100%。但是经过处置后，WER 在一切条件下均大幅下降。与污染模型相比，绝对净增量辨别为 62.80％，58.73％，45.59％，远场模型辨别为 69.51％，64.19％，52.53％。由于混响战争稳噪声包括在训练数据中，远场模型获得了更好的功能。

论文摘要

最近神经网络的运用对单通道语音别离办法（或许更狭义地说，鸡尾酒会成绩）的功能有了明显的提升，不过在多通道成绩中的功能依然不能让人称心。在这项任务中，我们提出了一种新的多通道框架来停止多通道的别离。在所提出的模型中，我们首先将输出的多声道混合信号转换为运用固定波束形式的一组波束构成信号。关于这种波束构成，我们建议运用差分波束构成器，由于它们更合适于语音别离。然后，每个波束构成的信号被送到单通道锚定深度吸引子网络中来生成别离的信号。经过悬着每个光束的别离输入来取得最终的别离后果。

为了评价所提出的这个零碎，我们创立了一个具有应战性的数据集，其中包括 2、3、4 个说话者的混合。我们的后果标明，所提出的零碎在很大水平上改善了语音别离范畴的现状，关于 4、3、2 个说话者的混合，完成了 11.5dB、11.76dB、11.02dB 的均匀信号与失真比的改善，其功能与运用 oracle 地位、源和噪声信息等信息的模型相近或更好。我们还运用洁净的训练好的声学模型对别离后的语音停止语音辨认，在 4、3、2 个说话者完全堆叠的语音上辨别完成将绝对词错误率（WER）降低 45.76%、59.40%、62.80%。运用远场讲话声学模型，WER 会进一步降低。

雷锋网注：论文地址， https://arxiv.org/abs/1803.10924

。

免责声明：本文章由会员“高阳林”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：

微软研讨员提出多束深度吸引子网络，处理语音辨认“鸡尾酒会成绩”

实验后果

论 文 摘 要

论文摘要