雷锋网 (大众号:雷锋网) AI 科技评论按:本文作者陈俊龙、刘竹林等,本文首发于大众号德先生,AI 科技评论受权转载。
本文是对陈俊龙教授团队「Broad Learning System: An Effective and Efficient Incremental Learning System Without the Need for Deep Architecture」的中文综述,原文将在 IEEE Transactions on Neural Networks and Learning Systems, Vol. 29, Issue 1, 2018 宣布。
论文链接: http://ieeexplore.ieee.org/document/7987745
文章代码下载地址: http://www.broadlearning.ai
注释
深层构造神经网络和学习曾经在许多范畴失掉使用,并在大规模数据处置上获得了打破性的成功。目前,最受欢送的深度网络是深度信任网络(Deep Belief Networks,DBN),深度玻尔兹曼机器(Deep Boltzmann Machines,DBM)和卷积神经网络(Convolutional neural Networks,CNN)等。
虽然深度构造网络十分弱小,但大少数网络都被极度耗时的训练进程所困扰。其中最次要的缘由是, 上述深度网络都构造复杂并且触及到少量的超参数。另外,这种复杂性使得在实际上剖析深层构造变得极端困难。另一方面,为了在使用中取得更高的精度,深度模型不得不继续地添加网络层数或许调整参数个数。
因而近年来,一系列以进步训练速度为目的的深度网络以及相应的结合办法逐步惹起人们关注。其中,宽度学习零碎提供了一种深度学习网络的替代办法,同时,假如网络需求扩展,模型可以经过增量学习高效重建。
单层前馈神经网络(Single layer feedforward neural networks,SLFN)已被普遍使用于分类和回归等成绩,由于它们可以全局地迫近给定的目的函数。普通来说,基于梯度下降的 SLFN 的泛化功能对某些参数设置,例如学习率,十分敏感。更重要的是,他们通常在训练时收敛到部分最小值。为此,由 Yoh-Han Pao 教授在 1990 年代提出的随机向量函数链接神经网络(random vector functional link neural network,RVFLNN)提供了不同的学习办法。
RVFLNN 无效地消弭了训练进程过长的缺陷,同时也保证了函数迫近的泛化才能。因而,RVFLNN 曾经被用来处理不同范畴的成绩,包括函数建模和控制等。虽然 RVFLNN 明显进步了感知器的功能,但是在处置以大容量和工夫多变性为实质特性的大数据时,这种网络并不能胜任。为了对中等大小数据停止建模,C. L. Philip Chen (陈俊龙) 在 1990 年代末也提出了一种静态逐渐更新算法 (增量学习),用于更新 RVFLNN 中新添加输出数据和新添加的加强节点的输入权重。这项任务为调整遇到新的输出数据的零碎铺平了路途。
另一方面,近年来除了数据量的增长之外,数据的维度也大大添加。假设将原始的「大」数据直接输出神经网络,零碎往往无法再坚持其无效性。 如何处置高维数据最近成为火烧眉毛的成绩。克制这个难题的两个罕见做法是降维和特征提取。 其中,特征提取目的是寻求从输出数据到特征向量的最佳函数变换。易于完成和效率突出的特征提取常用办法包括,变量排序(variable ranking),特征子集选择(feature subset selection),惩罚最小二乘法(penalized least squares),随机特征提取办法,包括非自顺应随机投影(non-adaptive random projections)和随机森林(random forest)以及基于卷积的输出映射等等。
因而,关于特征提取,可以采用「映射特征」作为 RVFLNN 的输出。本创造中提出的宽度学习零碎(Broad Learning System,BLS)是基于将映射特征作为 RVFLNN 输出的思想设计的。此外,BLS 可以在新参加的数据以无效和高效的方式更新零碎(输出的增量学习)。 BLS 的设计思绪为:首先,应用输出数据映射的特征作为网络的「特征节点」。其次,映射的特征被加强为随机生成权重的「加强节点」。最初,一切映射的特征和加强节点直接衔接到输入端,对应的输入系数可以经过快递的 Pseudo 伪逆得出。为了在宽度上扩展特征节点和加强节点,论文中额定设计了对应的宽度学习算法。同时,假如网络构造需求扩展,论文同时提出了无需完好网络再训练的疾速增量学习算法。
论文的其他构造如下。首先引见 RVFLNN,如图 1-3 所示。其次,给出了所提出的宽度学习算法的细节。第三,在 MNIST 分类和 NORB 分类中实验宽度学习零碎,同时与其他各种深度神经网络停止比拟。最初,给出关于宽度学习零碎的结论和讨论。
如图 4 所示,假定我们提供输出数据 X 并应用函数ϕi(XWei+βei) 映射发生第 i 组映射特征 Zi。其中,Wei 是具有适当维度的随机权重系数。给定记号 Zi≡[Z1, . . . , Zi] 表示前 i 组一切映射特征。异样的,第 j 组加强节点ξj(ZiWhj+βhj ) 被记为 Hj,同时前 j 组一切加强节点被记为 Hj≡ [H1,. . . , Hj]。实践上,依据建模义务的复杂性,可以选择不同的 i 和 j。此外,当 i≠k 时,ϕi 和ϕk 可以是不同函数。异样,当 j≠r,ξj 与ξr 也可以不同。在不失普通性的状况下,本文省略了随机映射ϕi 和ξj 的下标。图 4 表征了论文提出的宽度学习网络的构造。
论文中还提供了三种不同的增量学习算法,包括 加强节点增量,特征节点增量和输出数据增量 (图 5)。由于更新输入层的 Pseudo 伪逆时,只需求计算新参加的节点的伪逆,增量学习的训练进程节省了少量的工夫。从这个角度剖析,宽度学习零碎可以高效重建需求在线学习的模型。
在 BLS 的根底上,我们提出了一种新的神经-模糊模型,我们称之为 模糊 BLS 。该模糊 BLS 坚持了 BLS 的根本构造,将 BLS 的 feature nodes 局部交换为 Takagi-Sugeno 型模糊子零碎,同时去掉了原来的 sparse autoencoder(如图 6-7 所示)。输出数据会送入每一个模糊子零碎停止处置,然后将每个模糊子零碎的输入作为 enhancement 节点的输出。在模糊 BLS 中,我们也只需求经过伪逆来计算顶层权重,而模糊子零碎局部的参数将经过聚类和随机发生的数据来决议。这样我们可以增加模糊规则数,大大放慢模糊子零碎局部计算速度。在函数迫近和分类成绩上,与经典的和目前主流的神经-模糊模型相比,模糊 BLS 在精度和训练工夫上都表现出极大的优势。关于模糊 BLS 的论文目前正在审稿中,之后我们会提供更详细的描绘。
假如在特征节点内,加强节点内,以及特征节点和加强节点之间树立不同的权重衔接,宽度学习网络可以发生不同的变体。其中一种典型的构造如图 8,图 9 所示。对应的数学模型以及增量学习模型可以在行将宣布的论文中检查。
另一种变形的把宽度学习构造里的串联加强节点,这样就可以成为宽深学习网络,如图 10,图 11 所示。宽深网络数学模型以及增量学习模型也可以在行将宣布的论文中检查。
最初,相关实验后果被给出以验证所提出的宽度学习零碎。为了确定提出的零碎的无效性,论文测试了宽度学习零碎在 MNIST 数据下的分类表现。同时,为了证明 BLS 的无效性,我们将与现有「主流」办法的分类才能停止比拟,包括堆叠自动编码器(Stacked Auto Encoders,SAE),另一个版本的堆叠自动编码器(another version of stacked autoencoder,SDA),深度信心网络(Deep Belief Networks,DBN),基于多层感知器的办法(Multilayer Perceptron based methods,MLP)深玻尔兹曼机(Deep Boltzmann Machines,DBM),两种的基于 ELM 的多层构造,辨别表示为 MLELM 和 HELM。在我们的实验中,网络由 10×10 特征节点和 1×11000 加强节点构成。相关的权重均为随机生成。
BLS 的测试精度以及其他所提到的深度算法测试精度如表格 1 所示。虽然 98.74% 不是最优秀的(现实上,深度学习的表现依然比 SAE 和 MLP 好),BLS 在效劳器上的训练工夫被紧缩到了 29.6968 秒。此外,应该留意的是,MNIST 数据特征的数量增加到 100。这个后果契合学者在大数据学习中的直觉,也就是理想使用中的数据信息通常是冗余的。
表格 2 是 BLS 在 NORB 数据库上的分类表现以及和其他模型的比拟,最初两行 BL 是「宽度学」的后果,其它都是深度学习算法的后果,标明宽度学习算法是又快又准。
另外,我们还对添加的输出测试增量宽度学习算法。测试后果如表格 3 所示,标明设计的算法高效并且无效。从而,我们进一步得出结论, 本文所提出的宽度学习算法,可以逐渐更新建模零碎,而无需从一开端重新训练整个零碎。尤其当零碎搜集到新输出数据时,现有网络构造迫切需求更新以反映零碎的真实性和完好性。这一功用完全适用于大数据时代。 基于上述实验,宽度学习零碎在训练速度方面分明优于现有的深度构造神经网络。此外,与其他 MLP 训练办法相比,宽度学习零碎在分类精确性和学习速度都有长足的表现。与数百个迭代的高功能电脑下几十小时或几天的训练相比,宽度学习零碎可以在几十秒或几分钟内轻松构建,即便在普通 PC 中也是如此。
我们对 20 万的数据,每个数据维度从一万维度到三万维度,做测试,在 3 分钟到 50 分钟之内,宽度学习都很快的找到神经网络的权重。另内在函数迫近和回归成绩上,BLS 和模糊 BLS 都表现出较高的精度,详细参数设置和后果见表格 4 和 5。
综上所述,我们以为 BLS 以及它的各种变体和扩展构造具有良好的开展潜力,在实践使用中表现出其疾速且高精度的优秀功能。
作者简介
陈俊龙系澳门大学讲座教授及科技学院前院长,博士生导师,国度千人学者,自动化学会副理事长,IEEE Transactions on Systems, Man, and Cybernetics: Systems 期刊主编。1985 年获美国密西根大学硕士学位,1988 年获美国普度大学博士学位。曾在美国德州大学工学院任终身教授、工学院副院长及电机计算机系主任。曾任 IEEE Systems, Man, and Cybernetics Society (SMCS) 学会国际总主席(2012-2013),现任资深主席(2016-2017)。陈教授是 IEEE Fellow、AAAS Fellow、CAA Fellow、国际零碎及控制论迷信院院士(IASCYS)、香港工程师学会 Fellow,担任多个 IEEE 期刊副主编。科研方向包括:零碎及智能算法实际与工程,数据剖析及发掘,物理建模及智能控制。
陈教授近五年掌管与参与的各类国度科技方案包括:国度基金委、科技部 973 物联网方案子课题和澳门迷信基金会。曾承接美国基金委,美国航天局,美国空军科研实验室,海军研讨实验室科研方案。两次获澳门自然迷信奖,2016 年获母校美国普度大学出色电机与计算机工程奖。
刘竹林,现为澳门大学计算机迷信博士生,山东大学数学本科,澳门大学硕士毕业,科研兴味为计算智能、机器学习、函数迫近。冯霜,北京师范大学数学本科、硕士毕业,现为澳门大学计算机迷信博士生,研讨兴味为模糊零碎、模糊神经网络及使用、计算智能。
雷锋网版权文章,未经受权制止转载。概况见。