农企新闻网

腾讯 AI Lab 主任张潼博士:机器学习里的优化成绩

发布者:张原
导读雷锋网 AI 科技评论按,日前,在由上海财经大学穿插迷信研讨院(RIIS)主办,杉数科技无限公司协办的「古代运筹学开展讨论会」上,腾讯 AI Lab(腾讯人工智能实验室)主任张潼博士宣布了精彩演说。作为机器学习范畴的知名学者,他收场表示,机器学习和运筹优化有很多的共同成绩。接上去,他详细引见了机器学习范畴中优化的停顿,以及大家比拟感兴味的研讨课题。在演讲的最初,他表示,运筹优化的研讨人员可以和机器

雷锋网 AI 科技评论按,日前,在由上海财经大学穿插迷信研讨院(RIIS)主办,杉数科技无限公司协办的「古代运筹学开展讨论会」上,腾讯 AI Lab(腾讯人工智能实验室)主任张潼博士宣布了精彩演说。作为机器学习范畴的知名学者,他收场表示,机器学习和运筹优化有很多的共同成绩。接上去,他详细引见了机器学习范畴中优化的停顿,以及大家比拟感兴味的研讨课题。在演讲的最初,他表示,运筹优化的研讨人员可以和机器学习研讨人员多多交流,大家共同协作,共同促进。

腾讯 AI Lab 主任张潼博士:机器学习里的优化问题

以下为他的发言内容,雷锋网 AI 科技评论做了不改动原意的编辑整理,张潼博士对此文做了校正与确认,同时也感激上财助理教授邓琪博士对本文提出的珍贵意见。

很感激葛冬冬约请我过去,明天是叶荫宇教师的生日,十分快乐能在这里与大家停止讨论。我的次要研讨方向是机器学习,如今机器学习范畴存在很多的优化成绩,目前来讲,有些优化的研讨能够是机器学习范畴本人在推进,我将为大家引见这方面的研讨停顿,也希望大家当前能更好的去协作,推进开展。

机器学习里的优化绝对比拟窄,这其中思索的成绩次要是跟数据有关。次要有如下三种数据:

  • 第一种是统计散布上独立的数据,这种成绩有一个求和或许求希冀的构造,监视学习和非监视学习里都存在这种构造。

  • 第二种是相似于 graphical model (图模型)的数据,在这里我们比拟关怀 graph(图)的构造,这种数据中也存在较多的求和构造。

  • 第三种是序列数据,在这种数据中,最基本的构造还是求和。

由于很多成绩是以统计希冀的方式表达,所以随机优化是大家比拟感兴味的研讨方向。

随机优化在五六十年代就呈现了,它属于传统优化的范围。目前有一些与随机优化相关的书籍,也有专门的科研人员在停止这方面的研讨。

实践上,在机器学习范畴,大家用的也根本上是随机优化,很少有人用确定性优化。此外,最近的一些停顿应用 variance reduction 证明了随机优化存在着更好的收敛率,这也是大家运用随机优化的缘由之一。

如今我先为大家引见一阶随机优化,这一范畴的相关研讨比拟多 目前在这一范畴,大家比拟感兴味的方向能够是非凸优化。最近有很多计算机实际学家在做非凸优化方面的研讨,不过我还没见到做优化的人在这一范畴停止研讨。非凸优化中之前大家援用得比拟多的是 Nesterov 写的 cubic 牛顿法,这个任务基于牛顿法,在非凸状况下获得了一些很好的效果。如今,一些研讨人员以 cubic 牛顿法作为根底,但研讨得愈加深化了。

另一块大家能够研讨的方向是二阶或三阶优化,这也跟随机有关 ,这里的研讨包括怎样去做一些特殊设计的采样进程。这一块次要是机器学习范畴在停止研讨,但我晓得目前也有一些做优化的人参与出去了。

还有一块大家能够比拟感兴味的研讨跟减速有关 。这一范畴比拟早的研讨办法有 momentum 算法,Heavy Ball 优化算法,后来 Nesterov 在凸优化成绩中严厉剖析过的减速算法。如今大家感兴味的能够是非凸成绩上的减速。如何在非凸状况下做减速?最近也有一些相关文献。实践上,在非凸状况下做不了减速,但最新的文章标明,在执行算法进程中,我们可以检测凸性,一旦遇到凸性格况,就立刻转换。

当大家在用 momentum 办法时,条件不适宜的状况下应该怎样去做?这里能够更偏实际。momentum 法在实践中也有使用,深度学习里的 Adam 算法就用到了它的思想,同时也用了其他一些 scaling 的方式。

此外,在减速成绩上,还有一个我团体比拟感兴味的研讨成绩。减速自身是确定性的,在随机优化上用起来不是很好。 随机上只能经过减速添加 mini-batch 规模,所以大家也在研讨如何在随机上更好地去减速,不过这个成绩在随机的 mini-batch 算法下到如今都没什么特别好的后果。一些人能够晓得,把减速办法和随机算法叠加起来提升收敛速度,两头要经过一个进程,这个进程需求用一个 deterministic 方式 作为转换才行。这里是不是有更好的方式,如今我也不是很确定。

大家也对一些特殊构造比拟感兴味,比方说复合损失函数和 proximal 构造(比方稀疏和低秩)。非凸成绩中对特殊构造的研讨绝对来说比凸成绩中少一点。

还有一块大家感兴味的就是超参数的优化,这块的研讨实践上愈加复杂。最近 learning to optimize (学习优化)这个研讨就与超参数优化有关,即优化进程不是你本人推导出来的,是机器学习学出来的,这也比拟有意思。这套办法目前还很初级,大家可以这么思索这个成绩——曾经有人用机器学习来设计优化算法了。这里的研讨更偏理论,由于假如要做剖析会比拟困难。与此相关的是随机 bandit 算法。在优化里也存在这种算法,和无导数优化相关,即优化进程中不见得用导数去做,这在很多实践成绩的零碎调参里是十分有用的。

后面是一系列与单核优化相关的研讨。另外一块大家感兴味的方向是大规模散布式和多核优化。 即便到如今,很多优化软件包还没有多核的支持。

在这里,第一步能够要做多核计算,第二步要做散布式计算,这是实践上的需求。另外一方面,从实际下去说,大家比拟感兴味的是通讯和计算的均衡,即在这种构造里,假如有不同的计算单元,在执行算法的进程中需求停止信息的交流,信息交流了多少,计算工夫有多少,以及如何去均衡。这里存在很多相关研讨,其中有同步的,也有异步的。大家实践上能够或多或少都会用到异步,目前也有一系列与异步散布式优化相关的研讨。此外,如今有些人开端感兴味的是去中心优化和低精度优化(比方用低精度传输导数),这些办法甚至可以和今后新的低精度硬件结合。这里有另一局部跟芯片相结合的研讨是模型紧缩,这也是和优化相关的研讨范围。

另外还有一个方向就是以适用为导向的非凸优化算法研讨。 非凸优化其实除理解决深度神经网络中的成绩,还能处理别的一些成绩,不过大家能够比拟关怀的就是深度神经网络成绩。很多研讨人员会做出一些无效的但没有太多实际根底的 heuristic 算法,包括 batch normalization 算法。另外还有相似 Adam 的算法,在适用上也很盛行。它是把两个凸优化的想法结合在了一同:将 momentum 优化算法与 Adaptive Gradient 结合,再做一些参数调整。

另内在实际上,最近也有一些停顿 。最近有一些年老的华裔迷信家在这一范畴做了一些比拟前沿的研讨,比方说研讨怎样去优化逃出鞍点,他们最初得出了一个部分最优解。

如今很多是实际上的任务,比方说对收敛复杂度的研讨,把 ε 的负 2 次方变成 ε 的负 1.5 次方、负 1.25 次方等。虽然这些算法目前看起来能够都不太适用,但是在实际上获得了一些提高。我们可以研讨这些办法究竟可以走得有多快,之后渐渐将它们变得适用化。

另外一块大家感兴味的研讨是算法在一些非凸成绩上的全局最优收敛性,在这里需求一些构造信息 。目前的研讨在某些成绩上获得了一些结论。有些是优化算法,但有些能够把算法改动了,用了其他的构造。

还有一块新的大家比拟感兴味的研讨范畴,是 saddle point 成绩 。我团体对这个成绩也感兴味,我研讨过相关文献。目前在优化上,对这一范畴的研讨不算太多。如今比拟好做的是凸,凹成绩,以及对变量是线性,primal 和 dual 之间是 bilinear 作用关系的成绩。在这些成绩上,如今有了一些效果,包括机器学习范畴如今也开端停止这方面的研讨了。假如不是 bilinear 的,状况绝对来说会更难一些,有些结论就不好推行了。目前,在非凸状况下,或许不是凸,凹的状况下,这一块的后果十分少,连收敛性都没有好的普通性的后果,很多成绩能收敛到什么境地我们也不是很清楚。

从实践下去看,的确会存在这种成绩,比方说强化学习的某些方式可以写成一个鞍点成绩。包括其他的一些生成模型,例如生成对立网络,都会呈现这种方式,既不是凸的,也不是凹的,但它有一些特殊构造,所以有些对它感兴味的人会停止专门的研讨。 而强化学习自身也是跟优化联络比拟严密的方向,它也跟运筹学研讨的马尔科夫决策进程严密相关。目前这个方向是研讨热点,有越来越多的后果呈现。

虽然机器学习范畴的成绩比拟窄,很多传统优化成绩都不属于机器学习的研讨范围,但就像我后面说的,这外面也有很多有意思的成绩,它们和优化严密相连 。机器学习范畴在这些成绩上研究的绝对比拟深,经常做出了超出优化范畴自身的一些实际任务。

希望到时分和大家能多多交流,假如大家感兴味,可以参与出去,共同研讨。

雷锋网 (大众号:雷锋网) AI 科技评论编辑整理。

(完)

腾讯 AI Lab 主任张潼博士:机器学习里的优化问题