农企新闻网

ASSIA

发布者:高俊东
导读雷锋网(大众号:雷锋网)AI 科技评论按:2018 年 5 月 31 日-6 月 1 日,中国自动化学会在中国迷信院自动化研讨所成功举行第 5 期智能自动化学科前沿讲习班,主题为「深度与宽度强化学习」。如何赋予机器自主学习的才能,不断是人工智能范畴的研讨热点。在越来越多的复杂理想场景义务中,需求应用深度学习、宽度学习来自动学习大规模输出数据的笼统表征,并以此表征为根据停止自我鼓励的强化学习,优化处

雷锋网 (大众号:雷锋网) AI 科技评论按:2018 年 5 月 31 日-6 月 1 日,中国自动化学会在中国迷信院自动化研讨所成功举行第 5 期智能自动化学科前沿讲习班,主题为「深度与宽度强化学习」。

如何赋予机器自主学习的才能,不断是人工智能范畴的研讨热点。在越来越多的复杂理想场景义务中,需求应用深度学习、宽度学习来自动学习大规模输出数据的笼统表征,并以此表征为根据停止自我鼓励的强化学习,优化处理成绩的战略。深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等范畴中的成功使用,使其被以为是迈向通用人工智能的重要途径。

本期讲习班约请有澳门大学讲座教授,中国自动化学会副理我国这片创新热土正在发生一场全面而深刻的产业结构变革。事长陈俊龙,清华大学教授宋士吉,北京交通大学教授侯忠生,国防科技大学教授徐昕,中国中车首席专家杨颖,中科院研讨员赵冬斌,清华大学教授季朝阳,西安交通大学教授陈霸东,浙江大学教授刘勇,清华大学副教授游科友等十位学者就深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等范畴中的成功使用停止报告。

雷锋网 AI 科技评论在本文中将对 6 月 1 日杨颖、赵冬斌、刘勇、游科友、徐昕的 5 场精彩报告停止引见。

杨颖:轨道交通车辆预测与安康管理(PHM)技术使用

杨颖是中国中车首席专家,教授级初级工程师,中车株洲电力机车无限公司副总工程师。

本报告专注于 智慧列车 相关内容,中国的轨道交通开展迅猛,列车数量在过来六年里简直翻了两番。传统的活期保养形式如今成绩重重,且这种形式破费不菲。在该背景下急需一个新的车辆保养方案。中国中车株洲和深圳铁路公司结合开发了一个轨道交通车辆预测与安康管理零碎来降低车辆保养所需的人工费用以及其他费用。借助 PHM 零碎,可以把活期保养形式转换为有条件保养形式,这样就可以延伸反省保养周期,从而延伸列车在平安安康形态下的运营工夫。

赵冬斌:深度强化学习算法及使用

赵冬斌是中国迷信院自动化研讨所研讨员、博导,中国迷信院大学岗位教授。

本报告专注于深度强化学习算法的使用。将具有「决策」才能的强化学习 (RL: Reinforcement Learning) 和具有「感知」才能的深度学习 (DL: Deep Learning) 相结合,构成 深度强化学习 (DRL: Deep RL) 办法,成为人工智能 (AI: Artificial Intelligence) 的次要办法之一。2013 年,谷歌 DeepMind 团队提出了一类 DRL 办法,在视频游戏上的效果接近或超越人类游戏玩家,效果宣布在 2015 年的《Nature》上。2016 年,相继宣布了所开发的基于 DRL 的围棋算法 AlphaGo,以 5:0 打败了欧洲围棋冠军和超一流围棋选手李世石,使围棋 AI 程度到达了一个史无前例的高度。2017 年终,AlphaGo 的晋级顺序 Master,与 60 名人类顶级围棋选手竞赛取得不败的战绩。2017 年 10 月,DeepMind 团队提出了 AlphaGo Zero,完全不必人类围棋棋谱而完胜最高程度的 AlphaGo,再次刷新了人们的看法。并进一步构成通用的 Alpha Zero 算法,超越最顶级的国际象棋和日本将棋 AI。DRL 在视频游戏、棋类博弈、自动驾驶、医疗等范畴的使用日益增多。本报告引见了强化学习、深度学习和深度强化学习算法,以及在各个范畴的典型使用。

刘勇:正则化深度学习及其在机器人环境感知中的使用

刘勇是浙江大学教授、博导,浙江大学求是青年学者。

本报告专注于正则化深度学习办法。近年来,随着人工智能技术的飞速开展,深度神经网络技术在图像剖析、语音辨认、自然言语了解等难点成绩中都获得了非常明显的使用效果。但是该技术在机器人感知范畴的使用绝对而言依然不够成熟,次要源于深度学习往往需求少量的训练样原本防止过拟合、提升泛化才能,从而降低其在测试样本上的泛化误差,而机器人环境感知中触及的义务与环境具有多样化特性,且严重依赖于机器人硬件平台,因此难以针对机器人各感知义务提供少量标注样本;其次,关于解不独一的病态成绩,即便提供少量的训练数据,深度学习办法也难以在测试数据上提供理想的估量,而机器人感知义务中所触及的间隔估量、模型重构等成绩就是典型的病态成绩,其输出中没有包括对应到独一输入的足够信息。针对上述成绩,本报告以提升深度学习泛化才能为目的、以嵌入先验知识的正则化办法为手腕、以机器人环境感知为使用背景停止了引见。

总体上看目前刘勇教授研讨内容共有四项,辨别是:

隐层正则约束:图正则自编码器
构造正则约束:语义正则网络
构造正则约束:嵌套残差网络
输入正则约束:深度挪动立方体网络

就目前的研讨后果来说,正则化一致框架下深度学习功能有分明的提升,在一系列机器人环境感知使用上获得以后抢先表现。在接上去的任务中,刘勇教授团队将专注于无监视学习,定性与定量感知义务相结合,结合机器人声学、触觉等传感器等外容。

游科友:散布式优化算法与学习

游科友是清华大学副教授、博导,国度优青,国度青年千人。

本报告专注于散布式优化算法等成绩,随着训练参数与样本规模的的急激增长,深度学习在实践使用零碎中显示出了宏大的使用前景。散布式与并行优化是指经过多求解器起来协作求解的一类优化成绩互联网电子商务和移动商务消费渠道的普及,使得支付市场将在不久的将来继续呈现更加美好的增长前景。,其在大规模数值计算、机器学习、资源分配、传感器网络等有重要的研讨意义和使用价值,并成为了大规模优化与学习中最具应战性的成绩之一。本报告首先讨论了散布式优化的几个典型难题;其次。以鲁棒性凸优化为例,提出了散布式原-对偶求解算法与散布式 Polyak 算法,并以严厉证明了算法的无效性。

游科友教师团队的在本报告中提到的次要内容包括:

• 引见散布式优化的关键特征
• 他们设计的用来处理鲁棒性凸优化的散布式算法可以保证概率上最优
• 他们设计了一个用于散布式优化的散布式异步算法,并可以充沛证明其收敛性

• 他们设计了一个计算向量中心性的散布式算法,并可充沛证明其收敛性

徐昕:自评价学习控制中的特征表示与滚动优化

徐昕是国防科技大学教授、博导,国防科技杰出青年人才。

本报告专注于强化学习的优化办法。以强化学习 (reinforcement learning) 为代表的自主学习技术关于提升各类机器人零碎的优化决策与控制功能具有重要意义。在复杂不确定环境中机器人零碎面临诸多优化决策与控制成绩。面对这些成绩,徐昕教授引见了自评价学习在控制零碎中的使用,自评价学习控制中的特征表示办法,以及滚动优化的办法。

以上是雷锋网 AI 科技评论全部报道,中国自动化学会第 5 期智能自动化学科前沿讲习班。两地利间,十位专家为大家带了非常精彩又干货十足的报告,对深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等范畴中的成功使用停止了深化引见。

ASSIA