2050大会丨“深度强化学习”论坛，我们一同聊点什么？

2025-08-25 14:57:28

导读2014年，我还是一个在英国伦敦大学学院计算机系的留先生，有一天忽然有一个叫做Demis Hassabis的人到我们学校做演讲，展现了如何用深度强化学习训练出逾越人类玩家程度的Atari 2600游戏智能。在我们都诧异于打砖块游戏中AI是如何每次都把球打到砖块层下面去完成很屡次反弹时，Demis无比帅气地提出了一个概念Artificial General Intelligence，即通用人工智能。

2014年，我还是一个在英国伦敦大学学院计算机系的留先生，有一天忽然有一个叫做Demis Hassabis的人到我们学校做演讲，展现了如何用深度强化学习训练出逾越人类玩家程度的Atari 2600游戏智能。

在我们都诧异于打砖块游戏中AI是如何每次都把球打到砖块层下面去完成很屡次反弹时，Demis无比帅气地提出了一个概念Artificial General Intelligence，即通用人工智能。通用人工智能次要有两个特点，一是端对端(end-to-end)的学习，二是义务自顺应，无需人类调参而胜任不同的义务。从那时起，Deepmind给有数学者、工程师以及吃瓜群众植入了一个观念，即深度强化学习是翻开通用人工智能大门的钥匙。

从那当前到如今的四年工夫里，深度强化学习失掉了迅猛的开展，被视为机器学习范畴的明星方向。 Deepmind开发的AlphaGo围棋智能打败了李世石、柯洁。Facebook在DOTA2游戏中打败了顶级职业选手。CMU团队研发的德州扑克AI冷扑巨匠轻松击败顶级玩家。Deepmind运用深度强化学习优化了数据中心的耗能。谷歌则应用深度强化学习完成深度神经网络的自动架构搜索，提出了酷炫无比的AutoML效劳，借此将机器学习作为一种效劳推行到千家万户。

2050大会丨“深度强化学习”论坛，我们一起聊点什么？

中国的技术公司并不逞强，其实，他们做得愈加保守，用深度强化学习做直接跟钱挂钩的业务落地。 阿里、腾讯、百度、滴滴和天壤等国际团队将深度强化学习使用到搜索、引荐、营销、派单和途径规划等实践成绩的决策义务中。并且有公司声称本人运用了深度强化学习在无人驾驶产品中。

一切看起来都是如此华美而美好，应用深度强化学习我们曾经有限接近通用人工智能，不是么？当然不是！

深度强化学习，望文生义，将深度神经网络整合到强化学习框架当中。两者恰恰是机器学习范畴中最难调试成功的两个子类。正如谷歌大脑团队研讨员Alex Irpan所说，深度强化学习是个大坑，别焦急进坑！它的成功案例其实不算很多，但每个都太有名了，招致不理解的人对它发生了很大的错觉，高估才能从而低估了难度。

没错，从学术论文到PR软文，人们只会展现华美的成功案例，没有人会仅仅展现失败的案例。但是做过深度强化学习的迷信家和工程师其实都深知，这是一个连随机种子都会大大影响学习效果的模型框架。异样的模型，训练10次能够7次是失败的，3次是成功的。以致于在深度强化学习圈子外面有“随时种子工程”的自嘲概念。

其次，深度强化学习及其容易过拟合到智能体以后交互的环境中，所以环境稍有改动，之前看起来表现出色的智能体很能够变成一个犯低级错误的傻子。另外，深度强化学习需求超级超级多的数据和超级超级弱小的算力支持，而假如将场景扩展到多智能体的深度强化学习，那么需求的数据和算力是呈指数级上升的，这是一个极端烧钱的行业。

2050大会丨“深度强化学习”论坛，我们一起聊点什么？

有了深度强化学习，我们离通用人工智能还远吗？

我们是站在智能奇点面前，还是离它依然遥不可盼？

假如深度强化学习最终能实习通用人工智能，世界的格式是什么样子，至多，在普及通用人工智能的进程中，世界将会如何变化？

面对这一系列犹如科幻小说构思般的成绩，每团体都有本人的见地。而我们经过问本人这些成绩，能否对以后我们在完成通用人工智能路途上做出新的改动？

云栖 2050 ，世界的有志年老人相聚在一同。我们聚集了在深度强化范畴的11位国际外顶级学者和产业界大牛来畅谈他们在关怀的场景中和深度强化学习的恩怨情仇，在通向通用人工智能的路上的悲欢离合。

“如何建成天壤围棋智能的罗马城？”

围棋自我学习中的若干成绩讨论

张雷，天壤智能CTO，担任公司深度强化学习技术的研发和使用。在参加天壤智能之前，张雷在百度搜索广告部门任主任架构师。在此之前，张雷在IBM中国研讨院任初级研讨员，指导了IBM DeepQA开放问答零碎中国团队的技术任务。该问答零碎在2011年打败了人类冠军选手，并演化为如今的IBM Watson零碎。

“随着机器随着流量往智能终端设备迁移，新的机遇“物联网商业社交时代”也将迎来，通过人的第六器官（智能手机）和智能设备终端的联网互动，从而改变了人的行为习惯和消费方式。线下流量通过LBS定位重新分配，又通过物联网终端智能推荐引擎引导到网上任意有价值的地方，至此互联网下半场拉开帷幕。智能的提升，人类如何与机器协作，应用其提升人类本身的才能？”

人机协作技术与应战

袁泉，启元世界（inspir.ai）开创人兼CEO，前阿里认知计算实验室资深总监，淘宝引荐算法开创人，曾获双11 CEO特别奉献奖。参加阿里之前，袁泉是IBM中国研讨院的研讨员。

“我们是如何借助深度强化学习迎战双十一？”

强化学习在展现广告实时竞价中的使用

靳骏奇，来自阿里妈妈精准展现技术算法团队，从事机器学习在互联网广告零碎使用方面的研讨任务。靳骏奇在清华大学自动化系取得工学学士、工学博士学位，在清华大学经济管理学院取得经济学学士学位。

“如何用强化学习支撑阿里搜索排序？”

游戏之外：电商场景下强化学习建模与使用

2050大会丨“深度强化学习”论坛，我们一起聊点什么？

曾安祥，阿里巴巴资深算法专家.于2009年参加阿里巴巴，作为淘宝搜索的开创人之一，先后参与组建了Query剖析团队和排序团队等算法团队，在任务中追求杰出，和同伴们一同发明了在全球范围内抢先的商品搜索技术。专注于大规模机器学习，在线学习等技术，近两年来，他的团队次要研讨深度学习与强化学习等技术在电商环境中的大规模实践使用。

“强化学习如何赋能阿里广告主？”

强化学习在搜索营销客户优化中的理论与考虑

2050大会丨“深度强化学习”论坛，我们一起聊点什么？

仇光，博士，阿里巴巴集团阿里妈妈事业部初级算法专家，担任搜索营销客户优化方向的算法任务。2005年本科毕业于浙江大学，取得计算机迷信与技术专业学士学位，同年保送直接攻读博士学位，师从陈纯院士，于2010年取得博士学位。2008-2009年在美国芝加哥大学Bing Liu教授拜访学者。

“如何自动设计风趣的游戏？”

Learning to Design Games: Strategic Environment in Reinforcement Learning

Haifeng Zhang is a PhD student in the Department of Computer Science, Peking University. His research interests include reinforcement learning, game playing and computational advertising. He has published research papers in professional conferences and journals, such as IJCAI, WSDM, CIKM and Journal of Software. Haifeng also visited University College London as a joint PhD student. He obtained his Bachelor Degree in Peking University.

“如何将虚拟环境迁移到物理环境、以及物理环境虚拟化？”

强化学习：从虚拟走向理想

俞扬，博士，南京大学副教授。次要研讨范畴为机器学习、强化学习，目前研讨集中于提升强化学习样本应用效率。辨别于2004年和2011年取得南京大学计算机迷信与技术系学士学位和博士学位，获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。2011年8月参加南京大学计算机迷信与技术系、机器学习与数据发掘研讨所（LAMDA）从事教学与科研任务。宣布论文40余篇，包括多篇Artificial Intelligence、IJCAI、AAAI、NIPS等，取得5项国际论文和竞赛奖。

“言语学习如何支持通用人工智能？”

Language grounding with human hindsight advice

2050大会丨“深度强化学习”论坛，我们一起聊点什么？

Yuhuai Wu is a 3rd year PhD student at University of Toronto, under the supervision of Roger Grosse. In the past, he was a student of Geoffrey Hinton, Yoshua Bengio, and R互联网电子商务和移动商务消费渠道的普及，使得支付市场将在不久的将来继续呈现更加美好的增长前景。uslan Salakhutdinov. He is a recipient of Google PhD Fellow in machine learning of 2017. He had done an internship at OpenAI in 2017 with John Schulman and Pieter Abbeel, and will join Deepmind for an internship in the summer of 2018. His main research interests are reinforcement learning and optimization.

“智能体之间如何无效通讯？”

Communication in Multi-Agent Reinforcement Learning

2050大会丨“深度强化学习”论坛，我们一起聊点什么？

Ying Wen is a PhD Candidate in the Department of Computer Science, University College London. His research interests include reinforcement learning and deep learning techniques for real-world scenarios, such as computational advertising, multi-agent system. He has published several papers in international journals and conferences, such as AAMAS, IJCAI, ICDM. Ying earned his MRes with Distinction Honor from University College London in 2016 and B.Eng. with First Class Honor from Queen Mary, University of London and Beijing University of Posts and Tel. in 2015. He was an intern at MediaGamma, Amazon and Baidu.

“如何寻觅通往无连续强化学习之路?”

Deep Reinforcement Learning for Robotics: Frontiers and Beyond

Shixiang (Shane) Gu is a PhD candidate at University of Cambridge and Max Planck Institute for Intelligent Systems, where he is co-supervised by Richard E. Turner, Zoubin Ghahramani, and Bernhard Schoelkopf. He holds BASc. in Engineering Science from University of Toronto, where he completed this thesis with Geoffrey Hinton. His research interests span deep reinforcement learning, deep learning, robotics, approximate inference and causality, and his research has been featured by MIT Technology Review and Google Research Blog. He also collaborates closely with Sergey Levine from UC Berkeley/Google Brain and Tim Lillicrap from DeepMind. He will start as a research scientist at Google Brain in the summer 2018.

“如何用强化学习来完成学习自身？”

Learning how to Active Learn: A Deep Reinforcement Learning Approach

刘晗，腾讯 AI Lab 机器学习担任人；Meng Fang is a senior research scientist at Tencent AI Lab, focusing on developing novel reinforcement learning models and applying them to real-world applications. Prior to Tencent, Meng was a member of NLP group at University of Melbourne and worked on the DARPA LORELEI Project, collaborating with Carnegie Mellon University, primarily about low resource language processing and exploiting sparse human supervision. His research interests are in the areas of natural language processing, deep learning and reinforcement learning.

2050大会丨“深度强化学习”论坛，我们一起聊点什么？

5月25日，相约北京·千禧酒店，与安防行业大咖共话安防AI创新！呈献一场安防行业千人盛宴。

在这里，安防巨头厂商海康、大华、宇视将论述安防产品AI创新；CV新秀商汤、旷视、依图、云从、云天励飞、快商通将引见创企如何抢占市场树立壁垒；投资机构真格、明势、IDG、高榕将共谈最受资本喜爱的公司当具有哪些特质；还有中科院威望专家，将带来AI以及各种生物辨认的最前沿科技。

仅剩100张门票，理解大会概况及抢票请戳： GIIS 2018·安防AI创新峰会

本文系投稿稿件，作者：张伟楠/薛贵荣；转载请注明作者姓名和“来源：亿欧”；文章内容系作者团体观念，不代表亿欧对观念赞同或支持。

免责声明：本文章由会员“何原”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：