雷锋网 AI 研习社按:日前,OpenAI 启动一项迁移学习竞赛,这一竞赛为期两个月(4 月 5 日-6 月 5 日),参赛者需求让智能体来玩风行一时的 Sonic The Hedgehog(刺猬索尼克)游戏。这一竞赛将会评出三大奖项,参赛者无机会取得丰厚奖励,并与 OpenAI 共同撰写竞赛技术文档。
雷锋网 AI 研习社将在下文引见关于竞赛的详细信息。
在 OpenAI 官网可以看到,这次竞赛将会权衡强化学习算法基于以往经历的泛化才能。“在典型的强化学习研讨中,算法是在相反环境下停止训练的,这使得算法擅长记忆,并有很多超参数。此次竞赛将会在电子游戏关卡中测试算法——参赛选手需求让智能体玩 Sonic The Hedgehog(刺猬索尼克)游戏,用于测试的游戏关卡此前从没呈现过。
此次竞赛基于 Gym Retro 平台。此外,为了助于大家竞赛,OpenAI 也开源 retro-baselines ,这一工具展现了如何在竞赛义务中运转多个强化学习算法。竞赛为期两个月(4 月 5 日-6 月 5 日),获胜者将失掉一些很棒的奖品。
以下是参赛概况:
参赛者训练智能体(或许编写脚本)来玩 Sonic The Hedgehog 游戏;
参赛者将智能体打包到 Docker 容器提交;
OpenAI 对提交的智能体停止一套机密测试;
排行榜上会呈现智能体的得分状况。
上面的图解对这个进程停止了详细阐明。
OpenAI 表示,强化学习的下一步是应用以往经历疾速在新环境中学习。目前的算法很容易记忆,但不能很好地顺应新的状况。虽然这次竞赛的重点是电子游戏,但他们希望获胜的技术能适用于更普遍的范畴。
竞赛规则如下:
一个团队只能用一个帐户;
可以与其他团队分享短代码片段或指点代码,但不能分享完好或局部处理方案;
参赛选手只能从属于一个团队。
上面是对「最佳成果奖」(Best Score)和「最佳代码奖」(Best Writeup)的引见。要想抢夺这两类奖项,参赛者必需在竞赛最初阶段将本人提交的智能体开源。每类奖项的前三名都将取得奖励。
此外,还有额定的「最佳支持奖」(Best Supporting Materials)。
一切获奖者将受邀与 OpenAI 一同完成这一竞赛的技术报告。
竞赛规则页面: https://contest.openai.com/details
Leaderboard 页面: https://contest.openai.com/leaderboard
Benchmark 详细描绘: https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/retro-contest/gotta_learn_fast_report.pdf
雷锋网 (大众号:雷锋网) AI 研习社编译整理。
via: https://contest.openai.com
雷锋网版权文章,未经受权制止转载。概况见。