你好,游客 登录
背景:
阅读新闻

伯克利大学2017年春季最新课程:深度增强学习

[日期:2017-01-06] 来源:新智元  作者: [字体: ]

  【新智元导读】

  讲师:Sergey Levine, John Schulman, Chelsea Finn

  先修科目

  课程表

  讲座视频

  相关材料

  先修科目

  本课程假设学员已有一些增强学习、数值优化和机器学习的基础。不熟悉以下概念的学生可以使用后面列出的参考资料进行复习。我们在课堂中会简单回顾这些概念。

  增强学习和MDP

  MDP的定义

  精确算法:策略迭代和值迭代

  搜索算法

  数值优化

  梯度下降,随机梯度下降

  反向传播算法

  机器学习

  分类和回归问题:使用哪种损失函数,如何拟合线性和非线性模型

  训练 / 测试误差,过拟合

  RL 和 MDP 上的介绍材料,参考:

  CS188 EdX 课程,从马尔可夫决策过程I开始 (http://ai.berkeley.edu/home.html)

  Sutton 和 Barto 的著作《增强学习导论》,第3、4章。

  有关 MDP 的简要介绍,参考 Andrew Ng 论文的第1-2章

  David Silver 的课程

  有关机器学习和神经网络的介绍材料,参考 :

  Andrej Karpathy 的课程 (http://cs231n.github.io/)

  Geoff Hinton 在 Coursera 上的课程 (https://www.coursera.org/course/neuralnets)

  Andrew Ng 在 Coursera 上的课程 (https://www.coursera.org/learn/machine-learning/)

  Yaser Abu-Mostafa 的课程 (https://work.caltech.edu/telecourse.html)

  课程大纲

  下面列出了本课程的大纲。PPT等参考材料将随课程进度放出。

  1 1/18 导论和课程概述 Schulman,Levine,Finn

  2 1/23 监督学习:动力系统和行为克隆 Levine

  2 1/25 优化控制背景:LQR,规划 Levine

  2 1/27 复习:autodiff,反向传播,优化 Finn

  3 1/30 用数据学习动力系统模型 Levine

  3 2/1 优化控制与从优化控制器学习 Levine

  4 2/6 客座讲座:Igor Mordatch,OpenAI Mordatch

  4 2/8 RL的定义,值迭代,策略迭代 Schulman

  5 2/13 增强学习与策略梯度 Schulman

  5 2/15 Q函数:Q学习,SARSA,等 Schulman

  6 2/22 高级Q函数:重放缓冲,目标网络,双Q学习 Schulman

  7 2/27 高级模型学习:从图像和视频学习

  7 3/1 高级模拟:policy distillation Finn

  8 3/6 反向RL Finn

  8 3/8 高级策略梯度:自然梯度和TPRO Schulman

  9 3/13 策略梯度方差缩减与 actor-critic算法 Schulman

  9 3/15 策略梯度和时间差分法小结 Schulman

  10 3/20 探索问题 Schulman

  10 3/22 深度增强学习中存在的问题和挑战 Levine

  11 3/27 春假

  11 3/29

  12 4/3 深度增强学习中的平行和异步 Levine

  12 4/5 客座讲座:Mohammad Norouzi,Google Brain Norouzi

  13 4/10 客座讲座:Pieter Abbeel,UC Berkeley & OpenAI Abbeel

  13 4/12 项目成果报告

  14 4/17 高级模拟学习和反向RL算法 Finn

  14 4/19 客座讲座(待定) 待定

  15 4/24 客座讲座:Aviv Tamar,UC Berkeley Tamar

  15 4/26 期末项目presentation

  16 5/1 期末项目presentation

  16 5/3 期末项目presentation

  讲座视频

  今年的课程可能会录视频。 John Schulman 在 MLSS 举办过一个讲座系统,视频地址:https://www.youtube.com/watch?v=aUrX-rP_ss4

  讲座1:导论,无导数优化

  讲座2:计分函数梯度估计和策略梯度

  讲座3:actor-critic方法

  讲座4:信任区域和自然梯度方法,开放问题

  相关资料

  课程

  Dave Silver 的增强学习课程 / 讲座视频 (http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html)

  Nando de Freitas 的机器学习课程 (https://www.cs.ox.ac.uk/people/nando.defreitas/machinelearning/)

  Andrej Karpathy 的神经网络课程 (http://cs231n.github.io/)

  教材

  Sutton&Barto 著《增强学习导论》

  Szepesvari 著《增强学习算法》

  Bertsekas 著《动态规划和优化控制》Vols I、II

  Puterman 著《Markov决策过程:离散随机动态规划》

  Powell 著 《近似动态规划》

  其他链接

 

  深度学习资源合集(http://www.jeremydjacksonphd.com/?cat=7)

收藏 推荐 打印 | 录入:admin | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款