你好,游客 登录 注册 发布搜索
背景:
阅读新闻

AlphaGo 团队最新研究:作为序列学习的生成模型(22ppt)

[日期:2016-12-27] 来源:新智元  作者: [字体: ]

  【新智元导读】本文是 Google DeepMind 研究科学家 Nal Kalchbrenner 在 NIPS 2016 RNNSymposium 上的演讲 ppt,讲义介绍了作为序列的生成模型在文本到语音的转换、翻译等技术上的应用。Nal Kalchbrenner 的主要研究领域包括神经机器翻译、卷积句子模型、RNN架构以及图像、音频和视频的生成模型。Nal Kalchbrenner 也是 AlphaGo 团队的一员。

  在新智元微信公众号回复1226,可下载全部PPT。

  讲者介绍

  Nal Kalchbrenner 是 Google DeepMind 研究科学家,主要研究领域包括神经机器翻译、卷积句子模型、RNN架构以及图像、音频和视频的生成模型。Nal Kalchbrenner 也是 AlphaGo 团队的一员。

  作为序列学习的生成建模

  学习自然数据的分布

  1D序列,例如文本或声音

2D张量(例如图像)的自回归模型

3D张量,例如视频

PixelRNN/PixelCNN (图像)

  Video Pixel Nets (视频)

  ByteNet (语言/seq2seq)

  WaveNet (音频)

  前人研究:

  自回归图像模型(Autoregressive image models)

  Dilated convolutions

  RNN 与 语言/翻译建模(RNN and language/translation modelling)

  1D序列的架构(Bytenet/Wavenet)

  编码中dilated、masked 1D卷积的堆栈

  架构在时间维度(在训练或评分过程)中是可并行的

  容易接入多个状态

  模型&测试

  ByteNet+SubBN 1.33

  ByteNet+Layer Norm 1.315

1D序列(Bytenet / Wavenet)的架构

  可用于从文本到语音的转换

  用于机器翻译和Seq2Seq的Bytenet

  通过保留解析度泛化LSTM seq2seq

  动态unfolding,而非attention

  线性时间计算

Bytenet 学习对齐源和目标的记号

  视频像素网络(Video Pixel Net )

  Masked卷积

保留解析度的CNN编码器→PixelCNN解码器

离散化(SoftMax)

  Video Pixel Net

  Moving MNIST

Moving MNIST 的VPN样本

Moving MNIST 的VPN样本

Moving MNIST 的VPN样本

Moving MNIST 的VPN样本

Robotic Pushing 的VPN样本

Robotic Pushing 的VPN样本

  规则常见设置和跨模态架构。

 

  可量化的提升和最先进的结果!

收藏 推荐 打印 | 录入:admin | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款