你好,游客 登录
背景:
阅读新闻

凶残的大型神经网络:稀疏门 Mixture-of-Experts 层

[日期:2017-01-03] 来源:新智元  作者: [字体: ]

  【新智元导读】 谷歌大脑团队 Jeff Dean 和 Hinton 最近在arXiv 上发表论文,介绍了最新的研究成果。他们提出了一种新型神经网络层——稀疏门(Sparsely)MOE (Mixture-of-Experts),这种新的神经网络层只需要很小的计算能力提升,便能高效地提升模型的能力。据介绍,研究使用4.3亿参数,每个词超过1亿次计算量,32块K40 GPU跑了47小时。

  【论文摘要】神经网络吸收信息的能力通常会受到参数数量的限制,在本研究中,我们提出了一种新的(神经网络层)——稀疏门(Sparsely)MOE (Mixture-of-Experts),这种新的神经网络层只需要很小的计算能力提升,便能高效地提升模型的能力。

  这一神经网络层由数千个前馈次级网络(也就是Experts)组成,其中包含了总共多达10亿的参数。一个可训练的门网络决定了这些Experts的组合形式和在具体例子中的使用情况。我们把MoE用于语言建模任务,在这些任务中,对于在训练库中吸收大量的可用词汇知识,模型的能力非常关键。我们提出了新的语言模型架构,在这种架构中,MoE层被加入到LSTMs堆栈中间去,结果,模型中的可用的参数数量有了量级的提升。

  在语言建模和机器翻译基准中,我们用较低的计算陈本,获得了比当下最好的水平更好的结果,其中包括,在10 亿词汇语言建模基准(1 Billion Word Language Modeling Benchmark )中测试复杂度达到28.0,以及,在BLEU 中得分40.56,在WMT’14 En to Fr and En to De 数据库中得分26.03。

  【论文题目】Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

  凶残的大型神经网络:稀疏门Mixture-of-Experts层

  作者:Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz , Andy Davis1

  , Quoc Le, Geoffrey Hinton and Jeff Dean

 

  论文下载地址:https://openreview.net/pdf?id=B1ckMDqlg

收藏 推荐 打印 | 录入:admin | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款