你好,游客 登录
背景:
阅读新闻

专访微软邓力:语音识别与非监督深度学习、增强学习、词嵌入、类脑智能

[日期:2016-08-09] 来源:CSDN  作者: [字体: ]

  在俞栋接受CSDN专访 解读基于深度学习的语音识别技术及CNTK开源软件 的同时,《解析深度学习-语音识别实践》一书的另一位作者、微软人工智能首席科学家邓力也接受CSDN专访,以另外的视角诠释了语音识别领域的最新技术进展,以及他的团队的一些不同的工作。

  着眼于端到端建模和训练,邓力介绍了输出端和输入端的进展,迁移学习、增强学习、非监督学习在语音识别领域的应用现状和前景,并解释了他对非监督学习的独特理解,重点总结了词嵌入的利用和改善。他还展望了类脑机器智能突破现有的深度神经网络局限的方法。

  有感于有监督学习的局限,邓力目前将很大部分的精力用到了非监督学习上,并且与微软目前的自然语言理解、对话系统、聊天机器人等核心工作相结合。看好非监督学习语音识别,是由于语音识别领域“先验”知识的逐渐成熟,包括输出端非常强的语言模型和多年积累的从输出端到输入端映射的生成式知识。邓力认为,将各种先验知识整合到一个完整而能快速计算和优化的非监督深度学习框架,语音识别的问题将可以彻底解决。当然,这需要新的深度非监督学习算法和理论。邓力也将作为 2016中国人工智能大会(CCAI 2016) 主题报告嘉宾更深入地解析包括非监督学习在内的深度学习与大数据技术,欢迎点击这里报名与他交流。

  邓力认为,词嵌入或音素嵌入用到语音识别领域,一项有意思的工作是把乔姆斯基的生成式音韵结构(phonological structure)整合到深度学习讲的嵌入(embedding)方法里。对抗式网络的思路可以用来整合语音生成知识。不过,词嵌入的本质是利用邻近词的预测特性,只是所应该用的先验知识的一小部分。更重要的先验知识应该是关于输出序列变量的更强并比现有词嵌入具有更长距离的统计特性,以及从输出到输入的生成特性。

  非监督学习语音识别将来会成功,但需要大量创新工作来铺路

  CSDN:能否介绍当前语音识别领域最让您兴奋的一些进展,以及您目前所做的一些有趣的工作?

  邓力:从整个语音识别业界来讲(包括中国和美国几家主要大公司的工作),令人兴奋的进展涵盖了输出端和输入端全方位的端到端训练::

  端到端建模和训练大规模神经网络语音识别系统近期继续降低识别错误率,特别是成功用上CTC训练准则使得端到端训练行之有效。CTC训练准则最忠实地代表了语音识别系统的训练目标,比我们在DNN时代之前用的MCE、MPE、MWE、MMI更合理,尽管CTC的优化需要不少工程技巧。我在研究院的同事在这方面做了很多工作,包括对CTC的延伸并将CTC与传统的MMI序列训练方法相结合。

  行之有效的端到端训练在输入端已经扩张到多麦克风阵列的语音波形。这使得抗噪音的语音识别系统部分也整合进入端到端学习。

  我自己目前将不少时间用在 关于让非监督学习用到离散序列输出(比如自然语言)的应用 ,包括语音识别、机器翻译、看图说话,等等。为什么注重像自然语言这样的离散序列输出?这是因为自然语言模型包含了非常丰富的“先验”知识,使得不需输入输出匹配的学习的成功机会大于其他在输出端缺乏丰富“先验”知识的应用和任务。

  靠输入输出匹配的学习是要花高代价准备大训练数据的。这是目前很成功的有监督深度学习的局限之一。相反,无需输入输出匹配的大数据成本要低得多,它遍地皆是,有取之不尽用之不竭的潜力。

  要有效地利用比现有输入输出相匹配的训练数据高出几个数量级的无输入输出匹配的大数据来训练深度学习系统,有待于开创全新的深度非监督学习算法和理论。一旦成功,这会给深度学习建立一个新的里程碑。比如用在语音识别,任何人们之间的对话和个人演讲都可以成为非监督学习语音识别机的语料,而我们并不需要去标注这些自然的到处都有的语料。

  为什么我认为非监督学习语音识别会成功? 因为我们在输出端有丰富的“先验”知识,就是非常强的语言模型,可以是嵌入式的, 也可以是非嵌入式的。同时我们也有非常丰富的从输出端到输入端映射的生成式的“先验”知识。这就是语音科学家几十年积累下来的人类从概念到波形的语音motor control和语音生成的知识。语音生成的motor control要比机械人对手指的精细运动控制还复杂。

  我当年在MIT、ATR和在加拿大滑铁卢大学任教时做了很多这方面的研究。当时用的是动态深度贝叶斯网络来表达和实现这些知识,模型中的一部分也用上multilayer perception。我和我的学生们在1997-2003年发表了一系列论文。到微软之后还写了两本关于这方面的书。记得当年Geoff Hinton教授同我就如何将这些动态语音生成知识和模型用到有监督深度学习讨论了很长时间。当时得到的识别率结果跟丢开这些生成知识的DNN-HMM差不多,但计算上却难以得益于用GPU训练,而且解码要用很多近似,也很慢。所以我把动态语音生成模型放弃了很长时间专攻DNN,后者没有这些弱点。见文末一些文献,回顾了以上讲的这些古老的工作。

  现在到了大家开始注重非监督深度学习的时代。过去积累的研究经验和有计算价值的语音生成知识真是可以派上用场。将多种类(输入输出端统计特性以及它们的关联性)的先验知识整合到一个崭新的非监督深度学习框架,我相信语音识别的问题可以彻底解决。

  深度神经网络应为主干

  CSDN:概括地说,除了特征提取,深度学习在语音识别领域主要还发挥哪些作用?

  邓力:端到端训练高层动态网络是有监督深度学习在语音识别领域应用的精华。特征提取只是它的自然结果之一。

  直到现在,单靠特征提取在非监督深度学习上从未成功过。

  CSDN:您与俞栋博士合著的新书《解析深度学习-语音识别实践》系统地介绍了基于DNN的语音识别技术,哪些人应该读这本书?他们会收获些什么?这本书适合入门吗?需要读者具备什么知识基础?

  邓力:我们在序言里讲到这本书的对象主要是语音处理及机器学习领域的在读研究生、研究者、实践者、工程师以及科学家的学习研究工作。但注意由于我们写书时间紧迫,有些内容没有加上,包括CNN、CTC、麦克风阵列、语音分离,等等。

  阅读本书的知识基础包括微积分、矩阵代数和基本的概率统计等。

  对于入门读者,我们同年出版的英文版《深度学习: 方法和应用》(由谢磊教授翻译成中文)可能更适合。只是材料有点过时了。

  CSDN:您介绍了很多鲁棒性的方法,有哪一种是您最喜欢的吗?

  邓力:对speaker鲁棒性的方法,我很喜欢KL-divergence regularization,不但管用,而且方法巧妙,实现起来也简单。是subspace方法中的一种。

  对抗环境噪音的鲁棒性的方法,我在全力攻DNN之前很喜欢 VTS的方法,也发明了整合语音-噪音相位(phase-sensitive)的VTS方法,不但方法巧妙,在某些条件下也挺管用。但因为它用的是生成式的概念,几年前很难用DNN方法来实现。现在我们知道怎样整合生成式模型和神经网络 (见书中第6章和文末一些文献),大家做这方面的研究可能就有成功希望了。

  CSDN:书中专门谈到了迁移学习,举了一些例子,如欧洲语言到中文普通话的成功迁移,那么哪些因素决定共享DNN隐层架构在当前语音识别领域的边界和局限?迁移学习在语音识别领域推广应用的挑战是什么?

  邓力:我们在第12章讲了迁移学习,并举了用其他语言的语料帮助一个特定语言的语音识别的例子。跨语言能共享DNN隐层架构有很强的物理和认知的基础。不论什么语言,其发音器官(主要包括声道和声门)大体相似。人类语音感知机制是同生成机制紧密相连的。所以DNN作为语音感知层的模型在高层上共享隐层是很自然的思想。

  12章讲的所有例子都是基于音素及其左右context作为基本语音单元。我觉得如果能把乔姆斯基的生成式音韵结构用上来定义基本语音单元做迁移学习,至少理论意义会更大。共享隐层的基础会更扎实些,因为用音韵结构定义的语音感知单元(叫做phonetic或phonological features)就是按照人类发音器官跨语言共享的总体特性来决定的。

  从更广阔的意义上讲,迁移学习可以成为完成非监督学习的重要“知识源”之一,特别当数据和问题本身有组合(composition)特性的时候。上月开完的CVPR有一篇很好的关于“Deep Composition Net”的论文,用到的迁移学习很巧妙很有趣。语音领域里的这种组合特性更丰富,特别在于怎样将音素(类比为分子)分解为phonological features(类比为原子)。而且这种分解组合与“features”之间非同步的时程演化有关。这是语音很有趣的特性。

  CSDN:当前热门的LSTM RNN被高估了吗?

  邓力:热门而古老的LSTM RNN确实很有效。GRU简化了LSTM不少,也类似有效。但要注意,把它们用到语音识别时必须用HMM的动态规划或者CTC来处理LSTM RNN的输出。手写体字的识别也一样。但用到自然语言处理就不需要这样多此一举,因为输入输出的序列没有像语音和手写体识别那样的segmental特性。

  LSTM RNN的发明者之一Schmidhuber教授近日正好来到西雅图。我们又一次在一起讨论,也谈起LSTM RNN在语音识别和其他领域(包括增强学习方面)的重要应用。我不觉得有被高估。

  CSDN:书中介绍了一系列的未来技术方向,其中哪些是您的团队所关注的?您如何确定一个技术研究的方向?

  邓力:英文版的书是在2014年中完稿的。近两年来深度学习发展很快。15章最后一节提到的一系列的未来技术方向,不少方面至今已经有很大的进展。书完稿之后又很快出现新的技术研究的方向。

  我领导的团队现在主要聚焦在自然语言语义理解及其在对话系统(包括聊天机器人)上的应用。语音的进一步进展目前相对是次要,因为识别率已经高到在对话系统上可以使用的地步了。

  确定技术研究的方向有几个因素要结合,包括其潜在的对工业界和学术界的影响力, 实际应用的可能性和广泛性,创新价值和新颖性,能否利用现有技术积累比较快速地实现,等等。当然也包括团队有无激情和能力把它做成。所以团队的质量最重要。我领导的团队近年来靠公司内部最富有激情和高度能力的强手队员做了几项很有影响力的深度学习大项目,但因涉及商业应用尚未对外发表,这在一定程度上对吸引公司外部的强手起了负面作用。我们正在设法改变这种状况,使我们的团队更加强壮。

  CSDN:训练关键的发音特征并泛化,目前有什么样的进展?您认为技术成熟还需要什么条件?

  邓力:刚才提到我们目前的精力主要在自然语言理解,我近来没有跟踪这方面的进展。但我认为有效利用语音composition特性来做基于迁移学习的泛化是一个方向,因为发音特征的变化往往是源于个别发音器工作的微小变化,并非某个音素整体的变化。

  CSDN:未来三五年的ASR领域,是否还有一些非深度学习方法具有挖掘的潜力(或者可以和深度学习进行结合实现更好的效果)?

  邓力:像英文和普通话中文已有比较大量的有标注的训练数据,深度神经网络应为主干以达到极佳识别效果。整合深度生成模型有助于进一步提高识别效果。

  对于低资源的语言或中文的很多方言,有标注的训练数据不多。基于贝叶斯网络的生成模型可能更有效。同时,Kernel非线性方法(非深度模型)也就不受大数据scalability的限制。

  在所有以上情形里,在非监督深度学习成功之后,它们的识别效果都会有很大的提升,因为更多无标注的语音数据可以被有效地加以应用。

  增强学习的作用

  CSDN:AlphaGo的进展让世界注意到了增强学习,您认为(深度)增强学习在语音识别领域能发挥什么样的作用?

  邓力:增强学习的本质是阶段性的优化过程,同时增强信号或有“标注”的信号(reward signal)只是到终点阶段才清楚(好比AlphaGo下的围棋最后谁赢谁输),或者对在每阶段都有的增强信号不值得过于介意(不像有监督学习的标注那样介意到把它直接当作目标去优化逼近)因为这种增强信号只起局部性的参考估值(evaluative)作用。这些例子是我们团队正在做的不同类型的聊天和对话机器人的场景。

  对语音识别,每个句子标注的信号价值都很高,而且我们真把它当作目标去优化逼近来训练系统参数。所以这是一个典型的有监督学习问题(或者在不久将来会成为非监督学习问题),并不是增强学习问题。但如果把语音识别作为整个语音对话系统的一部分,而且用端到端深度增强学习方法来优化整个系统,那么语音识别器的参数会跟有监督学习得到的结果略有不同,因为语音识别器的参数会受端到端深度增强学习影响,尽管增强学习主要是用到整个语音对话系统系统优化的后端。

  所以,初看起来好像以序列结构为输出的语音识别和增强学习都用到动态规划来做训练和测试,但它们的目的是很不一样的。

  非监督学习语音识别的关键

  CSDN:您多次表示看好语音的非监督学习,并且书中还谈到了词嵌入,未来词嵌入的引入会是语音领域非监督学习的大杀器吗?

  邓力:两年前我们在写这本书最后一章最后一节时,我们将词嵌入的利用和改善作为一个未来方向。之后我对这个问题有更多的思考。下面利用这个采访机会小结一下。

  非监督深度学习的本质是在无标注数据的条件下要能够有效地将各类相关的“先验”知识整合到一个完整而能快速计算和优化的深度学习框架。我的这个观念同其他说非监督深度学习的专家很不同。可能他们还没想得那么清楚和深入。我常对新加入我团队和做机器学习理论的同事说,我的这个观念可以又称为“有无限实际价值的非监督深度学习”,而不是大家在机器学习书本、wikipedia和文献上看到的几乎是没多少实际价值的非监督学习。

  说到先验知识,我们就看到 贝叶斯方法很重要 ,不能单用神经网络。一定要做到有原则性的整合。

  词嵌入的本质是利用了词在句子中分配特性(the distributional property, different from distributed representations per se), 也就是邻近词的预测特性(最近见到一些深度学习专家谈到用类似的预测特性做有关视频的非监督深度学习)。但这只是所应该用的先验知识的一小部分。 更重要的先验知识应该是关于输出序列变量的强统计特性,也就是如何把大型且高质量的语言模型用到全系统学习,并且同时有效地用上极大量无标注的语音数据。

  说到词嵌入或音素嵌入用到语音识别领域,我觉得 更有意思的是把乔姆斯基的生成式音韵结构(phonological structure)整合到深度学习讲的嵌入(embedding)方法里。我在MIT时(1992-1993)同我的学生孙晓东把乔姆斯基的生成式音韵结构用到GMM-HMM的输出层上得到很有意思的结果,1994年在JASA发表了很长的论文。记得当年Hinton教授从多伦多到MIT访问我时,讨论到是否能把这种生成式音韵结构知识用到神经网络架构上。当时没继续进展,也许现在可以在这方面开展一些工作。

  同样重要的是关于语音生成的先验知识加上从其他任务中学来的知识。 对抗式网络的思路是可以用来整合语音生成知识到动态深度神经网络的方法之一 。这里有很多好的研究可以做。

  当然 关于输入变量的统计特性对非监督深度学习也很重要 ,比如在传统意义上讲的非监督学习的自动分类。我同伯克利大学的Bin Yu教授有很多这方面的讨论。但对语音领域这后者不是那么容易用得好,因为语音有很特殊的动态特性。

  很多这些想法都还没写到我们的书里。在第2、3、6和15章里,只是略提了一些。

  类脑机器智能突破现有神经网络的局限

  CSDN:您关注的类脑机器智能是否局限于神经网络?如果不是,能否介绍您在这方面的最新研究及其在语音方面的应用?

  邓力:类脑机器智能同神经网络关系最大。直接有关的是如何利用神经脉冲特性,包括用STDP(spiking-time dependent plasticity)来改善现有的神经网络和算法。早在2013年温哥华的ICASSP大会期间,Hinton教授是我请来做主题演讲的,我们当时开会期间就谈了很多关于STDP的问题, 包括STDP同BackProp的紧密关系以及可能的BackProp改善使它更相符人脑的运行机制。还有很多相似的类脑机制很可能将来会对现有的深度神经网络算法和机器智能产生显著的影响。

  至于神经网络以外的,这要看你怎样定义神经网络——深层生成式模型可以属于神经网络,也可以属于非神经网络的图模型或贝叶斯网络。后者着重于将应用领域的知识(比如语音识别中的从发音器官的控制到发音器官的运动再到声音的产生的一系列因果关系)用疏散的矩阵把随机变量“节点”连接起来。并着重于用统计分布来描述非确定性(uncertainty),因为现实应用领域的知识很少是确定无暇的。这类深层生成式模型比较难用类脑的机制和算法来改善。如果能用GPU加速运算就不错了。事实上就连这也没那么简单。

  对可以当成神经网络看待的深层生成式模型,类脑机器智能的潜力很大。这种模型(包括DBN、DBM、GAN、variational autoencoders和90年代的sigmoid belief networks、wake-sleep networks,等等)撇开应用领域的知识而用统一的密集矩阵来参数化整个模型。不但用GPU加速运算就像DNN一样容易,不少类脑机制和认知科学理论也可以比较直接用上。

  说到认知科学理论用于类脑机器智能,我领导的团队正在同美国一所著名大学的教授合作开发一个新型的基于高维张量的结构表征和知识库。这个项目由我亲手抓,它直接受启发于人脑对纯符号树状或图状结构的表征。这对于自然语言和知识的组织利用和增长都非常关键。

  长远看来,类脑机器智能一定会突破现有的深度神经网络存在的许多局限。我的团队在以上方面的工作目前大部分用在自然语言语义理解、对话系统和知识整合诸方面的利用。语音识别方面的问题相对简单一点。

收藏 推荐 打印 | 录入:admin | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款