你好,游客 登录 注册 发布搜索
背景:
阅读新闻

MIT:将转录和图像联系起来,让机器自主学习所有语言

[日期:2016-12-10] 来源:粹客网  作者: [字体: ]

语音识别和转录是机器学习的一个重要成果,然而要对数以百万音频文件的声学特征、词语类型等进行学习是一项昂贵又费时的工作。因此不难理解为什么当今绝大多数的语音识别和转录研究只在世界上少数几个有经济能力的国家进行,而能够支持转录的语言也只有这些大国使用的有限几种而已。

在近日举行的神经信息处理系统会议(Neural Information Processing Systems conference)上,来自 MIT 计算机科学与人工智能实验室(CSAIL)的研究人员提出了一种新的训练方法,让语言识别系统不依赖于对转录音频的学习便能精通多种语言。

这一方法是参照人类的语言习得模式来设计的。和传统依靠转录学习的路径不同,这一系统是通过对图像及关于图像的不同描述和分析训练让机器学习语言,而这些供机器学习的语言资料则是来自大量的语料库音频记录。通过这种“图像-语音”的训练,系统便能学会匹配不同图像特征和声学特征,并将它们关联起来。

深度学习

“这一研究的目的是为了让机器采取与人类更相像的方式来学习语言。”CSAIL 的高级研究员及本篇论文的合著者之一 Jim Glass 说道,“目前在训练机器进行语音识别的过程中依然需要人类的参与和监督,一段特定的声音就会和一种特定的意思匹配起来,但是采用这种方式进行标记的数据量和工作量都是十分巨大的。”

虽然目前人类已经在语音识别和转录上取得了很大进步,比如苹果的 Siri 和谷歌助手等等,但是这些系统的研发成本都相当高,因此只能覆盖世界上少数几种主要语言。在目前全球 7000 多种语言中,只有 2%能够通过 AI 进行自动识别。因此,研究如何在尽量少人甚至是无人监督的条件下,让机器学会自主学习就变得非常重要。

在团队发表的论文中,他们详细描述了这种“无人监督语言学习”系统的原理:特定语音会和一组与之相关的图像进行关联,在图像中产生相关联的文本标签,而这些已经建立的联系又会成为其他系统的基础,整个过程都不需要人工参与。

这就和人类在学习语言中的“所指” “能指“概念相似。任何语言符号是由“能指”和“所指”构成的,“能指”指语言的声音形象,“所指”指语言所反映的事物的概念。语言作为一种符号,具备符号的”任意性“,这就是说,所指与能指的联系是任意的,两者之间没有任何内在的、自然的联系。

所以说白了,在不同的人类语言中,“所指”,特别是一些具象化的概念,往往是一致的,不同的只是用于指代的“能指”,而团队做的,就是将所有不同的语言,即“能指”通过不变的“所指”(图像)联系起来。因此基于这一原理的语音识别识别系统同样能够翻译提供相应的解决方案。

目前,团队还正在不断对这一系统的神经网络进行训练中,使系统可以挑选出单个词的谱图并且仅识别与它们相对应的图像的那些区域。“婴儿在学会描述周围环境的过程中,大部分的信息输入都首先来源于视觉,” 台湾大学电机工程和资讯工程系教授李琳山说道,“今天,机器已经开始模仿这样的学习过程了。这项研究是这一方向最早的探索,令人印象深刻。”

收藏 推荐 打印 | 录入:admin | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款