你好,游客 登录 注册 发布搜索
背景:
阅读新闻

传说中的“读唇术”终于有专门的学习软件了

[日期:2016-11-10] 来源:腾讯数码   作者: [字体: ]

  

 

  The Verge中文站 11月9日报道

  “ 读唇”是一门技术活,国外测试实验发现,大部分人在别人说法时,通过观看后者的嘴唇动作,只能辨别出十分之一的单词,即便是所谓的唇语专家,其准确识别率也是不够理想。不过,牛津大学研究人员称,人工智能技术——比如深度学习,就能够帮助解决这样的问题。

  众所周知,通过获取大量数据来寻找“共同点”的人工智能技术能够提升音频语言识别,使其达到跟“面对面”对话一样的准确率,为什么它就能不能完成“读唇”的任务呢?

  牛津大学人工智能实验室的研究人最新发表的论文中提到,他们使用深度学习技术开发出了一种“读唇”软件,他们的软件名为“LipNet”,它的“表现”要远胜于那些唇语解读者:在某些测试中,LipNet软件能够达到93.4%的准确率,而唇语解读者的准确率只有52.3%。

  即便是现在还处在初期阶段,但这款软件运行的速度已经非常快,几乎达到了一种能够“实时”将静音视频转化为文本脚本的处理速度。

  研究人员选用了一组数据库,用它对这套系统进行训练和测试。测试中,研究人员收集了来自34名志愿者所录制的短视频。在视频中,志愿者读取的是一些“毫无意义”的句子(比如插图说明),每个短视频只有三秒长,并且每个句子都采用非常简单的句式结构:命令动词+颜色+介词+字母+数字+副词,比如“set blue by A four please”或者“place red at C zero again”。

  事实上,这些句子有它的局限性,比如,它们仅仅使用了四个不同指令和颜色词语,这也是引来了该领域其他研究人员的质疑,他们认为这份研究报告水分太大,让人难以信服。

  不过,情况并非如此。在接受采访时,这份报告作者,同时也是两名研究人员Yannis Assael和Brendan Shillingford承认,他们的研究受限于单词和语法的限制。不过,这是由于可使用的数据有限,这个数据库非常小,但测试结果也说明了,它们能够在更大的数据库中也同样表现出色。”

  Assael 和 Shillingford 都强调,他们的研究成果应用在监控领域,道理很简单,“读唇术”要求你需要注视目标人的嘴,这也就意味着,摄像头必须摆好到最佳位置来获取好的结果。“从技术层面来看,想要在监控领域应用读唇术,这是非常、非常困难的。”Assael表示。

  不过,这两名研究人员表示,读唇人工智能能够帮助到那些听力受损的人群,尤其是在一个比较吵闹的环境(也就是计算机很难分离出噪音的环境)。

  比如,这类人群可以佩戴内置摄像头的眼镜,他们在参加聚会的时候可以清楚地拍摄出目标人物说话时嘴唇动作,然后使用这款软件来实时将嘴唇“语言”翻译成文本,然后在将其语音传输到佩戴者耳朵中。

  “只要你有语音识别和摄像头,我们就可以提升它。”Assael表示。他也提及到,苹果Siri或者谷歌Now语音助手或将能够应用他们的软件。

  未来,或许我们就不敢对着自己的电脑讲话了,原因很简单,它们可能会读懂我们说得内容。(原作者James Vincent 编译:Newsboy)

收藏 推荐 打印 | 录入:admin | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款