你好,游客 登录
rss订阅 手机访问 
语音识别
除了人类,有些声音也在偷偷和语音助手说话!
研究人员现在可以将人耳听不见的秘密音频指令发送给 Apple 的 Siri,Amazon 的 Alexa 以及 谷歌的 Assistant。 编辑| 微胖 来源| 纽约时报
日期:今 16:35 作者:
语音识别现在发展到什么阶段了?
在人工智能快速发展的今天,语音识别开始成为很多设备的标配,语音识别开始被越来越多的人关注,国外微软、谷歌、Facebook,国内的科大讯飞、思必驰等厂商都在研发语音识别新策略新算法,今天小编就将为你做语音识别技术的简单介绍,并谈谈它的发展历程和未来可能的发展方向。
日期:今 16:33 作者:
语音识别中的CTC算法的基本原理解释
目前主流的语音识别都大致分为特征提取,声学模型,语音模型几个部分。目前结合神经网络的端到端的声学模型训练方法主要CTC和基于Attention两种。
日期:今 16:31 作者:
分离人声问题的攻破,将会为语音识别领域带来哪些可能性
图片来源:视觉中国
试想一下,在一个嘈杂的鸡尾酒会上,同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声等等。如何在酒会上分辨出特定人物的声音,这对于我们人类来说十分简单。
但对于计算机来说,要把一个音频信号分割成多个不同的语音来源,依然有许多棘手的问题需要解决。 当许多人的语音交叠在一起的时候,AI时常措手不及。1953年Ch...
日期:05月05日 作者:
《集异璧》作者侯世达:王维、杨绛与机器翻译的本质
来源:湛庐文化
【新智元导读】侯世达教授围绕机器能否实现 “完美” 翻译这一主题展开讲座。“翻译”是检验人的创造力与人工智能的一块试金石,他以王维的五言绝句《鹿柴》、杨绛的回忆录《我们仨》为例,通过对比谷歌翻译与其自己翻译的结果,生动形象地展示了当下机器翻译离信达雅还有多远。
“空山不见人,但闻人语响,
返景入...
日期:04月23日 作者:
【清华AI公开课】景鲲:百度为什么重视语音?
演讲:景鲲
编辑:田令、江磊
【新智元导读】4月19日,清华大学《人工智能前沿与产业趋势》系列课程第三讲开课,本讲主题是“自然语言处理技术的发展和行业应用”。自然语言处理(NLP)被认为是人工智能研究中最为困难,也是最重要的问题之一,不仅基础研究难,技术落地和应用场景也很复杂。本课由百度度秘事业部总经理景鲲主讲。新智元作为独家合作媒...
日期:04月23日 作者:
从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集
介绍
深度学习(或生活中大部分领域)的关键在于实践。你需要练习解决各种问题,包括图像处理、语音识别等。每个问题都有其独特的细微差别和解决方法。
但是,从哪里获得数据呢?现在许多论文都使用专有数据集,这些数据集通常并不对公众开放。如果你想学习并应用技能,那么无法获取合适数据集是个问题。
如果你面临着这个问题,本文可以为你提供解决方案。...
日期:04月10日 作者:
智能语音技术,主要面临哪些挑战
智能语音的应用从初期的手机助手形态(语音拨号、语音导航、语音搜索、语音听写等),发展到今天软硬一体的远讲降噪、语音唤醒、声纹识别、语用计算、流式交互等等。
日期:04月01日 作者:
凭声音即可认证身份,语音识别存在哪些发展瓶颈?
近日、贵州省政府、清华大学和相关企业联合宣布,正在合作开展一项试点项目。该项目将人们独有的语音特征与身份证信息关联,以此创建并维护声纹数据库。
日期:04月01日 作者:
语音识别在中国或成身份认证方式,入住酒店可用
网易科技讯 3月22日消息,据国外媒体Quartz报道,在中国,政府和企业对于人脸识别技术的部署力度在其它地区并不常见。如今,该国也已经快速地将目光转向了声音识别。
日期:03月23日 作者:
解读 | 起底语音对抗样本:语音助手危险了吗?
想要让深度学习系统走向大街小巷、走进千家万户,就要在算法研发阶段给出系统的鲁棒性检验。对于图像对抗性攻击的讨论正是如火如荼,攻防双方都是妙手频出的状态。例如,来自 MIT 和 UC Berkeley 的两位博士生,Anish Athalye 和 Nicholas Carlini 就接连攻破了 7 篇 ICLR 2018 接收的对抗防御文章,指出,你们的防御策略不过都是基于「混淆梯度」(obfuscated gradient)现...
日期:03月21日 作者:
人机交互新蓝海——语音合成
当今很多可以接触到人工智能产品并应用场景,如:智能家居、智能机器人、智能音箱、虚拟偶像、有声读物、教育行业等等。无论是放在家里还是郊游场景,曼妙的合成音好像已经成为一个新的人物IP,虽然有时候还是不够聪明,但是很多电子发烧友愿意给予更多的耐心,并且逐渐把他们物化成生命中的伙伴。
日期:03月15日 作者:
ICASSP Oral 论文:阿里提出低计算量语音合成系统,速度提升4倍

【新智元导读】阿里巴巴语音交互智能团队提出一种基于深度前馈序列记忆网络的语音合成系统。该系统在达到与基于双向长短时记忆单元的语音合成系统一致的主观听感的同时,模型大小只有后者的四分之一,且合成速度是后者的四倍,非常适合于对内存占用和计算效率非常敏感的端上产品环境。该研究已入选语音顶会ICASSP会议Oral论文,本文带来详细解读。
研究背景
日期:03月12日 作者:
谷歌新一代WaveNet :深度学习怎么生成语音?
这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。
日期:03月06日 作者:
语音的识别过程主要分哪几步,常用的识别方法是什么?
语音识别是完成语音到文字的转换。自然语言理解是完成文字 到语义的转换。语音合成是用语音方式输出用户想要的信息,用语音实现人与计算机之间的交互,主要包括语音识别、自然语言理解和语音合成。
日期:03月05日 作者:
  • 1/17
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 17
  • »
内容分类