你好,游客 登录
背景:
阅读新闻

一个人开发的语音识别,正在被一亿人使用

[日期:2018-01-19] 来源:网络  作者: [字体: ]

专访 Duolingo 首位中国工程师秦龙

 

上瘾的游戏化学习体验、全球用户超过1个亿、刚刚宣布获Google Capital 领投的C轮4500万美元融资......Duolingo(多邻国)无疑是语言学习领域最明星的产品之一。此次,36氪独家专访了它背后的一名“造星人”—— Duolingo 的工程师秦龙博士——让他为我们讲讲多邻国幕后那些事儿。

秦龙在Duolingo 主要负责多语种的语音识别技术,用人话说,就是他的工作保证了 Duolingo 能够辨识你用各种语言对它说的话。下面,秦龙博士会和我们分享语音识别背后的开发细节、怎么利用这种技术学口语、智能化英语学习的下一步是什么。

秦龙在卡内基梅隆大学获得博士学位,他于2014年秋加入 Duolingo并负责平台上的多语种语音识别技术,是 Duolingo 第一位中国工程师。

36氪:语音识别技术针对的是用户的口语学习。和与真人对话相比,语言学习者在用电子设备学习口语时优势和劣势主要是什么呢?

秦龙:可能出现的障碍是,机器判断学习者读音错误时,用户会有挫折感,这种黑白分明的正误反馈一般是不会出现在人与人的对话之中的;再加上机器识别不能保证100%准确,有的学习者会发向我们抱怨:为什么我明明读对了,但还是被识别为错误?

除此之外,目前语音识别技术在语言学习软件中的应用,还普遍停留在帮助用户改善发音的层面上,并不能被自由创建场景进行人机对话,而后者对语言学习其实是至关重要的。

优势的话,一是学习者心理压力小。可能很多人小时候都经历过,在街上碰到一个老外,爸爸妈妈就在一旁戳你:“快去和老外对个话”。其实对很多人来说,开口说外语的门心理障碍其实是很大的,而通过机器学口语就完全没有这种压力。其次是可以利用碎片化时间,学习更高效,而和真人对话的时间成本和门槛都比较高。

36氪:具体来说,目前的语音识别技术可以怎样帮助学习者提高口语呢?

秦龙:主要是两种方式,第一种的目的是帮助用户改善发音:软件给出一个句子,用户读句子,机器会通过语音识别技术来判断你发音对不对,给出一个评分。

第二种方式,目前的语言学习软件,包括 Duolingo 在内,做得都还不够好:理想状况下,在创建的场景下,学习者和电子设备应该可以实现自由对话,语音识别技术不但能够识别发音是否标准,还能进行语义理解,判断学习者的词汇句法是否正确,这和Siri的技术有些相似,但具体如何在 Duolingo 中实现,我们还在研究中。

目前 Duolingo 网页端已经可以做到的是:在创建的场景中,引导用户先用文字翻译句子,再把翻译后的外语读出来,机器会分别就文字翻译和口语发音两方面的水准进行打分。

36氪:Duolingo 目前提供超过40种语言课程,甚至包括克林贡语。语音识别技术支持其中多少种?

秦龙:目前已支持的语言有10种(英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、丹麦语、瑞典语、土耳其语),已在开发中即将上线的还有乌克兰语和挪威语。Duolingo 在英语语音识别中投入最多,它的识别结果和打分也最准确,因为英语是目前 Duolingo 上学习人数最多的语言,占到全部流量的30-40%。

36氪:团队目前有多少人?每种语言的语音识别需不需要开发者本身懂这种语言?

秦龙:Duolingo 语音识别团队目前由我一个人负责。我本人只会中文和英文,所以刚开始接触的时候也有些忐忑。最后衡量语音识别效果的是客观评测,所以开发者其实并不必须掌握语言本身,但对每种语言的是深入理解对开发是有很大帮助的,在细节的处理上会更准确一些。

36氪:能不能给非技术背景的读者解释一下,多语种语音识别的难度究竟在哪里?Duolingo 每开发一种新语言的成本如何?

秦龙:难度主要来自三方面。一是数据非常庞杂:来自网页端、平板、手机端的语音质量都不相同;男女老少,甚至不同文化程度的人有不同的语言习惯;朗读和自然对话的语音数据不同;室内录音和室外录音也数据也不同......要将这些情况全部考虑进去,做出准确的识别结果,需要相当大的开发量。

二是不同语言有不同元素,比如中文的特点是有平仄声调,德语的特点是可以把不同词汇组在一起生成一个新词,因此词汇量异常的大,开发时需要根据每种语言的特点做相应调整。

三是多语种数据库本身有很大的维护成本。

就 Duolingo 来说,开发英语识别这部分用了2-3个月,其他一些小语种(西、德、法、意)在数据到位的情况下,用2-3个星期就完成了。

36氪:Duolingo 作为一家创业型公司,整个公司负责语音识别技术的也只有你一个人,没有科技巨头们那么多的资源,又要开发多种语言,怎么应对这种压力呢?

秦龙:我们的诀窍主要是:利用一切可以利用的免费资源。比如,我们会利用公开的Google API 在Chrome 版本的 Duolingo 中使用,省去一部分开发资源;我们还会利用 Google Voice Search 的语音识别,不过因为我们识别需要服务于语言学习的目的,而不是搜索目的,所以使用时会在后端做一些调整;另外,我们还会抓取一些开源词典的发音,并根据 Duolingo 的需求做一些剪裁和修改。

收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款