你好,游客 登录
背景:
阅读新闻

深度学习的“阿克琉斯之踵”

[日期:2018-04-23] 来源:百度百家  作者: [字体: ]

经过这几年的媒体渲染和资本炒作,深度学习俨然已经可以成为人们饭桌上谈论的话题。而随着其在机器翻译、图像(人脸)识别以及自动驾驶的应用,深度学习的价值也在展现。

但深度学习依然面临一个巨大的挑战:数据。

本质:更多数据=更智能的 AI

百度前首席科学家吴恩达曾有一张著名的 PPT:

这张图说明了4点:1)人工智能产品需要数据;2)数据越多,产品的智能程度越高;3)行业巨头们,如 Google、Facebook、百度等拥有更多的数据;4)不同人工智能产品的差距其实就是数据量的差距。

这也意味着,如果你想让自己的人工智能产品突出重围,收集海量数据才是王道。

现实:人工智能=训练数据

下图展示了一个被误解的人工智能现实图景:

公众普遍认为所谓人工智能就是一群工程师写代码,或者搭建神经网络。

但就像上图所言,更多的时候,获得数据,尤其是训练这些获得的数据,才是重中之重,毕竟很多算法是开源的,而数据训练,则是目前行业巨头保守的秘密。

资源:数据都在哪里?

这几年,数不胜数的论文、开源算法、框架大大降低了深度学习的成本,但没有适量的数据,一切都不过是理论而已。

现在,普通开发者可以接触到数据,包括以下几种:

其一, 开源数据集,比如训练图片数据的 ImageNet,以及部分互联网公司的开源数据集,如百度就开放了部分可以训练语音的数据集。

其二, 人工数据。简而言之,就是一组人类生成的「假数据」,可以用于训练文本或者图像转文本的应用,但如果想让这些数据成为训练人脸识别或医疗影像,则是不可能的;

第三是 借助互联网。互联网的数据的确很多,不过质量非常差,需要人工标记,成本很高。

第四, 购买人工标注的数据,目前国内外有大量这样的公司,这些公司利用众包等形式过滤、标记了海量数据,卖个开发者或大公司。

最后则是 手动标记数据,比如手动标记医疗影像。这是一个工作量很大的工作,却也是一个非常重要的工作,在医疗影像领域,只有专业医师才具有标记数据的能力。

综上来看,在算法和框架都具备的状况下,对于很多开发者和公司来说,获得数据尤其是训练数据,将成为其能否推进人工智能项目的重要参考指标,这也就不难理解即便是 Google、Facebook 这样的巨头,还在贪婪地收集海量数据,而数据也将决定着未来人工智能公司的命运。

收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款