你好,游客 登录
背景:
阅读新闻

神经网络到底要做多少层?沈向洋专访

[日期:2017-11-03] 来源:新智元  作者: [字体: ]

【AI WORLD 2017世界人工智能大会倒计时11 天】

【精彩预告】在即将于2017年11月8日举行的AI World 2017 世界人工智能大会上,微软全球资深副总裁王永东将出席本次大会并发表主题演讲,想了解更多动态。

作者:胡祥杰

【新智元导读】沈向洋在专访中表示,神经网络到底要多少层?这个问题一直没有得到回答。我觉得应该有人写这样一篇基础的论文(来回答这个问题),这肯定会是一篇获奖论文。

“福州女婿”沈向洋回娘家了,这次,他要给大家讲人工智能。

2017年10月26日,福州海峡国际会展中心,中国计算机大会(CNCC 2017)盛大开幕,新智元作为大会赞助支持单位参与本届盛会。美国国家工程院院士、微软公司的高级执行副总裁沈向洋博士作为特邀嘉宾发表演讲并接受了媒体的专访。

在专访前,沈向洋介绍说,自己其实是“福州女婿”,这次是他第二次来到福州,上一次是2004年陪妻子回娘家。

专访中,新智元问到沈向洋博士,深度神经网络往后发展,是不是越深越好?

他的回答很有意思,他说:“ResNet他们做了152层,然后后面又做了一个1001层的,孙剑他们做的。我一直对他们不太满意,所以他们做出了非常好的结果之后,我又问了他们一个非常基础的问题:你到底要多少层?这个问题一直没有得到回答。我觉得应该有人写这样一篇基础的论文(来回答这个问题),这肯定会是一篇获奖论文,这是毫无疑问的。 回到现在这个问题,到现在为止,大家肯定会觉得是越深越好。就是打仗要打刚仗,要上力度,GPU要多,数据要多。到现在为止,因为很多新的系统也不太一样,然后大家一般认为,更深更准还是一个趋势。就像AlphaGo他们讲出来就是做了50层,他也没讲为什么做50层,可能就是工程师弄了50层就差不多了。

谈到刚刚完成历史使命退出历史舞台的ImageNet,沈向洋对新智元说,我自己觉得做计算机视觉的人,大家也是在不断向前走,ImageNet现在的到这个地步停掉的话也很正常。首先要祝贺ImageNet这个团队,像飞飞(李飞飞教授)、李凯教授和一群学生,他们对整个的领域起了巨大的贡献,我觉得这个事大家都要非常感谢他们。

那么实际上很多年前大家都看到ImageNet它只做一个数据集的局限,首先它只做物体识别这一类的东西。所以后来微软做了COCO,它是一个方案,就是把识别和理解结合起来。我觉得理解是接下来最有道理的一件事情,就是说大家这么多年一直叫做IU又或者叫Image UnderStanding。理解它一定要和语言结合,所以我个人的看法的话,就是稍微有点偏我自己的爱好,我觉得就是说计算机视觉在向前走,计算机视觉和自然语言的结合才是最有趣的这样一个地方。

在回答新华社记者的提问时,沈向洋也提到,他认为接下来人工智能的突破特别需要跨学科的融合。其中,发展脑科学是他“最看重的事情”之一,他认为接下来10到20年间,这一方向可能是人工智能需要解决的基本问题。“这是接下来激动人心的地方”,他说。

针对国内AI发展人才培养和科研创新投入,沈向洋说,他对中国高校科研的能力的进步的也充满信心。他说,人才的话,最重要是需要培养,而人才培养最重要要有一个环境。微软亚洲研究院在北京为中国培养了很多计算机的人才,根据不完全统计,过去19年,他们培养了5000多个学生,很多学生今天在中国,在IT企业、或者是软件、互联网领域都已经是非常杰出的。

针对国内AI企业纷纷设立研究院的事,沈向洋评论说,企业层面,大家发展到一定地步,都是一定要有技术储备。阿里的Jack (马云)当然有一些自己的想法。Pony(马化腾)和Robin(李彦宏) 他们都已经有很大的这样的一些投入。他说:“我自己对此是觉得是很充满信心,我觉得就是说可能还需要这个一点时间,同时我们也需要CNCC这样的大会。”

在题为《理解自然语言:描述、对话和隐喻》的主题报告中,沈向洋博士介绍了深度学习的发展前沿以及微软在人工智能上的战略。新智元整理后呈现如下:

理解自然语言:描述、对话和隐喻

沈向洋:

非常高兴今天能来到美丽的福州,感谢大家的邀请。

今天有机会在这里主要是给大家人工智能,讲我个人觉得什么是最重要的研究方向?首先要讲的是人工智能近年来的快速发展,大计算,大数据,精准模型,特别是在深度学习方面等一下我也会提到。还有就是感知和认知:感知中的视觉和语言进展飞速,但认知中的语言理解发展速度有限。我们感知研究的飞速发展,有两个方面,我们先来讲语音识别,它在标准测试上精度已经达到人类水平。

后来大家都知道,人类的误差率还有分是普通人的误差还是专家的误差。所以我们今天做的这个效果是非常好的,语音识别误差率比专家的水平都要低。我们的研究方向一直都是152层残差神经网络,我们在训练神经网络的时候有很大的困难我们到底是要多少层才能做到最优的结果?深度学习在图象识别的趋势中它的总体是更深更准。这里有一个很简单的介绍,就是这几年随着模型的深度越来越深,误差也是越来越低。

下一个十年,人工智能的突破在自然语言的理解。我最近老讲一句话就是“懂语言者得天下”。我们自己理解自然语言的三层层次是:怎么去表述,我们用机器学习就可以学到很多东西;第二步就到了机器智能领域,涉及对话以及提问,就比较困难了;第三点就是到了机器意识,意境,为什么就是有的人讲的东西你觉得比较有深度?实际上这三个层次的东西是可以转换的。

我们小的时候写作文,第一步是记叙,第二步就是论证,第三步,当文章开始写得有点水平了,我们开始写诗歌,写散文。所以这三个方面我今天希望和大家探讨。

第一步就是已经做的相当不错的机器语言,我用两个微软的工作来介绍,第一个就是微软认知服务,第二个就是微软应用软件Seeing AI。我简单介绍一下什么是Seeing AI:有一张图片,计算机系统会自动生成关于照片上面有什么东西的表述,包括这个人的动作、表情这些东西,大家有兴趣可以到微软的网页上看到这些介绍,我们还有很多其他视觉的服务。

跟大家解释一下,图像的描述它想解决什么样的问题?首先你要有一个语义空间,要把图像与文字联结起来。通过深度结构语义模型把图像和文字均表征成语义空间内的向量,在此空间中进行语义相似度计算。

因为就算我们有很好想法,如果你不去做系统,让大家去用看到你的问题在哪里,也还是会有问题。我们有一个项目就是有很多用户提供了问题,你把产品放出去之后用户会帮助你提供建议。比如我给大家看一个图片,上面有我们的结果,用户会说我们这个系统到底怎么样。

所以就是在做大数据的时候,大家一定要明白,一定要去分析数据。这在以后的好处就是不断迭代,越来越好,我相信在图像描述在现实生活中的应用。所以我自己觉得单从描述这件事情上,就可以有很多应用。

接下来我想讲的就是机器智能。我讲两个问题,第一就是对话即智能,从回答问题到提出问题,从一问一答到连续对话.之前是机器理解,之后是问答对话生成。阅读文本及提问,首先要深度理解语言,不仅能回答问题,还要能提出问题,还是就是如何提出问题,阅读并找出关键点,围绕关键点生成问题。比如讲读了一段文字以后,对它的理解怎么体现出来,了不起的是我读了这篇文章我可以自己提问题,并且我自己还可以回答,接下来解决的不仅是刚开始讲的从答问题到问问题。

我在这样简单解释一下,这个里边你要有一个记忆机制,并且要对话生成模型。要在回复生成的过程中提炼主要的观点,然后综合对话情感,用户画像,以及记忆,一个对话往往会发生多次话题的转换,时间越长的对话,越有机会被自然地引导入期望的话题。

第三点就是我今天要讲的相对来讲的是提出这样的问题,当我们在机器的描述到机器的对话,到底智能体现到哪里?比如讲图片你可以理解和表达意境,你可以有意识的脑补。从客观描述到主观评论,再到天马行空的意境,就是只可意会,不可言传的境界。到现在为止,人工智能的研究是人做了一些东西,有一个表征,通过你的输入,机器把这些进来的信息做成机器的语言,再进行深度学习,今天绝大多数的人工智能的科研都是停留在这一步,真正有意义的对人类有贡献的,就是你要把结果反向推理。为什么,因为你去脑补了这件事情。我们来看一下Image Caption的进步,它的表述和评论都充满了人情味。还有微软最近上线的一个比较激动人心的消息就是小冰写诗,这里就是讲整个诗歌这样的过程。

我再讲讲微软对话是人工智能产品的布局:第一个就是智能搜索,第二个智能助理,第三个智能客服,第四个智能聊天。我觉得每一次时代的变迁,都是在重新定义人类和世界的关系。现在就是说人类到世界之间,AI最了不起的就是对我们人脑的理解,一个叫做IQ,一个叫做EQ。任何一个时代你都要思考什么改变了我们的生活。 

最后我要讲“懂语言者得天下”,“不要人夸颜色好,只留清气满乾坤”。

收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款