你好,游客 登录
背景:
阅读新闻

独家 | 阿里机器视觉专家李名杨:AR 是 AI 的一种体现方式

[日期:2017-11-09] 来源:雷锋网  作者: [字体: ]

阿里巴巴 AI Labs 机器视觉杰出科学家李名杨

在不久前的云栖大会上,阿里巴巴人工智能实验室 AI Labs 公布了三件大事:一是 AliGenie 升级为语音开放平台,二是宣布阿里 AR 开放平台,三是推出天猫路由器。随后,阿里巴巴宣布前微软亚洲研究院首席研究员聂再清,以及前谷歌 Tango 和 Daydream 项目技术主管李名杨入职阿里 AI Labs,前者担任 AI Labs 北京研发中心总负责人,后者担任 AI Labs 机器视觉杰出科学家。从平台产品到人才,阿里对 AI 的大力投入。

日前,雷锋网在北京阿里办公室见到了李名杨博士。他在谷歌待了三年,担任 Daydream/Tango 项目技术主管,主要研究领域是视觉-惯导里程计(VIO)和即时定位与地图重建(SLAM),在该领域拥有 20 多篇顶级论文及相关专利。

在谷歌工作期间,他的研究重心为多传感器融合和 SLAM 领域,包括技术的理论创新和商业化,也参与了 Tango、ARCore,以及 Daydream 的相关技术研发。

他告诉雷锋网,离开谷歌,选择加入阿里,一方面因为 ARCore 已经正式发布,圆满完成了一个项目;另一方面是阿里“非常支持科研”,而且“阿里想做的东西都和我希望做的东西十分契合,这对自己是很好的做科研和技术环境。”

加入 AI Labs 后,他将专注于计算机视觉和传感器融合技术的研发,同时根据阿里不同的应用场景,开发技术,给用户带来好的体验。

如何评价阿里 AR 开放平台?

云栖大会上,AI Labs 负责人浅雪宣布阿里 AR 开放平台,该平台面向开发者开放 2D 识别追踪、3D 识别追踪、内容制作平台、高质量渲染引擎等核心能力。开发者在已有的 APP 中接入 SDK 套件,即可快速创建 AR 内容,无需担心开发算法、使用传感器、GPU 优化等难题。同时,AR 内容平台阿里火眼可将开发者创建的 AR 内容直接传递给消费者。

现场还演示了一些功能,如家装应用,通过手机 AR 查看家具或电气在家里的位置摆放,跟宜家基于 ARKit 制作的 IKEA Place 很类似;使用阿里火眼 APP,手机扫描恐龙图片后,会呈现虚拟的 3D 恐龙;识别 3D 实体,用手机扫描天猫精灵后,会显示其名称、价格等。

据浅雪介绍,阿里 AR 开放平台已经有三年的技术积累,此前阿里内部的天猫、聚划算、一淘网,以及今年的淘宝造物节都有关相关的 AR 应用。也是因为阿里内部有不错的应用先例,他们决定对行业开放。

刚加入 AI Labs 的李名杨对这个 AR 开发平台十分认同。他表示,该平台提供给开发者一个制作 AR 内容和 APP 的工具,最后传达给消费者。“对 AR 来说,现在有一定的技术,但还需要足够的内容,才能吸引消费者使用,平台是非常有用的。”

自从苹果 ARKit 和谷歌 ARCore 发布以来,AR 被行业看好,也产生了越来越多的应用,但阿里的 AR 开放平台与它们相比,还是有很大的不同。

李名杨解释,

“苹果和谷歌做的是非常好的技术和平台,更贴近于手机操作系统,但阿里的 AR 开放平台更贴近于开发者,或者是用户,目标对象或是方式不是完全一样的,而且我们也希望通过这个平台积累更多的用户和内容,这对 AR 很重要。”

雷锋网 (公众号:雷锋网) 之前发布的文章 《苹果 ARKit 凭什么碾压对手》 中,Super Venture 合伙人 Matt Miesnieks 详细指出了 ARKit 背后的基本原理,以及硬件对 AR 功能的重要性。A11 Bionic 芯片更被看做是今年苹果发布会最重要的两点,那么没有硬件会不会成为阿里 AR 开放平台的短板?

李名杨表示,AR 技术有的部分对硬件支持需求比较大,例如 “ AR 都需要图像处理,图像处理到底是在 CPU 上完成,还是在别的地方完成,这个是需要硬件支持。对硬件厂商来说,可以更自由地选择,释放一些计算量在 CPU 上面。 ” 他讲到,像 Facebook 此前演示的 AR 拍照功能,也是没有硬件支持,“如果都需要硬件,大家可能没法做”。

AR 是 AI 的体现方式

去年双 11 ,阿里展示了 VR 购物 Buy+,并且很早成立实验室 GM Lab,专注于 VR 技术研发。阿里 AR 开放平台不仅由 AI Labs 发布,而且还归属在 AliGenie 开发者平台内,这让很多人感到疑惑。

李名杨透露,天猫和淘宝早先都有自己的研发团队,但现在这些研发人员都归属在 AI Labs 下面,共同支持不同业务部门的需求。“研发团队如果分散也不是特别好,很多功能和设计都可以相互借鉴和互补。”

在他看来,AR 是通过手机传感器对世界的理解,然后把世界翻译成数字的语言,“AR 本身就是一种人工智能体现的方式”。同时,“人工智能是人机交互的方式,希望知道人和机器如何交互,而人和人交互是通过眼睛、嘴巴、鼻子,AR 和天猫精灵都是一种交互方式,所以在同一个平台 AliGenie,是有道理的。”

不过,AliGenie 如何具体释放 AR 功能,还要等阿里之后的产品进展。

比起手机,头显对追踪定位要求更高

谷歌 ARCore 的演示画面

到 AR,我们总离不开对 Tango 的讨论,而去年 11 月份,谷歌宣布将 Tango 团队并入 Daydream 部门,由谷歌 VR 部门的负责人 Clay Bavor 统一管理。今年 ARCore 推出后,国外有开发者戏称,“ARCore SDK 就像是他们随便地把 Tango SDK 改了个名字,注释掉深度相机那块代码”,算是“低配版的 Tango ”。李名杨说,“本质技术是非常相似的,都是通过单目摄像头和 IMU 实现跟踪定位的功能,没什么低配和高配的区别。在不同的地方,依赖不同的硬件,效果不是特别一样。”

值得注意的是,不管是 Tango,还是苹果 ARKit,追踪定位都是由单目摄像头完成的,而其中使用的 SLAM 技术与头显采用的双目 Inside-out 追踪定位也有相通之处。

但显然,手机和头显的体验非常不同,这对精度和稳定性的要求也发生了变化。

李名杨举例说,“如果用手机玩 AR,100 次中成功 99 次,有一次需要重启,用户是可以接受的。但是 VR 设备,如果有一次让用户有眩晕,甚至呕吐,就是不可接受的。因为头戴设备使人的感知系统非常敏感,要保证头戴设备的 SLAM 技术做的更稳定,更精准,这要求很高。”

现在,微软已经开始陆续推出一系列 Windows MR 头显,Oculus 宣布新的一体机,谷歌也在研发相关的方案,至于这些厂商们采用的 Inside-out 方案是否足够成熟,李名杨说这得用户说了算,看明年用户的体验。

AR还有哪些难以攻克的技术?

此前, 天猫互动技术专家蒋佳亿在《有了 ARCore 和 ARKit,AR 行业还能做啥?》 一文中谈到,AR 行业还有哪些可研究的方向,包括引擎、产品和交互、数据化和 3D 化等等。李名杨也提到 AR 很多难点还没有攻克。例如,没看到一款真正的 AR 眼镜;AR 语义理解,虽说可以实现一定的跟踪定位,但很难实现对环境的理解等。

其实,我们打开 ARKit 应用时,首先要做的就是确定一个平面,然后在这个平面上产生其他 AR 内容。而这只是最基础的一步,“从点到线,到面,再到三维物体,这是一步步进化的过程。如果实现人机流畅的交流,就想要知道整个环境,环境中有什么物体,这些物体是什么,相对位置是什么样……”

李名杨说,

“目前还没有看到相关的产品发布,这是需要非常多技术融合在一起的,尽管学术界有很多文章讨论解决这样的问题,但成熟度还欠缺一点。SLAM 可能是这个方向的一个技术,但 SLAM 追踪定位提供一些功能后,你才能基于此研发上层的东西。”

他坦言,SLAM 还有很多研究的方向,现在只是对于移动端,可以通过已有的技术输出一些产品,但要给用户带来更好的体验,还需要其他的技术积累。

从谷歌到阿里,李名杨没有感受到太大的差别,他开玩笑地说“语言和吃的事物”变化最大。或许,阿里也能更好地将这些技术研究落地到实际的应用中。我们期待,未来阿里如何将技术与产品相融合。

收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款