你好,游客 登录
背景:
阅读新闻

自动驾驶人工智能技术背后的人类机械工作

[日期:2017-07-24] 来源:亿欧网  作者: [字体: ]

2017 已进入下半年,随着Level3车型奥迪A8量产消息的公布,现代也准备提前公布“在高速公路上接近Level 3”的半自动驾驶技术,在接下来的时间,我们似乎能够看到更多量产的自动驾驶汽车涌入视野。

自动驾驶背后的支撑技术之一——深度学习在汽车的环境感知阶段具有重要意义:为汽车提供“智能视觉”,承担物体识别、追踪和预测的功能,感知并理解周围环境中的行人、车辆以及交通标识,帮助汽车完成决策过程。然而要训练AI实现高精度的识别能力是极为耗时耗力的过程。亿欧智库研究团队对此进行一些必要的解读分析。

为何需要图像标注?一个必须的过程。

目前主要用于自动驾驶的视觉传感器——即摄像头包括单目摄像头和双目摄像头。单目摄像头首先识别物体,再利用几何、光学的原理进行测距。双目摄像头则模拟人类视觉,利用视差测算视野中物体的距离,抓取外形完成识别。无论单双,摄像头均需要进行对拍摄图像中的物体进行识别和理解,为自动驾驶系统提供决策依据。

深度学习方法是图像识别的支撑技术。在自动驾驶的视觉识别领域,目前主要采用监督式的深度学习算法,即 对摄像头获取的大量图像中的各种物体进行特性的标注,然后训练AI,使其能够检测出图像中的不同物体,继而依据各自的特征进行分类识别,乃至于实现车辆定位、物体动态跟踪的技术。 高质量的训练样本的规模是巨大的:全球知名的 计算机视觉识别数据库ImageNet拥有1500万张有效图片,覆盖了22000种物品。该项目还通过历年组织的挑战赛来评估数据库中物体识别、图片和场景分类算法的能力。到现在,ImageNet竞赛的算法识别精度已经达到95%以上,使计算机视觉开始超越人类识别图片的水平。此外,谷歌发布的大型视频数据集 YouTube-8M则包含了 700 万个 YouTube 视频的 URL,即 45 万小时长度的视频,并带有视频的特征标注。

AI 训练背后的高强度人类机械式工作

ImageNet 的图像识别成绩出色,但背后的录入过程是极为简单粗暴的机械式工作:项目组通过网络将任务众包出去,汇集了5万多人去完成10亿张备选图片的筛选标注。 类似于使用photoshop手动抠图,工作人员需要细致到像素级别,描绘出不同物体的轮廓,分别着色,从而完成所谓“图像语义分割”的过程。 数量足够多之后,图像、视频的质量也有要求,在标注之前往往还需要筛选分类(例如剔除低质量图片、根据天气情况分类)的过程。知名的人工智能平台Might AI也是通过众包形式,对员工进行培训,对数千小时的视频逐帧进行物体标记。像Waymo、通用、特斯拉均是这些数据库的客户。尽管ImageNet开放共享了名下数据以方便研究,22000种物品的覆盖度也的确很多,但随着汽车路测里程越来越多,驾驶的范围越来越广,需要标记、分类的人力需求也将越来越大,更何况还需要考虑不同天气、光照水平下物体在图像中的不同呈现。这样的情况与人工智能精神(使人力摆脱于枯燥简单的劳动)两相对比,竟显得有些黑色幽默。

业界改变图像数据标注低效现状的尝试

1. 把自动驾驶训练搬到虚拟平台

既然难以高效完成数据的像素级标记和所有情况的覆盖,有人尝试将深度神经网络训练搬到虚拟平台。Intel实验室、德国达姆施塔特工业大学、普林斯顿大学、密歇根大学均使用游戏《侠盗猎车手5》(简称GTA V)来模拟研发自动驾驶。GTA V因其逼真的开放世界而闻名,游戏中还原程度很高的交通场景已经尽可能地覆盖了不同的天气情况,不同的路段,以及有可能发生的一些突发状况,研究人员完全可以借助这一已有的模型进行AI训练,不仅省去了搭建模拟驾驶平台的时间,从数据采集、数据标注、场景覆盖来讲,效率都有相当程度的提高,降低测试成本。例如,游戏中的每个物体都有自己的模型和属性,因而在使用模拟图片进行AI训练时无需数据标记,便能直接输入到算法之中完成识别,再经过适当地纠正,转而运用到现实测试之中。

2. 改变图像传感器识别机制

法国初创公司Chronocam另辟蹊径。以往的图像传感器多是通过抓取静态的路况图片采集数据,而存取的大量重复图像又降低了图像识别和数据处理的效率。Chronocam的事件驱动型传感器则只关注图像中局部像素点的动态变化,从而探测物体的存在。目前该公司仍在构建适用于动态信息处理的数据库,使动态像素点能够对应于各自的物体属性。这个过程是否仍沿用手工标注图像不得而知,不过从其降低AI训练的数据需求量的角度来讲,确实有助于图像识别和处理效率的提高。Chronocam已经在去年得到英特尔、雷诺等公司的1500万美元投资,并和雷诺、尼桑展开一年多的测试,计划于明年推出产品。

3. 从监督式学习向弱监督、无监督过渡

不同于像素级标注的监督式学习方法,有不少研究者将注意力转移到弱监督条件下的图像语义分割技术。图像仅需做出级别标注,如有人/无人、有车/无车,并不需要像素级数据便可获得与现行方法可比的精度。需要说明的是,监督式学习的特征就是对算法提供有所标记的训练样本,而弱监督学习对这方面做了弱化,无监督学习则完全忽略这个过程,半监督学习则是监督学习和无监督学习的结合。不同的方式所需要的人力介入度和人工成本是不相同的,监督式学习便是其中最耗时耗力的。

Drive.ai 也在处理这部分的工作,他们利用深度学习算法辅助自动标注,因此,公司只需要维持一支小规模的团队关注新场景新型训练,以及验证自动标注的结果。国内的自动驾驶公司Momenta也声称能够通过非监督、算法辅助、渲染生成等方式生产大量标注数据。而且,该公司正在构建的标注平台可以把标注成本降低到市面价格的1/3~1/4。

亿欧智库综合以上信息判断,应该乐观地认为,人力要求很低的弱监督、无监督学习的AI训练方法将在不久之后替代繁杂的标注工作,毕竟,人工智能是为了把人从机械的劳动中解放出来的,而不是关进新的笼子里。

本文作者李星宏,亿欧专栏作者;微信:lixinghong2013(添加时请注明“姓名-公司-职务”方便备注);转载请注明作者姓名和“来源:亿欧”;文章内容系作者个人观点,不代表亿欧对观点赞同或支持。

收藏 推荐 打印 | 录入:admin | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款