了目标检测模型,在跟踪方面,研发团队选择Tracking-By-Detection(TBD) 范式的跟踪方法,例如BoTSORT,而TBD是目前多目标跟踪任务中特别有效的范式。
 
  图像分割
 
  使用YOLOv8做前向推理,获得n个目标框,将这n个目标框作为提示信息输入到SAM模型并推理,即可完成目标框的实例分割并且得到n个对应的掩膜,然后对这n个掩膜取并集,结果记为m。
 

使用YOLOv8做前向推理(图片来源:SAV)
 
  然后使用SAM做一次全局自动分割,将此时得到的掩膜图像记为m2。
 

使用SAM做全局自动分割(图片来源:SAV)
 
  由于YOLOv8无法检测到它不能识别的物体,可以设置两个超参数来确定新的物体,即未知区域与检测区域的交并比r,以及未知区域的像素个数n。具体而言,按面积对m2中的区域作降序排序,依次取出其中的区域,然后分别与m计算交并比,若交并比r小于0.3且该区域的像素个数n大于100,则认为该区域是一个新的物体。按照此方法处理m2中的所有区域,即可完成SAV分割单幅图像的全部流程。
 

SAV分割单幅图像(图片来源:SAV)
 
  视频分割
 
  SAV视频分割的原理可以简单描述为:
 
  1.使用YOLOv8检测某帧图像中的所有目标;
  2.使用跟踪算法预测后续帧中的目标框;
  3.根据检测到的目标框与当前轨迹集合相关联,获得每个目标的id;
  4.将目标矩形框输入SAM,进行实例分割。
 
  重复上述1~4步骤,实现视频分割。
 

SAV视频分割算法框架图(图片来源:SAV)
 
  效果展示
 

图像分割对比(图片来源:SAV)
 
  可以看出,SAV能够很好地解决文章开头提到的SAM存在的问题。
 
  四、潜在用途
 
  无人驾驶。特斯拉无人驾驶汽车经常会把树桩或者墓碑当成行人,这个对于无人驾驶来说是不利的,因为如果是电线杆子在路边的话,我们没必要让无人驾驶汽车减速,但如果是一个行人准备过马路的话,那么就需要预先作出处理。SAV可以有效地解决这种问题。
 
  无人机自主飞行。无人机自主飞行在密林中或者建筑物中,需要对所有的目标进行识别,并且做出恰当的反应。SAV将大大提高这种智能水平。
 
  机器人视觉。机器人行走在工厂或者街上的时候,如果不认得障碍物,不认得道路,不认得其他移动的物体,那将寸步难行。SAV将为机器人装上智慧的眼睛。
 
  重点区域防护。可连续追踪和识别每个目标,结合其他的算法对目标的身份和行为进行识别。确保重点区域的的每一个人,每一辆车都在管控的范围内。
 
  五、更多
 
  目前,SAV模型已开源,并在GitHub正式上线。感兴趣的朋友可以点击【阅读原文】或者直接前往https://github.com/cStor-cDeep/Segment-Any-Video了解,也欢迎向研发团队订制更高性能的大模型算法,联系方式如下:
 
  联系人:张先生
  邮箱:zhangkun@cstor.cn
  手机:15895885574(微信同号)
 
  参考文献
  [1] Kirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint arXiv:2304.02643, 2023.
  [2] Dillon Reis, Jordan Kupec, et al. Real-Time Flying Object Detection with YOLOv8[J]. arXiv preprint arXiv:2305.09972, 2023.

上一页
返回列表
返回首页
©2024 深度学习世界--关注深度学习应用,提供深度学习资料下载和技术交流 电脑版
Powered by iwms