大模型机器视觉新突破，SAM进化版SAV来了：分割一切视频！开源！

了目标检测模型，在跟踪方面，研发团队选择Tracking-By-Detection(TBD) 范式的跟踪方法，例如BoTSORT，而TBD是目前多目标跟踪任务中特别有效的范式。

　　图像分割

　　使用YOLOv8做前向推理，获得n个目标框，将这n个目标框作为提示信息输入到SAM模型并推理，即可完成目标框的实例分割并且得到n个对应的掩膜，然后对这n个掩膜取并集，结果记为m。

使用YOLOv8做前向推理（图片来源:SAV）

　　然后使用SAM做一次全局自动分割，将此时得到的掩膜图像记为m2。

使用SAM做全局自动分割（图片来源:SAV）

　　由于YOLOv8无法检测到它不能识别的物体，可以设置两个超参数来确定新的物体，即未知区域与检测区域的交并比r，以及未知区域的像素个数n。具体而言，按面积对m2中的区域作降序排序，依次取出其中的区域，然后分别与m计算交并比，若交并比r小于0.3且该区域的像素个数n大于100，则认为该区域是一个新的物体。按照此方法处理m2中的所有区域，即可完成SAV分割单幅图像的全部流程。

SAV分割单幅图像（图片来源:SAV）

　　视频分割

　　SAV视频分割的原理可以简单描述为：

　　1.使用YOLOv8检测某帧图像中的所有目标；
　　2.使用跟踪算法预测后续帧中的目标框；
　　3.根据检测到的目标框与当前轨迹集合相关联，获得每个目标的id；
　　4.将目标矩形框输入SAM，进行实例分割。

　　重复上述1~4步骤，实现视频分割。

SAV视频分割算法框架图(图片来源:SAV)

　　效果展示

图像分割对比(图片来源:SAV)

　　可以看出，SAV能够很好地解决文章开头提到的SAM存在的问题。

　　四、潜在用途

　　无人驾驶。特斯拉无人驾驶汽车经常会把树桩或者墓碑当成行人，这个对于无人驾驶来说是不利的，因为如果是电线杆子在路边的话，我们没必要让无人驾驶汽车减速，但如果是一个行人准备过马路的话，那么就需要预先作出处理。SAV可以有效地解决这种问题。

　　无人机自主飞行。无人机自主飞行在密林中或者建筑物中，需要对所有的目标进行识别，并且做出恰当的反应。SAV将大大提高这种智能水平。

　　机器人视觉。机器人行走在工厂或者街上的时候，如果不认得障碍物，不认得道路，不认得其他移动的物体，那将寸步难行。SAV将为机器人装上智慧的眼睛。

　　重点区域防护。可连续追踪和识别每个目标，结合其他的算法对目标的身份和行为进行识别。确保重点区域的的每一个人，每一辆车都在管控的范围内。

　　五、更多

　　目前，SAV模型已开源，并在GitHub正式上线。感兴趣的朋友可以点击【阅读原文】或者直接前往https://github.com/cStor-cDeep/Segment-Any-Video了解，也欢迎向研发团队订制更高性能的大模型算法，联系方式如下：

　　联系人：张先生
　　邮箱：zhangkun@cstor.cn
　　手机：15895885574（微信同号）

　　参考文献
　　[1] Kirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint arXiv:2304.02643, 2023.
　　[2] Dillon Reis, Jordan Kupec, et al. Real-Time Flying Object Detection with YOLOv8[J]. arXiv preprint arXiv:2305.09972, 2023.