分享视频对象识别与检测的思考

作者: CarlLee 分类: 技术方案,技术沙龙 发布时间: 2022-05-28 14:59

除了最少量的标准元数据之外,视频是一种不透明的媒体——一个信息“黑匣子”,其中的数据缺乏模式、上下文或结构。

可能并非总是如此——苹果的 TrueDepth 和三星的 DepthVision 等面向移动设备的相机已经可以捕获深度信息并将其直接传输到计算机视觉应用程序中,用于增强现实框架的开发、环境研究和许多其他可能的用途。

下一代最先进的移动捕捉设备也可能具有实时语义分割功能,通过后处理图像到文本的解释,将复杂的描述直接添加到镜头元数据中,在新一波的移动神经网络芯片上运行。不久的将来的标准视频片段甚至可能具有精细和更新的地理位置数据以及识别危险或暴力情况的能力,并在设备上触发适当的本地操作。

然而,除了可能阻碍人工智能视频捕获系统开发的隐私问题外,从长远来看,升级到这些系统的成本仍然高得令人望而却步。因此,学术和企业计算机视觉研究人员在过去 5-6 年的努力集中在从“哑”视频中提取有意义的数据,重点是用于视频片段中的自动数据收集和对象检测的优化和轻量级框架。

超拼科技技术团队在视频对象检测的挑战分享

一直以来我们尝试对象检测和自动视觉检查,需要在对象已手动注释并与高级概念相关联的图像上训练机器学习模型,例如循环神经网络 (RNN) 和卷积神经网络 (CNN)脸”、“马”或“建筑”)

在对数据进行训练后,机器学习系统可以在一定的公差参数内推断新数据中是否存在相似对象,假设数据没有通过监督或非监督学习过度拟合、数据选择不佳、学习率计划不合适,或其他可能使算法对“看不见的”输入无效的因素(即与训练模型的数据相似但不相同的数据)。

处理遮挡、重新获取和运动模糊

视频对象检测的一种方法是将视频拆分为其组成帧,并对每个帧应用图像识别算法。然而,这放弃了从视频中推断时间信息的所有潜在好处。

例如,考虑遮挡和重新获取的挑战:如果视频对象识别框架识别出一个人,然后被路过的行人短暂遮挡,系统将需要时间视角来理解它已经“丢失”了主题,并优先考虑重新获取。

主体可能会丢失,不仅是因为遮挡,还可能是由于运动模糊,如果相机移动或主体移动(或两者兼而有之)对画面造成足够的干扰,导致特征出现条纹或失焦,并且超出了识别框架来识别。

如果系统只是解析帧,则不可能有这样的理解,因为每一帧都被视为一个完整的(和封闭的)情节。

除了这个考虑之外,视频对象检测框架在计算方面识别和跟踪对象的成本低于在每帧基础上重复注册相同对象的成本,因为从第 2 帧开始,系统大致知道应该寻找什么。

离线视频对象检测

早期的时间相干性方法依赖于后处理识别,用户必须等待计算,并且系统接收足够的处理时间(以及对大量离线资源的访问)以实现高水平的准确性。

这种方法评估感知对象的行为,而不是关注它们的检测和识别,并且最适合作为其他基于视频的离线对象检测系统的辅助工具。

在过去十年中出现了各种其他事后视频对象检测系统,包括一些尝试使用 3D 卷积网络的系统,这些系统可以同时分析许多图像,但不是以通常适用于实时视频开发的方式物体检测算法。

光流

光流估计会生成一个 2D 矢量场,该场表示像素在一帧和相邻帧(之前或之后)之间的移动。

光流可以映射一段视频片段中单个像素分组的进度,提供可以执行有用操作的指南。它已经在传统的高数据视频环境中使用了很长时间,例如视频编辑套件,以提供可以应用过滤器的运动矢量,以及用于动画目的。

开源视频对象检测框架和库

TensorFlow 对象检测 API

TensorFlow 对象检测 API (TOD API) 在可能是计算机视觉领域最广泛传播和流行的库的上下文中提供 GPU 加速的视频对象检测。

TOD API 允许直接访问有用的框架库,例如 Faster R-CNN 和 Mask R-CNN(在 COCO 上),并且可以用作各种其他对象检测网络的前端,例如 YOLO

YOLO:实时目标检测

SSD 多功能盒

SSD MultiBox 是一种基于 Caffe 的单次检测器 (SSD) 系统,与 YOLO 一样,它使用单个神经网络生成特征图,从中计算在单个图像的切片中检测到的对象的概率分数。

尽管系统的两个版本——SSD300 和 SSD512——每个都声称比 YOLO 更高的帧速率/准确度得分,但应该考虑到它们没有针对默认的 YOLO 安装进行测试,并且 YOLO 已经分裂成许多有用的迭代。

国外技术成熟API汇总

谷歌视频智能 API

亚马逊识别

软图像处理 API

其他商业视频对象检测 API 包括:

  • Clarifai:位于特拉华州的 Clarifai 提供了一个图像识别 API,包含 14 个预训练模型,专门用于时尚识别和食品,以及常见物体、露骨内容、名人和面孔。
  • Valossa Video Recognition API: Valosa 在其 Video Recognition API 中提供了广泛的检测类型,包括实时面部分析、显式内容监控和场景索引。但是,其核心重点是本地视频监控解决方案。
  • Ximilar 视觉自动化: Ximilar 是一个以业务为中心的视频对象检测 API,明确强调时尚零售应用。尽管定制模型是可能的,但 Ximilar 将自己定位为有限范围对象域的一站式商店。