视频异常检测(VAD)综述(译)

基于深度学习的无监督和半监督视频异常检测方法综述

摘要

​在监控应用中,视频是主要的信息源,但大多数时候没有标签。本文综述了最新的视频异常检测方法,并根据模型的类型和检测的标准进行分类。我们实现了简单的研究来理解不同的方法,并提出时空异常检测的评价标准。

关键词

无监督方法、异常检测、表示学习、自动编码器、长短时记忆、生成式对抗网、变分自动编码器、预测模型。

1绪论

​随着生成式模型(如VAE、GANs、LSTMs等)的出现,无监督表示学习成为了一个重要的领域。在机器学习和数据挖掘中,异常检测是无监督学习有名的子领域。由于图像的高维结构和帧间的非局域时间变化,使得图像和视频的异常检测具有挑战性。

我们回顾1.深度卷积架构来进行特征或者表示端到端学习。2.专门用于视频异常检测任务的预测和生成式模型。异常检测是一项无监督学习任务,其目标是识别数据中的异常的模式或运动(不常见或罕见的事件)。此外,异常很少被标注,并且标记了的数据很少可用于训练一个深度卷积网络来分离正常类和异常类。正常类的样例包含频繁出现的目标和顾虑的前景运动,而异常类包含了各种类型的稀有事件和未见过的目标,这被归纳为一类。所以这项任务很难。无异常的长视频流是可用的,用来为视频流上的移动窗口构建表示,在检测异常运动和外观(如场景中的异常对象)时,估计正常类的行为表现。

​给定一组没有异常的训练样本,异常检测的目标是设计或者学习一个特征表示(功能),能够捕获正常的运动和空间外观模式(这里,我感觉模式就是运动和空间外观的变化规律)。任意一个远离正常的异常可以通过 (几何上地在一个向量空间中 或 在给定一个模型的后验概率中)测量近似误差来判别,或者通过给定过去的值,对未来样本的条件概率建模,并在训练好的预测模型上测量测试样本的预测误差 ,这样就考虑了视频中的时间结构。

1.1 异常检测

​异常检测是一个无监督模式识别任务,可以在不同的统计模型下定义。在本研究中,我们将探讨用主成分分析进行线性近似的模型,用各种类型的自动编码器进行非线性近似的模型,以及最后的深层生成模型。

直观地,观察一个在不同变换作用下的复杂系统,正常的表现可以通过一些样本点描述,并根据上述的正常样本表现样例建立一个统计模型,对未见过的样例泛化能力很好。
正常类的分布$\mathscr{D}$可以通过训练样本$\mathbf{x}_{i} \in X_{\text { train }}$来估计,通过建立一个表示$f_{\theta} : X_{\text { train }} \rightarrow \mathbb{R}$,最小化模型整个训练样本的预测损失

$\theta^{*}=\underset{\theta}{\operatorname{argmin}} \sum_{\mathbf{x}_{i} \in X_{\text { train }}} L_{\mathscr{D}}\left(\theta ; \mathbf{x}_{i}\right)=\underset{\theta}{\operatorname{argmin}} \sum_{\mathbf{x}_{i} \in X_{\text { train }}}\left\|f_{\theta}\left(\mathbf{x}_{i}\right)-\mathbf{x}_{i}\right\|^{2}(式1)$

现在,测试样本$\mathbf{x}_{j} \in X_2{\text{ test }}$在这个表示$f_{\theta^{*}}$下的偏离程度被用来评估异常得分,$a\left(\mathbf{x}_{j}\right)=\left|f_{\theta^{*}}\left(\mathbf{x}_{j}\right)-\mathbf{x}_{j}\right|_{2} $用来度量偏离程度。对于上述模型,异常点是一些在模型$f_{\theta^{*}}​$评估后近似很差的样本点。通过在异常得分上评估一个阈值$a_{j}>T_{\text { thresh }}​$来实现检测。阈值是检测算法的一个参数,阈值的变化对检测性能的影响将会在ROC曲线下面积那一节讨论。对于概率模型,异常点被定义为那些位于在输入训练分布$P(\mathbf{x} | \theta)​$的低密度或低浓度区域的样本点。

​在动作识别、动作相似度、场景分类、目标识别、语义视频分割、人体姿态估计、人体行为识别等多种任务中,表示学习使得视频数据的特征提取变得自动化。视频中的无监督学习任务包括异常检测、无监督表示学习、视频生成模型、视频预测。

1.2 数据集

我们现在定义了视频异常检测问题的设置。被考虑的视频来自一个监控摄像头,背景保持静止,而前景则是行人、交通等移动物体的图像。异常事件是指与训练集中观察到的正常模式相背离的外观和运动模式的变化。图1中展示了几个例子:

图1

图1:前两行是UCSD,最下面一行是CUHK Avenue

​ 虽然这里我们没有详尽,但是我们列举了一些经常被用来评估的数据集。UCSD数据集是由行人组成的,在一个通常有行人沿着道路行走的场景中,异常时刻的实例对应于物体的出现,如自行车、轮椅和汽车。还有,在不寻常的地方行走的人也被认为是不正常的。在CUHK Avenue数据集中,异常对应的是一些奇怪的行为,比如一个人扔纸或包,向不寻常的方向移动,以及像包和自行车这样的不寻常物体的出现。在地铁进出站数据集中,人们在错误的方向移动,闲逛等被认为是异常现象。UMN数据集由展示异常的人群活动的视频组成,是视频异常检测问题的一个特例。火车数据集[12]包含火车上的移动人员。这些异常事件主要是由于火车上的人不寻常的移动。最后,伦敦玛丽女王大学的u型转弯数据集[13]包含了正常的交通和异常事件,如横穿马路和消防车的移动。近年来,有人提出了一种基于受控环境的LV数据集,并给出了具有挑战性的在线视频异常检测实例。

2视频异常检测中的表示学习

因为空间结构和局部时间的变化性,视频是高维度信号。视频异常检测的一个重要问题是学习表示输入样本空间到一个n维向量$f_{\theta} : \mathscr{X} \rightarrow \mathbb{R}^{d}$。学习特征的这个想法是去自动的找到一个关于输入空间好的表示,这考虑了这个问题重要的先验信息。根据天下没有免费午餐定理指出,对于每一个训练分布$\mathscr {D}$,不存在通用的学习器。继已建立的视频异常检测工作之后,该任务具体包括了:检测模型的偏离程度,如静态背景、正常人群的外观、光流运动、轨迹的变化等先验信息。建立一个参数化的模型$f_{\theta} : x \rightarrow \mathcal{Z} \rightarrow x$ ,在这个研究中,我们主要研究重构输入的表示,而潜在空间Z被限制不随输入的变化而改变,比如亮度的变化、场景中物体的平移等这些并没有偏离正常运动模式的变化。这提供了一种方法引入先验信息来重建正常样本。

2.1分类

本文的主要目标是为目前基于无监督和半监督方法的视频异常检测方法做一个简要的综述。本文将基本的视频表示或模型描述如下:

1) 用来重构的表示学习 :采用主成分分析(PCA)、自动编码器(AEs)等方法对图像(image)或运动(flow)进行不同的线性和非线性变换,这就为监控录像中的不良行为建立了模型。在重构很差的那种偏离程度表现为异常。

2)预测模型

文章目录
  1. 1. 基于深度学习的无监督和半监督视频异常检测方法综述
    1. 1.1. 摘要
    2. 1.2. 关键词
    3. 1.3. 1绪论
      1. 1.3.1. 1.1 异常检测
      2. 1.3.2. 1.2 数据集
    4. 1.4. 2视频异常检测中的表示学习
      1. 1.4.1. 2.1分类
|