论文阅读:Active Domain Adaptation with False Negative Prediction for Object Detection

Active Domain Adaptation with False Negative

论文:Active Domain Adaptation with False Negative

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition


Domain Adaptation 使模型适应具有不同特征的各种场景。在这一领域中主动域适应(active domain adaptation)对于有效采样目标域中有限数量的数据至关重要。这篇文章提出了用于目标检测的主动域适应方法:量化对象的不可检测性。通过使用主动采样策略减少漏报错误。以半监督的方法达到完全监督学习的性能。

1. Method

图一

1.1 Notation

有一组元数据(source data)$\mathcal{D}_{S}=\{(x_i^S,y_i^S)\}_{i=1}^{N_S}$,未标记的数据(unlabeled target data)$\mathcal{D}_{T}=\{x_i^T\}_{i=1}^{N_T}$,$x_i\in\mathbb{R} ^{W \times H \times 3}$表示数据集中宽高分别为$W$和$H$的第$i$张图片,$y_i = \{b_{i,j},c_{i,j}\}_{j=1}^{N_{bbox}^i}$包含了第$j$个边界框坐标$b_{i,j} {\in} \{x,y,w,h\}$和类别索引$c_{i,j}\in\{1,...,N_{c}\}$。$\mathcal{D}_T$包含了一组带标签的目标数据$\mathcal{D}_{LT} = \{(\boldsymbol{x}_i^{LT},\boldsymbol{y}_i^{LT})\}_{i=1}^{N_{LT}}$和无标签的目标数据$\mathcal{D}_{UT}=\{x_i^{UT}\}_{i=1}^{N_{UT}}$。在训练开始时给定$\mathcal{D}_{LT}=\emptyset$。

1.2 Overview

图一展示了整个流程。本文提出的方法涉及Domain Adaptation(DA)和Active Learning(AL)。传统的AL方法没有对目标检测中漏检对象采样的任何标准,这会导致许多的FN错误。本文方法具体过程如下:
  1. 在UDA训练中使用$(\mathcal{D}_S,\mathcal{D}_T)$初始化模型;
  2. 使用acquisition function从$\mathcal{D}_{UT}$中主动采样,labeling后混合到$\mathcal{D}_{LT}$中;
  3. 使用带标签数据$\mathcal{D}_S\cup\mathcal{D}_{LT}$和不带标签数据$\mathcal{D}_{UT}$以半监督Domain Adaptation模式训练模型
步骤(2)和(3)共进行5轮,具体流程如算法1所示。

算法1

1.3 Model Initialization

首先使用UDA训练适用于目标域的模型。通过使用梯度反转层 (GRL) 和域鉴别器的对抗性学习跨域执行特征级对齐。给定学生模型的检测模型和域鉴别器参数$\theta_s$和$\phi_s$,目标损失函数定义如下: $$ \min_{\theta_s}\max_{\phi_s}\mathcal{L}_{init}=\mathcal{L}_{sup}^S+\lambda\mathcal{L}_{adv}, \tag{1} $$ 其中$\mathcal{L}_{adv}$是源域中的监督损失: $$ \begin{aligned}\mathcal{L}_{sup}=&\mathcal{L}_{cls}^{rpn}(\boldsymbol{x}_i,c_i)+\mathcal{L}_{reg}^{rpn}(\boldsymbol{x}_i,\boldsymbol{b}_i)\\&+\mathcal{L}_{cls}^{roi}(\boldsymbol{x}_i,\boldsymbol{c}_i)+\mathcal{L}_{reg}^{roi}(\boldsymbol{x}_i,\boldsymbol{b}_i),\end{aligned} \tag{2} $$ $\mathcal{L}_{cls}^{rpn}$和$\mathcal{L}_{reg}^{rpn}$分别是RPN的分类损失和回归损失。$\mathcal{L}_{cls}^{roi}$和$\mathcal{L}_{reg}^{roi}$则分别是RoI head的分类损失和回归损失。$\mathcal{L}_{adv}$是对抗损失,定义如下: $$ \mathcal{L}_{adv}=-\log(1-D(F_{enc}(\boldsymbol{x}_i^S;\theta_s);\phi_s))\\-\log D(F_{enc}(\boldsymbol{x}_i^T;\theta_s);\phi_s), \tag{3} $$ 公式中$F_{enc}$和$D$分别是backbone和domain discriminator。 在使用UDA对$(\mathcal{D}_S,\mathcal{D}_T)$中所有数据训练后,将学生模型参数copy到教师模型中:$(\theta_t\leftarrow\theta_s,\phi_t\leftarrow\bar{\phi}_s)$。

1.4 Active Learning Based on False Negatives

False Negative Prediction Module

False Negative Prediction Module(FNPM)用于预测图像的FN错误数量,直观表示检测对象的难度。通过将FNPM预测集成到采集函数中,我们可以量化对象的不可检测性并主动选择包含更多信息的样本。 FNPM的架构采用deep neural networks(DNNs)预测FN错误数量,如图3所示。

图三

它接收backbone的输出feature,经过全局平均池化(GAP)和全连接层(FC)层。FNPM作为独立分支进行训练,损失函数定义为: $$ \begin{aligned}\mathcal{L}_{fn}=&(G(F_{enc}(\boldsymbol{x}_i^S;\theta_t);\psi)-\mathcal{FN}(F_{head}(\boldsymbol{x}_i^S;\theta_t),\boldsymbol{y}_i^S))^2\\&+(G(F_{enc}(\boldsymbol{x}_i^{LT};\theta_t);\psi)-\mathcal{FN}(F_{head}(\boldsymbol{x}_i^{LT};\theta_t),\boldsymbol{y}_i^{LT}))^2,\end{aligned} \tag{4} $$ $G$、$\psi$、$F_{head}$分别是FNPM、其参数和detection model的head。\mathcal{FN}(\cdot,\cdot)计算FN错误数。使用交替训练检测模型和FNPM。由于 FNPM 仅在主动采样过程中使用,因此在检测模型的训练过程中它保持不变。在主动采样之前,冻结检测模型的参数并仅更新 FNPM。这种方法使得简单稳定地优化检测模型和 FNPM 成为可能。

Uncertainty Estimation with MCDropout

量化由于模型扰动导致的定位预测的方差,并将其用作不确定性度量。通过将 MCDropout 层合并到检测头中,并重新表述预测的边界框坐标 ${\hat{b}}_i$ 和类概率${\hat{p}}_i$: $$ \{\boldsymbol{\hat{b}}_i(\xi),\boldsymbol{\hat{p}}_i(\xi)\}=F_{head}(\boldsymbol{x}_i;\theta_t,\xi),\mathrm{~where~}\xi\thicksim Ber(\eta), \tag{5} $$ $\xi$是从伯努利分布$ \thicksim Ber(\eta)$中采样的随机变量,用来决定 MCDropout 的开启或关闭。 这是一种变分推理(variational inference),使我们能够获得在伪概率分布下M次采样的多个预测$\hat{b}_{i,m}\sim\hat{b}_i(\xi),\hat{p}_{i,m}\sim\hat{p}_i(\xi)$,使用这些预测的均值作为预测结果($(\hat{\boldsymbol{b}}_i^{mean},\hat{\boldsymbol{p}}_i^{mean})$),方差作为定位不确定性$\hat{b}_i^{var}$。

Acquisition Function

本文基于上述提出了一种主动采样指标:即对四个指标进行组合评分。

Undetectability
使用FNPM估计图像的不可检测性,值越大表示样本的检测难度越大,样本的信息量越多,指标定义如下: $$ s_i^{fn}=G(F_{enc}(x_i^{UT};\theta_t);\psi), \tag{6} $$ Localization Uncertainty
使用之前提到的变分推理定义定位不确定性: $$ s_{i}^{loc}=\frac{1}{4N_{bbox}^{i}}\sum_{j=1}^{N_{bbox}^{i}}\sum_{k\in\{x,y,w,h\}}\hat{b}_{i,j,k}^{v\boldsymbol{ar}}, \tag{7} $$ 通过计算每个边界框的坐标位置的不确定性,来量化整个样本的定位不确定性。

Classification Uncertainty
通过对每个样本的所有边界框$N_{bbox}^i$和所有类别$N_c$的预测概率$\hat{p}_{i,j,k}^{mean}$计算熵: $$ s_i^{ent}=-\frac1{N_{bbox}^i}\sum_{j=1}^{N_{bbox}^i}\sum_{k=1}^{N_c}\hat{p}_{i,j,k}^{mean}\log\hat{p}_{i,j,k}^{mean}, \tag{8} $$ Diversity
使用域鉴别器来估计更好代表目标域分布的样本: $$ s_i^{div}=\frac{1-D(F_{enc}(\boldsymbol{x}_i^{UT};\theta_t);\phi_t)}{D(F_{enc}(\boldsymbol{x}_i^{UT};\theta_t);\phi_t)}, /tag{9} $$ Final Metric
对四个指标进行标准化: $$ \hat{s}_i^l=max(0,\frac{s_i^l-(\mu(s^l)-3\sigma(s^l))}{6\sigma(s^l)}), /tag{10} $$ $l \in \{fn,loc,ent,div\}$,$\mu(\cdot)$和$\theta(\cdot)$分布表示均值和标准差。 最终metric: $$ s_i^{all}=\hat{s}_i^{fn} \hat{s}_i^{loc} \hat{s}_i^{ent} \hat{s}_i^{div}, \tag{11} $$

1.5 Semi-Supervised Domain Adaptation

使用半监督学习框架来训练模型:我们对源和标记的目标域数据进行监督学习,对未标记的目标域数据进行无监督学习,并使用不确定性引导的伪标记来执行半监督学习。 损失函数: $$ \min_{\theta_s}\max_{\phi_s}\mathcal{L}_{total}=\mathcal{L}_{sup}^S+\mathcal{L}_{sup}^{LT}+\mathcal{L}_{unsup}+\lambda\mathcal{L}_{adv}, \tag{12} $$ $$ \begin{aligned} \mathcal{L}_{unsup}=& \frac1{N_{bbox}^i}\sum_{j=1}^{N_{bbox}^i}\mathbb{I}_{bbox}(\boldsymbol{\hat{b}}_{i,j}^{var}) \\ &[\mathcal{L}_{cls}^{rpn}(\boldsymbol{x'}_{i}^{UT},c_{i,j}^{PL})+\mathcal{L}_{cls}^{roi}(\boldsymbol{x'}_{i}^{UT},c_{i,j}^{PL})], \end{aligned}, \tag{13} $$ $c_{i,j}^{PL}$是伪标签,$\mathbb{I}_{bbox}(\cdot)$是indicator function: $$ \mathbb{I}_{bbox}(\boldsymbol{\hat{b}}_{i,j}^{var})=\begin{cases}1,&\text{if} \frac{1}{4}\sum_{k\in\{x,y,w,h\}}\hat{b}_{i,j,k}^{var}\leq\gamma\\0,&\text{otherwise,}\end{cases}, \tag{14} $$ $\gamma$是使用方差小于特定值的伪标签的阈值。
最后在学生模型通过等式$12$更新一次后,使用exponential moving average(EMA)更新教师模型: $$ \theta_t\leftarrow\alpha\theta_t+(1-\alpha)\theta_s,\quad\phi_t\leftarrow\alpha\phi_t+(1-\alpha)\phi_t, \tag{15} $$ $\alpha$是平滑因子。

2. Experiments

图四

对比sota的UDA和ADA方法,本文提出的方法的性能在准确性方面超过了几乎所有传统方法。在使用 5% 的标签预算的情况下实现了几乎与 Oracle (完全标记的目标域数据集的监督学习)相同的性能。 AADA† 代表通过重新实施进行的评估。

图五

图五说明了对比其他方法,本文提出的主动采样策略的有效性。 其他的消融实验请参考原文。

我很可爱,请给我钱

其他文章
请输入关键词进行搜索