论文阅读:Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector

Cross-Domain Few-Shot Object Detection

论文:Cross-Domain Few-Shot Object Detection

ECCV2024

本文研究了具有挑战性的跨域少样本目标检测(CD-FSOD)。

评估Domain Difference的三个指标:

  • Style:我们认识到风格在各种领域相关任务中的关键作用,例如领域适应、领域泛化和跨领域小样本学习。常见的风格有写实、卡通、素描等。
  • Inter-class variance (ICV):ICV 是学习中广泛使用的指标,用于衡量类别之间的差异。 ICV 值越高表示语义标签的识别越容易。像 COCO 这样的粗粒度数据集通常具有较高的 ICV,而更细粒度的数据集则表现出较小的 ICV 值。
  • Indefinable Boundaries (IB):IB来自伪装物体检测,反映了目标物体与其背景之间的混淆程度。更大的混乱给物体检测器带来了挑战。例如,在干净的背景下检测一个人相对简单,但识别珊瑚礁中的鱼则更具挑战性。

图一是本文使用的实验benchmarks。

图一

Methodology

Overview of CD-ViTO

图二

给定一个查询图像 $q$ 和一组支持实例 $S$,DE-ViT 首先使用 DINOv2 提取实例特征 $F_{ins} = {F^{ob}_{ins}, F_{bg}^{ins}}$,其中 $F^{ob}_{ins}$ 表示前景对象的特征,$F_{bg}^{ins}$表示背景实例的特征。
这里重点介绍Instance Reweighting和Domain Prompter模块

Instance Reweighting Module

$M_{IR}$来实现高质量的对象实例,可以使具有轻微 IB 的对象对类原型贡献更多。 给定来自 $M_{LIF}$ 的可学习实例特征 $F^{lea}_{ins}$ ,我们首先从 $F^{lea}_{ins}$ 中获得对象实例特征,并将其表示为 $F^{0}_{ins} \in \mathcal{R}^{N\times K \times D}$。我们的 $M_{IR}$ 有两条以残差方式连接的路径。更具体地说,下面的路径将 $F^{0}_{ins}$ 馈送到 MLP 模块中得到加权分数,该分数进一步用于对初始$F^{0}_{ins}$进行加权求和,从而得到变形原型 $F_{pro}^{att}\in \mathcal{R}^{N \times D}$。上路径对$F^{0}_{ins}$进行平均运算,得到$F_{pro}^{avg}\in \mathcal{R}^{N \times D}$。最终的对象原型 $F^{ob'}_{pro}$ 表示为 $\alpha \text{fc}(F^{att}_{pro}) + (1 −\alpha)F^{avg}_{pro}$,其中$fc(\cdot)$是全连接层,$\alpha$是超参数。结合$F^{ob'}_{pro}$ 和背景特征,我们形成了新的原型$F^′_{pro}$。

Domain Prompter

具体来说,给定 $F_{domain}$ 和 $F^{ob'}_{pro}$,我们首先提出域多样性损失 $\mathcal{L}_{domain}$ 来迫使不同的域(例如 $f^{d_i}$ 和 $f^{d_j}$)彼此远离。 其次,对于$F^{ob'}_{pro}$中的原型 $f_{p_i}$,我们用从 $F_{domain}$ 采样的两个不同的域 $f^{d_k}$ 和 $f^{d_m}$ 随机扰动它,形成两个扰动原型 $f^{d_k}_{p_i}$ 、 $f^{d_m}_{p_i}$ 。扰动是通过添加特征来完成的,例如 $f^{d_k}_{p_i} = f_{p_i} + f^{d_k}$ 。域$f^{d_m}$也被添加到其他对象原型中,形成 $f_{p_j}^{d_m}$ ,其中 $j = {1\cdots\cdots N}$ .我们限制 $f^{d_k}_{p_i}$ 和 $f^{d_m}_{p_i}$ 应该彼此靠近,同时远离不同类原型生成的扰动原型。这构成了我们的原型一致性损失$\mathcal{L}_{proto}$。 $\mathcal{L}_{domain}$和$\mathcal{L}_{proto}$都是通过InfoNCE损失实现的,如下:

Experiments

我很可爱,请给我钱

其他文章
请输入关键词进行搜索