ChengYue's Cat

styleGAN_v1

styleGAN_v2

motivation

当前的基于嵌入的方法存在一个问题,如motivation图所示,在zsl任务中,类别的语义嵌入往往是人为定义多个语义属性的组合,而类别的视觉特征也可以看做是由多种独立变量控制的外在表征的混 合,并含有较多语义噪声。以往的zsl方法尤其是基于嵌入式的方法是基于类别整体或者说全局的语义嵌入与样本整体视觉特征的对齐来实现局部语义属性对齐和向不可见类的知识迁移,而基于整体的笼统对齐难免会导致局部或者是单个语义对齐的含糊问题,单个或者局部的语义属性除了和有关的视觉特征对齐外,也有较高可能与其它同样显著的视觉特征甚至是背景噪声形成某种对应关系,Semantic Concentration for Domain Adaptation:Enforcing feature alignments in such case will negatively influence the correct matching of objects and consequently lead to the semantically negative transfer due to the confusion of irrelevant semantics.

为了弥补这种不足,我们需要更加专注的集中式的语义对齐。更加专注的语义对齐的挑战在于我们能够获取局部的语义属性,但是我们无法直接得到对应的视觉表征。直觉上,如果每个类别的视觉表征和语义属性取得较好的对齐,那么这些类别的公共视觉表征和公共语义属性也存在潜在的对齐关系。此外,这些类别特征的线性混合在视觉上也与各个类别存在相似关系[1]。基于此我们提出了Concentrated Semantic Regularized Alignment for Zero-shot Learning (CoSRA_ZSL) (参考了FSS的一篇文章题目[0])。我们的模型包括两个模块,一个是 Concentrated Semantic Alignment (CSA), 另一个是 Consistency-Oriented Feature Refinement (CoFR). Inspired by mixup, 除了保持类别整体的视觉-语义对齐外, CSA将目光转向更为广阔的视觉和语义空间,巧妙地利用来自其他类别的样本对某一类别的视觉特征进行语义的修正tampering, 与[1]在两个样本的直接线性相加不同,我们的CSA通过相似度度量作为权重,同时可以混合视觉空间当中更多样本点, 更加高效。 正如mt3图所示,==间相似的语义信息会被较大程度保留,不相似的语义信息则被一定程度上的削弱,使得语义在局部上表现更加集中上。== 修正后特征更加强调突出 accentuates (强调) 局部的语义特征,在一定程度上可以解决前面提到的全局对齐当中存在的问题。当目前来看,CSA 似乎能很好解决语义对齐问题,但该方法的实施效果其实受到了 语义一致性 (Semantic consistency) 的深刻影响:由于CSA需要在视觉 $V$ 和语义属性 $S$ 两个空间对特征编码进行修正或者说是高维流形空间上做插值,那么我们希望a fixed-size step in S corresponding with a non-zero, fixed-magnitude change in the image visual space V regardless of the direction [2]。 在zsl任务中,这种现象主要是由欠妥的视觉表征导致的,因此设计提出了 CoFR模块通过约束视觉在隐空间的分布(视觉特征嵌入到属性空间)更加符合真实分布即类别属性来缓解语义一致问题。 结合CoFR模块一起使用,CSA模块可以实现更加优秀的视觉语义对齐。

[0] Region Proportion Regularized Inference (RePRI) for Few-Shot Segmentation
[1] Manifold mixup: Better representations by interpolating hidden states
[2] Analyzing and Improving the Image Quality of StyleGAN. … 3.2. Path length regularization