每日工作学习记录
✈️ 2022-05
🐯 2022-05-27
🍉 arXiv Paper
Fast Vision Transformers with HiLo Attention 关键词:Transformer, Attention
MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning 关键词:自监督学习, Masked Image Modeling
HIRL: A General Framework for Hierarchical Image Representation Learning关键词: Hierarchical 层级语义表征学习
SemAffiN...
A General Framework for Hierarchical Image Representation Learning NeurIPS_2022 在投
一篇投在NeurIPS_2022的工作
HIRL: A General Framework forHierarchical Image Representation Learning
Code刚开源
🦖 动机
当前自监督学习通过学习图片之间的语义相似度在视觉任务上取得了不错的效果,但是自监督学习尚未表明能获取层级语义信息,层级语义信息在自然界中是常常存在的,因此本工作提取了一种层级语义的自监督学习框架,且表明层级语义信息有助于提升当前自监督学习性能。
本文解决了两方面问题:
层级语义信息是否有助于当前的自监督学习模型如 MoCO 等
如何在自监督学习框架下实现多层级的图像语义信息的表征学习
🦖 内容
首先先了解下 Hierarchical Prototypes...
Inception Transformer NeurIPS_2022 在投
一篇在NeurIPS_2022 under review 文章, 改进现有 Vision Transformer 的工作,作者来自颜水成老师团队。
Inception Transformer
Code代码未开源
低频表征信息(Global):物体的全局形状、布局结构信息
高频表征信息(Local):物体的边缘纹理等信息
🦖 动机
原先的 Vision Transformer 通过全局性的 Self-Attention 来传递不同 Patch 之间的信息,以整合全局性信息,这种全局性信息被定义为低频信息 low-frequency, 多头注意力 MHSA 也被称为是 low-frequency Mixer. 全局信息一般是指物体的全局形状和布局结构信息等。
与 VIT 相...
弱监督定位WSOL
🦖 Adversarial Complementary Learning for WSOL CVPR-2018
🦖 动机
分类权重激活的区域往往是一些具有显著区分度的区域,而不显著区域往往被忽略,为了能够提取出尽可能多不显著的区域,作者设计一个对抗互补性学习方法。
对抗互补性学习:使用两个分支 \(A\) 和 \(B\) 预测 CAM, 使用其中一个分支的预测接过去 erasing 掉另一个分支,从而鼓励该分支能够关注更多不显著的区域,最后二者的预测结果综合起来作为最后的定位结果。
🦖 内容
模型结构如下:
🦖 DANet: Divergent Activation for Weakly Supervised Object Localization ICCV-2...
条件随机场DenseCRF在弱监督语义分割中的使用
在弱监督语义分割任务中,通过分类任务可以得到CAM结果,为了进一步更加准确的得到伪分割标签,往往会使用DenseCRF方法来refine得到的CAM结果。
该方法的实现如下所示,其中包括了一个超参数 $\alpha$, 该参数越大,则像素被分类成背景区域的可能性越小,反之越大。
def _crf_with_alpha(cam_dict, name, alpha=10):
# cam_dict 是一个存放了各个类别对应的像素mask的字典,图像有多少个 gt_label 字典里就存了多少个类的 mask
orig_img = np.ascontiguousarray(np.uint8(Image.open(os.path.join('/data/data/Seg_Dat...
语义分割paper list
Title
publication
author
main idea
CVPR-2022
CVPR-2022
CVPR-2022
CVPR-2022
CVPR-2022
CVPR-2022
CVPR-2022
CVPR-2022
CVPR-2022
CVPR-2022
常见的语义分割数据集Cityscape-COCO-VOC
](https://blog.csdn.net/chenzhoujian_/article/details/106874950)
coco 2017
COCO Stuff 164k数据集下载地址
coco2017 (ZSSeg中称之为COCO-stuff 164k) 简介
包括训练集118287张图片,5000张验证集图片作为测试集。
该数据集包括图像数据train_2017和val_2017,从上面的链接中可以下载标注数据stuffthingmaps,包括了stuff和thing这两个大类,前者指草地、天空这些语义类别,后者指人、车辆等可数的一些语义类别。
数据集的制作
数据集下载之后不需要做特别的预处理,只需要针对零样本分割任务做处理即可。...
实例分割SOLO系列介绍
SOLO: Segmenting Objects by Locations ECCV_2020
概要
实例分割的一般做法是两种:
一种是top-down,既先检测 bbox,后在每个bbox中进行mask的分割,例如Mask R-CNN
第二种为bottom-up做法,先分割出每一个像素,再进行归类。
不同于上面两种,SOLO是属于box free的做法,而且能够直接进行分割实例。
arxiv
github 基于mmdet实现
模型框架
类别与掩码双分支预测结构
整个框架的核心思想是将实例分割...
89 post articles, 12 pages.