半监督与弱监督目标检测结合下的新任务WSSOD-P调研
🍉 Weakly Semi-Supervised Object Detection with Points (WSSOD-P)
目前看到的公开的关于半监督弱标注点目标检测的工作一共有以下三个:
Points as Queries: Weakly Semi-supervised Object Detection by Points Code已开源 关键词:半监督弱标注点目标检测 DETR
Group R-CNN for Point-based Weakly Semi-supervised Object Detection Code已开源,基于MMDet关键词:半监督弱标注点目标检测 RCNN
Point-Teaching: Wea...
Masked Distillation with Receptive Tokens NeurIPS_2022 在投
Masked Distillation with Receptive Tokens
Code 已开源
Masked Distillation with Receptive Tokens
A Closer Look at Self-supervised Lightweight Vision Transformers NeurIPS_2022 在投
A Closer Look at Self-supervised Lightweight Vision Transformers
Code 未开源
Masked Distillation with Receptive Tokens
Super Vision Transformer NeurIPS_2022 在投
作者来自厦门大学的 Rongrong Ji团队,作者名单里还有chunhua shen 老师。
Super Vision Transformer
Code
这名字听着很霸气!
🦖 动机
🦖 方法
🦖 实验
MixMIM Mixed and Masked Image Modeling for Efficient Visual Representation Learning NeurIPS_2022 在投
作者是商汤和港中文的李鸿升老师团队。
MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning
Code
🦖 动机
🦖 方法
Fast Vision Transformers with HiLo Attention NeurIPS_2022 在投
作者是蒙纳什大学Jianfeng Cai团队
Fast Vision Transformers with HiLo Attention
Code未开源
🦖 动机
作者的动机和之前的 Inception Transformer 相似,即使 VIT 中 MHSA (多头自注意力较多关注低频的全局性信息,而对局部的高频信息关注不够),作者的解决方案是把 MHSA 的多个头进行分组,一组编码高频信息,一组编码低频信息。
🦖 方法
作者首先指出之前的VIT以及其改进版本在速度上其实并没有快多少,要么就是复杂高,需要大量时间访问内存,要么就是引入了一些额外操作,对GPU硬件不友好。
为此作者认为评价一个VIT是否速度快应该是吞吐量 throughout 而不是 FLOPs。
然后作...
Coarse-to-Fine Vision Transformer BMVC-2022
作者是厦门大学 Rongrong Ji 团队。
Coarse-to-Fine Vision Transformer
Code已开源
🦖 动机
作者动机是想设计一个更加高效的 VIT, 图像冗余信息较多, 造成 VIT 过于昂贵的计算量,提出的
两阶段 VIT 包括 coarse inference stage 和 fine-grained granularity stage。
在粗粒度阶段,切分的 Patch 比较大,序列长度短,可以进行更加高效的全局注意力计算,而后 如果分类的置信度不高,就再执行 fine-grained granularity stage, the informative patches are identified and furt...
AdaptFormer dapting Vision Transformers for Scalable Visual Recognition NeurIPS_2022 在投
AdaptFormer: dapting Vision Transformers for Scalable Visual Recognition
Code
作者是港大罗平老师团队。
这个工作对标的是 3月份出的 VPT: Visual prompt tuning以及 Visual prompting: Modifying pixel space to adapt pre-trained models, 不得不感慨作者的速度太快了。
🦖 动机
Vision Transformer 在计算机视觉中取得了较大的成功,但是在下游任务中微调 VIT 其实是一个比较耗费成本的事情,微调大量的参数比较费劲。作者就想着引入较少的参数,在不用微调全部参数的情况下取得和微调全部参数一样好甚至更优的...
89 post articles, 12 pages.