Home

半监督与弱监督目标检测结合下的新任务WSSOD-P调研

🍉 Weakly Semi-Supervised Object Detection with Points (WSSOD-P) 目前看到的公开的关于半监督弱标注点目标检测的工作一共有以下三个: Points as Queries: Weakly Semi-supervised Object Detection by Points Code已开源 关键词:半监督弱标注点目标检测 DETR Group R-CNN for Point-based Weakly Semi-supervised Object Detection Code已开源,基于MMDet关键词:半监督弱标注点目标检测 RCNN Point-Teaching: Wea...

Read more

Fast Vision Transformers with HiLo Attention NeurIPS_2022 在投

作者是蒙纳什大学Jianfeng Cai团队 Fast Vision Transformers with HiLo Attention Code未开源 🦖 动机 作者的动机和之前的 Inception Transformer 相似,即使 VIT 中 MHSA (多头自注意力较多关注低频的全局性信息,而对局部的高频信息关注不够),作者的解决方案是把 MHSA 的多个头进行分组,一组编码高频信息,一组编码低频信息。 🦖 方法 作者首先指出之前的VIT以及其改进版本在速度上其实并没有快多少,要么就是复杂高,需要大量时间访问内存,要么就是引入了一些额外操作,对GPU硬件不友好。 为此作者认为评价一个VIT是否速度快应该是吞吐量 throughout 而不是 FLOPs。 然后作...

Read more

Coarse-to-Fine Vision Transformer BMVC-2022

作者是厦门大学 Rongrong Ji 团队。 Coarse-to-Fine Vision Transformer Code已开源 🦖 动机 作者动机是想设计一个更加高效的 VIT, 图像冗余信息较多, 造成 VIT 过于昂贵的计算量,提出的 两阶段 VIT 包括 coarse inference stage 和 fine-grained granularity stage。 在粗粒度阶段,切分的 Patch 比较大,序列长度短,可以进行更加高效的全局注意力计算,而后 如果分类的置信度不高,就再执行 fine-grained granularity stage, the informative patches are identified and furt...

Read more

AdaptFormer dapting Vision Transformers for Scalable Visual Recognition NeurIPS_2022 在投

AdaptFormer: dapting Vision Transformers for Scalable Visual Recognition Code 作者是港大罗平老师团队。 这个工作对标的是 3月份出的 VPT: Visual prompt tuning以及 Visual prompting: Modifying pixel space to adapt pre-trained models, 不得不感慨作者的速度太快了。 🦖 动机 Vision Transformer 在计算机视觉中取得了较大的成功,但是在下游任务中微调 VIT 其实是一个比较耗费成本的事情,微调大量的参数比较费劲。作者就想着引入较少的参数,在不用微调全部参数的情况下取得和微调全部参数一样好甚至更优的...

Read more