周先森爱吃素
ViP解读 ViP解读
最近的一篇新的视觉MLP方面的工作,天津大学程明明组参与其中,通过充分利用2D特征图的位置信息设计的一个MLP结构ViP(Vision Permutator),获得了相当不错的性能。 简介论文提出一种简单高效的类MLP结构,Vision
2021-12-04
PoolFormer解读 PoolFormer解读
这是近期的一篇视觉Transformer领域的工作,文章并没有设计更加复杂的token mixer,而是通过简单的池化算子验证视觉Transformer的成功在于整体架构设计,即MetaFormer。 简介Transformer已经在计
2021-12-04
TADAM解读 TADAM解读
这是最近公开的CVPR2021主会议论文中一篇MOT方向的论文,将位置预测和特征提取两个任务协同工作,从而有效改善了遮挡等问题。 简介目前的多目标跟踪方法主要关注于两个方向来改进跟踪性能,一是基于跟踪信息从之前帧预测当前帧中的位置,二是
2021-06-24
GCT解读 GCT解读
浙江大学等机构发布的一篇收录于CVPR2021的文章,提出了一种新的通道注意力结构,在几乎不引入参数的前提下优于大多SOTA通道注意力模型,如SE、ECA等。这篇文章虽然叫Gaussian Context Transformer,但是和T
2021-06-19
ResT解读 ResT解读
最近的一篇基于Transformer的工作,由南京大学的研究者提出一种高效的视觉Transformer结构,设计思想类似ResNet,称为ResT,这是我个人觉得值得关注的一篇工作。 简介ResT是一个高效的多尺度视觉Transform
2021-06-15
SiamMOT解读 SiamMOT解读
AWS的一篇新的MOT工作,将孪生跟踪器引入多目标跟踪中进行运动建模并获得了SOTA表现。 简介通过引入一个基于区域的孪生多目标跟踪网络,设计了一个新的online多目标跟踪框架,名为SiamMOT。SiamMOT包含一个运动模型来估计
2021-06-04
MOTR解读 MOTR解读
最新的一篇MOT领域基于Transformer的工作,是第一个真正严格意义上端到端的多目标跟踪框架,超越了此前的TransTrack和TrackFormer等工作。 简介多目标跟踪的关键挑战在于轨迹上目标的时序建模,而现有的TBD方法大
2021-05-18
RelationTrack解读 RelationTrack解读
MOT领域的一个新的SOTA方法,在FairMOT的基础上提出了特征图解耦和全局信息下的ReID Embedding的学习,前者和CSTrack思路类似,后者则采用了Deformable DETR里的deformable attentio
2021-05-12
EANet解读 EANet解读
最近关于MLP的工作还是蛮多的,先是MLP-Mixer为视觉开了个新思路,接着EANet(即External Attention)和RepMLP横空出世,乃至最新的《Do You Even Need Attention? A Stack
2021-05-09
SL解读 SL解读
最近看到汐梦聆海关于SL这个工作的阅读分享,发现自己工作中也有含噪声标签分类的问题(甚至有些场景标签干脆就是置信度不高的伪标签)。其实由于数据量大和标注成本受限,工业界的数据集常常会出现噪声标签,模型对这类标签的拟合会导致学习的异常进行。
2021-05-06
CSTrackV2解读 CSTrackV2解读
这篇文章是CSTrack原团队的一个新工作,核心出发点是引入时间信息来修正检测器结果以保证轨迹的连续,通过利用前后帧相关性来进行运动建模完善单帧检测的结果,从而使得跟踪更加合理。该方法从实验数据上来看效果是非常猛的,作者后续也会开放源代码
2021-04-22
GHM解读 GHM解读
收录于AAAI2019 oral的一篇文章,主要是解决目标检测中的样本不平衡问题,包括正负样本不平衡、难易样本不平衡,和著名的Focal Loss类似,也是基于交叉熵做的改进。此外,本文成文过程参考了知乎上一个精简的分析,欢迎访问。 简
2021-04-15
1 / 4