![]()
本文共同第一作者为陈寅杰、颜子鹏,相关研究工作于香港大学科研实习期间完成;通讯作者 Andrew F. Luo 为香港大学助理教授。该工作已经被 NeurIPS 2025 会议接受为 Spotlight。
在视觉处理任务中,Vision Transformers(ViTs)已发展成为主流架构。然而,近期研究表明,ViT 模型的密集特征中会出现部分与局部语义不一致的伪影(artifact),进而削弱模型在精细定位类任务中的性能表现。因此,如何在不耗费大量计算资源的前提下,保留 ViT 模型预训练核心信息并消除密集特征中的伪影?
香港大学团队提出一种无需数据标记的 ViT 密集表征增强方法 PH-Reg(Post Hoc Registers),为该挑战提供了全新且高效的解决方法。该方法融合测试时增强(test-time augmentation)的去噪策略,去除教师模型密集特征中的伪影;并通过自蒸馏方法,在无需额外数据标记的条件下,得到能够输出无伪影密集特征的学生模型。
PH-Reg 具备良好的架构适配性,可灵活应用于 CLIP、DINOv2 等不同模型架构,能够高效去除密集特征的伪影,以此显著提升模型在下游任务中的性能表现。
![]()
论文标题:Vision Transformers with Self-Distilled Registers论文地址:https://arxiv.org/abs/2505.21501代码地址:https://github.com/0raiser0/PH-Reg
伪影破坏模型密集特征的语义一致性
尽管当前 ViT 模型基于数据驱动的注意力机制具备强大表示能力,但模型密集特征中存在的伪影往往会破坏其精细定位能力,而该能力对于语义分割等需高空间精度的任务而言至关重要。传统的优化方法,如在模型架构中添加 register tokens 并从头开始训练,需要消耗大量的计算资源,导致现有模型的性能提升既昂贵又耗时。
为解决上述问题,该论文提出一种高效的 PH-Reg 自蒸馏框架。该框架无需数据标记,且不再依赖 “从头开始” 的全量训练,而是通过巧妙结合测试时(test-time)密集特征增强和自蒸馏策略,仅优化学生模型中少量解锁的权重参数,即可实现无伪影的密集特征增强。
![]()
自蒸馏框架结合免训练实现去除伪影,无需数据标记实现无伪影的密集特征
1. 免训练去噪算法
研究发现,伪影并非相对于图像内容保持静态,因此当图像经过增强处理(如随机偏移、水平翻转等)时,密集特征中的伪影并不会以相同方式或幅度同步偏移。受此启发,此算法在无需梯度反向传播的情况下,能够生成去噪且无伪影的密集特征。
2. 自蒸馏框架
PH-Reg 采用自蒸馏策略,无需依赖数据标记,仅通过引入 register tokens,以最小侵入性方式对学生模型架构进行增强。在蒸馏过程中,仅对 register tokens、卷积层、位置嵌入(positional embeddings)及最后一个 Transformer 模块进行针对性更新,既最大限度保留了 ViT 模型预训练权重的核心信息,又显著节省了计算资源。
实验结果
本文应用该方法对多个 ViT 主干模型在多种密集特征预测任务上进行了系统验证,实现结果表明在不同模型与任务类型下均展现出一致且稳定的替身效果,体现了该方法的鲁棒性的广泛适用性。主要实验结果如下:
1. 开放词汇语义分割任务
在 VOC、COCO、ADE20K 等八个开放词汇语义分割基准数据集上,PH-Reg 在其中七个数据集上的性能超越了 MaskCLIP、SCLIP、NACLIP、ClearCLIP 等主流方法。此外,与 DVT 这一相似去噪方法相比,PH-Reg 能为 MaskCLIP 与 NACLIP 带来更加显著的性能提升。
![]()
2. 线性探测任务
在语义分割任务中,该方法为所有 ViT 骨干模型带来了实质性性能增益。特别对于 CLIP 模型,其在 VOC21 数据集上的 mIoU 显著提升 5.04%,在 ADE20k 数据集上的 mIoU 提升 3.64%。在深度估计任务中,该方法同样为预训练 ViT 骨干模型带来了稳定的性能提升,且仅通过引入 register tokens,便在参数量增加可忽略不计的前提下,取得了更优结果。
![]()
3. 高效的蒸馏过程
该方法的核心优势在于无需依赖基于梯度的神经场学习,因此采用单阶段蒸馏方式训练学生模型,与 DVT 相比,训练时间节省超 58.9%。此外,DVT 在训练过程中需存储 1.4 TB 的神经场特征数据,而该方法可实时计算所有蒸馏目标,全程无需额外存储空间。
![]()
总结与展望
PH-Reg 框架包含了一种无需重训、即插即用的 ViT 模型去噪方案,在无需数据标记的条件下,通过自蒸馏能够高效修复 CLIP、DINOv2 等现有预训练模型中的伪影问题。
该研究不仅有效提升了 ViT 主干模型中密集特征的语义一致性,更为未来大规模视觉模型的快速微调与蒸馏机制探索提供了全新思路与研究方向。
![]()
相关文章
2025-11-1921阅读
2025-11-1921阅读
2025-11-1921阅读
2025-11-1921阅读
2025-11-1921阅读
2025-11-1921阅读
2025-11-1921阅读
2025-11-1921阅读
2025-11-1921阅读
2025-11-1921阅读