
Transformer模型架构
文章平均质量分 95
乄洛尘
2024年6月份博士毕业,现在已经在工作了,做计算机视觉、机器视觉的工作(*^▽^*)~
如有问题请留言或私信,笔者看到后会第一时间回复呦~
论文阅读笔记系列保持不定期更新,稳定更新的话估计得等我成为自由职业者吧~
展开
-
Token系列:Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers
ViTs 模型受限于计算成本而很难部署到实际应用上,之前的方法通过裁剪 tokens 来实现精度和成本之间的权衡,但裁剪策略一定会导致信息丢失。本文进行的量化实验揭示了裁剪 tokens 对性能的影响是显而易见的。于是提出 Token Pruning & Squeezing module (TPS) 模块来更高效率地压缩 ViTs。原创 2023-04-26 13:40:50 · 1709 阅读 · 0 评论 -
Vit 中的 Token 改进版本:Token Mreging: Your Vit But Faster 论文阅读笔记
本文引入一种 Token 融合的方法(Token Merging — ToMe),在无需额外训练的情况下增强现有 ViT 的性能。具体来说在 transformer 中使用一个通用且轻量化的匹配算法来逐步融合相似的 tokens。在图像、视频、音频上的性能绝佳。原创 2022-12-18 10:17:09 · 3856 阅读 · 12 评论