TokenFormer：用 tokenize 模型参数实现全面注意力网络-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00719/article/details/146560526

TokenFormer：用 tokenize 模型参数实现全面注意力网络

TokenFormer [ICLR2025 Spotlight🔥] Official Implementation of TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 项目地址: https://gitcode.com/gh_mirrors/to/TokenFormer

项目介绍

TokenFormer 是一种创新的深度学习架构，它通过 tokenized 模型参数，将注意力机制不仅应用于输入 token 之间的计算，还应用于 token 与模型参数之间的交互，极大地提高了网络架构的灵活性。TokenFormer 旨在为神经网络提供更高的灵活性，进一步推动基础模型、稀疏推理（MoE）、参数高效调整、设备-云协作、视觉-语言、模型可解释性等领域的发展。

项目技术分析

TokenFormer 的核心是利用注意力机制来统一处理 token-token 和 token-parameter 的交互。这种架构允许模型动态地根据输入数据调整参数，从而在不同层之间实现参数的逐步更新。具体来说，TokenFormer 通过以下技术实现其功能：

Tokenization of Model Parameters：不仅对数据进行 tokenize，还对模型参数进行 tokenize，从而将模型的概念转化为数据 token 和参数 token 之间的交互流。
Attention Mechanism：利用注意力机制计算输入 token 和参数 token 之间的交互，提高了模型的灵活性和可扩展性。
Incremental Model Scaling：TokenFormer 支持模型增量式扩展，可以在不需要从头开始训练的情况下，利用已有的小规模模型来构建更大规模的模型。