注意力特征蒸馏项目使用指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00013/article/details/138601572

注意力特征蒸馏项目使用指南

attention-feature-distillation 项目地址: https://gitcode.com/gh_mirrors/at/attention-feature-distillation

本指南基于GitHub上的开源项目注意力特征蒸馏，旨在提供一个简洁明了的步骤说明，帮助开发者理解和使用这一实现注意力指导的知识蒸馏方法。该方法是“Show, Attend and Distill: Knowledge Distillation via Attention-based Feature Matching”论文的官方PyTorch实现，适用于AAAI-2021会议。

1. 目录结构及介绍

项目的主要目录结构如下：

main.py: 启动脚本，用于训练和评估模型。
dataset.py: 数据集处理模块，定义如何加载和预处理数据。
models: 存放所有模型相关代码，包括学生网络和教师网络。
- wrn40x2: 教师网络WRN-40-2的权重文件存放处。
- wrn16x2: 示例学生网络WRN-16-2的配置或可能的相关文件。
utils.py: 辅助函数集合，如损失计算、日志记录等。
LICENSE: 许可证文件，遵循Apache-2.0许可协议。
NOTICE: 版本注意事项文件。
README.md: 项目简介和快速入门指南。

2. 项目的启动文件介绍

主要文件：main.py

作用：该文件是项目的运行核心，支持训练和测试过程。它允许用户配置不同的实验设置，比如数据路径、所使用的数据集（例如CIFAR100）、学生网络和教师网络类型、以及其他超参数，如β（在知识蒸馏中调整教师和学生之间一致性的重要参数）。
使用示例：为了复现论文中的实验结果，在CIFAR100上训练，使用WRN-16-2作为学生网络，WRN-40-2作为教师网络，你可以运行以下命令：
```
python main.py --data_dir [PATH_TO_DATA] --data CIFAR100 --trained_dir ./trained/wrn40x2/model.pth --model wrn16x2 --model_t wrn40x2 --beta 200
```
参数说明:
- --data_dir: 数据存储的路径。
- --data: 使用的数据集名称。
- --trained_dir: 预训练教师模型的路径。
- --model, --model_t: 分别表示学生和教师模型的类型。
- --beta: 知识蒸馏中使用的加权系数。