SimCSE-Chinese-Pytorch 项目使用教程
1. 项目目录结构及介绍
SimCSE-Chinese-Pytorch/
├── data_preprocess.py
├── simcse_sup.py
├── simcse_unsup.py
├── README.md
├── LICENSE
├── saved_model/
├── pretrained_model/
└── datasets/
├── cnsd-snli/
└── STS-B/
目录结构说明:
data_preprocess.py
: 数据预处理脚本,用于处理SNLI数据集。simcse_sup.py
: 有监督训练脚本。simcse_unsup.py
: 无监督训练脚本。README.md
: 项目说明文件。LICENSE
: 项目许可证文件。saved_model/
: 用于存放微调后保存的模型文件。pretrained_model/
: 用于存放预训练模型文件。datasets/
: 数据集文件夹,包含cnsd-snli
和STS-B
两个子文件夹。
2. 项目启动文件介绍
data_preprocess.py
- 功能: 对SNLI数据集进行预处理。
- 使用方法:
python data_preprocess.py
simcse_unsup.py
- 功能: 进行无监督训练。
- 使用方法:
python simcse_unsup.py
simcse_sup.py
- 功能: 进行有监督训练。
- 使用方法:
python simcse_sup.py
3. 项目配置文件介绍
项目中没有显式的配置文件,但可以通过代码中的变量进行配置。以下是一些关键配置项:
预训练模型目录
BERT = 'pretrained_model/bert_pytorch'
model_path = BERT
微调后参数存放位置
SAVE_PATH = 'saved_model/simcse_unsup.pt'
数据目录
SNIL_TRAIN = 'datasets/cnsd-snli/train.txt'
STS_TRAIN = 'datasets/STS-B/cnsd-sts-train.txt'
STS_DEV = 'datasets/STS-B/cnsd-sts-dev.txt'
STS_TEST = 'datasets/STS-B/cnsd-sts-test.txt'
使用方法
- 将公开数据集和预训练模型放到指定目录下。
- 检查代码中的路径是否与实际文件路径对应。
- 执行数据预处理:
python data_preprocess.py
- 进行无监督训练:
python simcse_unsup.py
- 进行有监督训练:
python simcse_sup.py
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考