SimCSE-Chinese-Pytorch 项目使用教程

SimCSE-Chinese-Pytorch 项目使用教程

SimCSE-Chinese-Pytorch SimCSE在中文上的复现,有监督+无监督 SimCSE-Chinese-Pytorch 项目地址: https://gitcode.com/gh_mirrors/si/SimCSE-Chinese-Pytorch

1. 项目目录结构及介绍

SimCSE-Chinese-Pytorch/
├── data_preprocess.py
├── simcse_sup.py
├── simcse_unsup.py
├── README.md
├── LICENSE
├── saved_model/
├── pretrained_model/
└── datasets/
    ├── cnsd-snli/
    └── STS-B/

目录结构说明:

  • data_preprocess.py: 数据预处理脚本,用于处理SNLI数据集。
  • simcse_sup.py: 有监督训练脚本。
  • simcse_unsup.py: 无监督训练脚本。
  • README.md: 项目说明文件。
  • LICENSE: 项目许可证文件。
  • saved_model/: 用于存放微调后保存的模型文件。
  • pretrained_model/: 用于存放预训练模型文件。
  • datasets/: 数据集文件夹,包含cnsd-snliSTS-B两个子文件夹。

2. 项目启动文件介绍

data_preprocess.py

  • 功能: 对SNLI数据集进行预处理。
  • 使用方法:
    python data_preprocess.py
    

simcse_unsup.py

  • 功能: 进行无监督训练。
  • 使用方法:
    python simcse_unsup.py
    

simcse_sup.py

  • 功能: 进行有监督训练。
  • 使用方法:
    python simcse_sup.py
    

3. 项目配置文件介绍

项目中没有显式的配置文件,但可以通过代码中的变量进行配置。以下是一些关键配置项:

预训练模型目录

BERT = 'pretrained_model/bert_pytorch'
model_path = BERT

微调后参数存放位置

SAVE_PATH = 'saved_model/simcse_unsup.pt'

数据目录

SNIL_TRAIN = 'datasets/cnsd-snli/train.txt'
STS_TRAIN = 'datasets/STS-B/cnsd-sts-train.txt'
STS_DEV = 'datasets/STS-B/cnsd-sts-dev.txt'
STS_TEST = 'datasets/STS-B/cnsd-sts-test.txt'

使用方法

  1. 将公开数据集和预训练模型放到指定目录下。
  2. 检查代码中的路径是否与实际文件路径对应。
  3. 执行数据预处理:
    python data_preprocess.py
    
  4. 进行无监督训练:
    python simcse_unsup.py
    
  5. 进行有监督训练:
    python simcse_sup.py
    

SimCSE-Chinese-Pytorch SimCSE在中文上的复现,有监督+无监督 SimCSE-Chinese-Pytorch 项目地址: https://gitcode.com/gh_mirrors/si/SimCSE-Chinese-Pytorch

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

农彩媛Louise

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值