论文复现-3:ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer

文章描述了一个使用Python进行模型训练和评估的过程,涉及数据预处理、SentenceTransformers库、Transformer模块、数据加载、相似度计算和可视化。主要步骤包括从zip文件夹加载数据,使用InputExample创建训练样本,进行对比损失训练(cl_loss_only),并根据有无配对数据调整训练样例。此外,还包括模型的评价和预训练阶段。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这个文件中,
data 是process之后的数据集,用在model的train过程中。
datasets是放置data的zip的文件夹
output是model train和evaluation之后得到的文件
scripts是model train或者test可能会用到的sh文件
sentence_transformers存放的是python tool中的sentence_transformers的具体模块
transformers存放的是python tool中的transformer的具体模块

analysis_rep_space: 正在git中向作者请教
correlation_visualization:计算得到的相似度分值的相关性可视化展示。
data_utils:数据加载的过程,在中文数据加载中使用的是:load_chinese_tsv_data
eval:model 的evaluation过程。
eval_pretrain:这里我感觉也是model的pretrain的一个过程,在model load之后,使用的evaluation函数计算相似度的计算
在这里插入图片描述

main:model 的train和test过程

在这里插入图片描述

if args.no_pair:
    assert args.cl_loss_only, "no pair texts only used when contrastive loss only"
    train_samples.append(InputExample(texts=[row['sentence1']]))
    train_samples.append(InputExample(texts=[row['sentence2']]))
 else:
    train_samples.append(InputExample(texts=[row['sentence1'], row['sentence2']], label=label_id))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YJII

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值