基于transformer的文本生成开源项目(基于pytorch)

该项目是一个使用Transformer架构的文本生成模型,基于教师强迫策略进行训练。训练数据来源于LCCC_base对话数据集,采用预训练的300维字向量。模型配置包括15个注意力头,6层编码器,初始学习率为1e-4,batch_size为96。经过16个epoch的训练(约200万steps,耗时10天),模型能进行有效的文本生成和对话响应。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基于transformer的文本生成问题训练pipeline

项目开源地址

main requirements

python 3.6
pytorch 1.6.0+cu101

项目说明

基于transformer的文本生成问题pipeline。(基于对话数据进行闲聊模型训练和测试)
训练方式为teacher forcing(基于下三角mask实现,具体可参考loss部分代码)。

模型训练

python train.py

推理

python inference.py

训练细节参考

训练数据(LCCC_base,来源:https://github.com/thu-coai/CDial-GPT)

初始学习率:1e-4

batch_size:96

nheads_transformer:15

embed_dim:300 (使用了预训练字向量,来源:https://github.com/Embedding/Chinese-Word-Vectors ,使用的字向量链接为: https://pan.baidu.com/s/1hJKTAz6PwS7wmz9wQgmYeg )

encode_layers=6

训练效果预览

训练到16个epoch(大约200万+steps,耗时约10天)

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值