关于gpt2生成的训练验证

最新推荐文章于 2025-12-25 16:43:46 发布

原创最新推荐文章于 2025-12-25 16:43:46 发布 · 379 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能

NLP 专栏收录该内容

29 篇文章

订阅专栏

文章介绍了GPT2-Chinese项目，它是一个能用于生成诗歌、新闻、小说的代码库，采用按字分词方法。模型的输出不是基于最大概率的token，而是利用概率分布进行随机选择。尽管现有模型效果不甚满意，作者认为大数据量训练能让模型在不同任务间产生互补效应。对于资源有限的小公司，可能更适合小模型的垂直开发或现有模型的调优。

部署运行你感兴趣的模型镜像

代码地址：GPT2-Chinese: 中文的GPT2训练代码，可以写诗，新闻，小说，或是训练通用语言模型 (gitee.com)

其中代码的分词部分直接使用的是按字分词

gpt2生成的结果与bert类似。gpt2使用了隐藏层的最后一层的最后一个序列作为对下一个token的预测基础

再此基础上，通过增加nn.Linear(config.n_embd, config.vocab_size, bias=False)来进行维度和token字库数量保持一致

关于在输出词的选择上，并非直接使用最大概率的token作为预测结果，而是使用如下内容：

torch.multinomial(F.softmax(filtered_logits, dim=-1), num_samples=1)进行概率分布式的预测。即增加了随机性，由对返回的概率加权使用。后续根据使用情况做进一步的判断。目前对已经被分享出来的模型效果满意度不是很高。而对于下一步要验证的内容，很难收集到相关的数据，有点限于停止。郁闷半分钟

跟人对于gpt2/gpt3等总结：在大数据量的训练下，模型的各个任务都会产生互补式的效果叠加。原因是一位大神的结论：数据的特征天然就存在于数据本身，和任务无关。这也是模型在学会了一个任务后对其他任务也是有很大的帮助。

但是其对应的前提条件是数据量够大。在数据量有限的情况下，小公司或许更应该专注于小模型的垂直开发，或基于已经开源的通过模型的二次调优。

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo-v5

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

会发paper的学渣 您的鼓励和将是我前进的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。