pgn代码解析

原创

已于 2025-09-18 15:55:31 修改 · 63 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2023-08-29 17:27:17 首次发布

[https://github.com/997261095/point-generate/tree/master/zh-single-word]代码解析

安装

pip install rouge
torch2.0版本的cuda应该要选11.8以上

数据处理

1 数据格式转成行是这样的：{"title": "0.5斤好评全返", "content": "0.5斤号呯全返"}
2 修改single_config.py
3 在news-tokenizer中指定目录sys.argv += ['--original_data_dir', '../../data', '--tokenized_dir', '../../data/tokenized_dir']。即使tokenized逻辑变，args里面的sub是不用改的一般不会变。
   如果整个数据都变了，split_original_json要去掉real_sub_file_num的判断，否则sub.json存在的话不会更新
   _tokenize修改成中文字符分割。
   构建字典和二进制train/test数据，其中train_01.json文件内容可能通过“unicode转中文”查看
4 8500条原始句。 137698条增广训练数据。

模型训练

1 news_sigle_config.py 修改train/test数据大小文件
2 data.py中的from_sample_covert_feature去掉len(content)<=len(

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。