pgn代码解析

[https://github.com/997261095/point-generate/tree/master/zh-single-word]代码解析

安装

pip install rouge
torch2.0版本的cuda应该要选11.8以上

数据处理

1 数据格式转成行是这样的:{"title": "0.5斤好评全返", "content": "0.5斤号呯全返"}
2 修改single_config.py
3 在news-tokenizer中指定目录sys.argv += ['--original_data_dir', '../../data', '--tokenized_dir', '../../data/tokenized_dir']。即使tokenized逻辑变,args里面的sub是不用改的一般不会变。
    如果整个数据都变了,split_original_json要去掉real_sub_file_num的判断,否则sub.json存在的话不会更新
    _tokenize修改成中文字符分割。
    构建字典和二进制train/test数据,其中train_01.json文件内容可能通过“unicode转中文”查看
4   8500条原始句。  137698条增广训练数据。

模型训练

1 news_sigle_config.py 修改train/test数据大小文件
2 data.py中的from_sample_covert_feature去掉len(content)<=len(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值