[https://github.com/997261095/point-generate/tree/master/zh-single-word]代码解析
安装
pip install rouge
torch2.0版本的cuda应该要选11.8以上
数据处理
1 数据格式转成行是这样的:{"title": "0.5斤好评全返", "content": "0.5斤号呯全返"}
2 修改single_config.py
3 在news-tokenizer中指定目录sys.argv += ['--original_data_dir', '../../data', '--tokenized_dir', '../../data/tokenized_dir']。即使tokenized逻辑变,args里面的sub是不用改的一般不会变。
如果整个数据都变了,split_original_json要去掉real_sub_file_num的判断,否则sub.json存在的话不会更新
_tokenize修改成中文字符分割。
构建字典和二进制train/test数据,其中train_01.json文件内容可能通过“unicode转中文”查看
4 8500条原始句。 137698条增广训练数据。
模型训练
1 news_sigle_config.py 修改train/test数据大小文件
2 data.py中的from_sample_covert_feature去掉len(content)<=len(

最低0.47元/天 解锁文章
878

被折叠的 条评论
为什么被折叠?



