语料库预处理_思路
加载语言x语料库,进行预处理:将<DOC></DOC>转为StringBuilder串并保存。
1. 读取文件lang1-all
a) <DOC>[\\s\\S]+?</DOC> 依次处理每个文档。
b) <TEXT>[\\s\\S]*?</TEXT> 依次处理文本:
i. 删除<>信息;
ii. 删除回车换行;
iii. 删除多余空格;
iv. 处理特殊字符;
v. 添加结果信息result: StringBuilder;
vi. 加分割标志: XXXYYYZZZ.\n 。
c) 保存结果,写出文件:lang1-utf-8
2. 读取文件lang2-all
a) <DOC>[\\s\\S]+?</DOC> 依次处理每个文档;
b) (<LD>[\\s\\S]*?</LD>)|(<TX>[\\s\\S]*?</TX>) 依次处理文本:同上
c) 保存结果,写出文件:lang2-utf-8