NLP之替换不在词表中的分词为‘UNK‘
1. 问题描述现在有一个词表,它是取分词后的语料,统计出现频率最高的300个(前300个)词构建的词表。现在要将分词后的语料进行替换,替换掉那些不在词表中的token为“UNK”,在词表中的则保持不变。语料csv文件内容格式如下:paramparsedwords未正则化的原始语料正则化并分词后的语料查询词表后待生成的列⭐2. 解决方法# 根据第二列parsed,查询词表后,生成第三列wordsdef generate_words(col_parsed, evil_w
原创
2021-09-25 23:12:57 ·
1502 阅读 ·
0 评论