正则化表达
文本预处理
噪声移除
- 社交媒体里的实体(如@符号,#标签等)
- 删除URL或链接
- 删除HTML、XML等标记和元数据
将大写全部转为小写
删除停顿词
一般是在语言里常用的单词,如:is, am, the, of, in 等等
词干提取(stemming)
词干提取是删除词缀的过程(包括前缀、后缀、中缀、环缀),从而得到单词的词干。
词形还原(lemmatizatiion)
词形还原与词干提取相关,不同的是,词形还原能够捕捉基于词根的规范单词形式。
其他
- 对象标准化:文本数据经常包含不在任何标准词典里出现的词汇或短语。搜索引擎和模型都识别不了这些。比如,首字母缩略词、词汇附加标签和通俗俚语。
- 将数字换成对应的文字或者删除
- 语法检查
- 拼写纠正
- 等等
❤一条简单的预处理流水线
分词(→词性标注)→词干提取/词性还原→删除停用词→文本列表