1.小写/大写转换
这是人们经常忘记使用的最简单有效的预处理技术之一。它要么将所有的大写字符转换为小写字符,以便整个语料库都是小写的;要么将语料库中的所有小写字符转换为大写字符,以便整个语料库都是大写的。当语料库不太大,并且任务涉及同一个词由于字符的大小写,而作为不同的术语或输出识别时,这种方法特别有用,因为机器固有地将大写字母和小写字母作为单独的实体来处理。比如,“A”与“a”是不同的。这种输入大小写的变化可能导致不正确的输出或根本没有输出。
2.去噪
噪声是一个非常普遍的术语,对于不同的语料库和不同的任务,它可能意味着不同的东西。对于一个任务来说,被认为是噪声的东西可能对另一个任务来说是重要的,因此这是一种非常特定于领域的预处理技术。例如,在分析推文时,标签对于识别趋势和理解全球谈论的话题可能很重要,但是在分析新闻文章时标签可能并不重要,因此在后者的情况下标签将被视为噪声。
3.文本规范化
文本规范化是将原始语料库转换为规范和标准形式的过程,这基本上是为了确保文本输入在被分析、处理和操作之前保证一致。文本规范化的示例是将缩写映射到其完整形式,将同一单词的多个拼写转换为单词的一个拼写,以此类推。
4.词干提取
在语料库上执行词干提取以将词语减少到词干或词根形式。说“词干或词根形式”的原因在于,词干提取的过程并不总是将词语简化为词根,有时只是将其简化为规范形式。
5.词形还原
词形还原是一个类似于词干提取的过程,它的目的是将一个词简化为词根形式。它的与众不同之处在于,它不仅仅删除单词的末尾以获取词根形式,而是遵循一个过程,遵守规则,并且经常使用WordNet进行映射以将单词返回到其根形式。
<