深度理解机器学习2-文本预处理技术

最新推荐文章于 2025-02-10 21:20:23 发布

原创

最新推荐文章于 2025-02-10 21:20:23 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #深度学习

本文详细介绍了机器学习中文本预处理的重要步骤，包括小写/大写转换、去噪、文本规范化、词干提取、词形还原、标记化以及其他实用技巧。这些技术有助于提高文本数据的质量，为后续的深度学习和自然语言处理任务打下坚实基础。

1.小写/大写转换

这是人们经常忘记使用的最简单有效的预处理技术之一。它要么将所有的大写字符转换为小写字符，以便整个语料库都是小写的；要么将语料库中的所有小写字符转换为大写字符，以便整个语料库都是大写的。当语料库不太大，并且任务涉及同一个词由于字符的大小写，而作为不同的术语或输出识别时，这种方法特别有用，因为机器固有地将大写字母和小写字母作为单独的实体来处理。比如，“A”与“a”是不同的。这种输入大小写的变化可能导致不正确的输出或根本没有输出。

2.去噪

噪声是一个非常普遍的术语，对于不同的语料库和不同的任务，它可能意味着不同的东西。对于一个任务来说，被认为是噪声的东西可能对另一个任务来说是重要的，因此这是一种非常特定于领域的预处理技术。例如，在分析推文时，标签对于识别趋势和理解全球谈论的话题可能很重要，但是在分析新闻文章时标签可能并不重要，因此在后者的情况下标签将被视为噪声。

3.文本规范化

文本规范化是将原始语料库转换为规范和标准形式的过程，这基本上是为了确保文本输入在被分析、处理和操作之前保证一致。文本规范化的示例是将缩写映射到其完整形式，将同一单词的多个拼写转换为单词的一个拼写，以此类推。

4.词干提取

在语料库上执行词干提取以将词语减少到词干或词根形式。说“词干或词根形式”的原因在于，词干提取的过程并不总是将词语简化为词根，有时只是将其简化为规范形式。

5.词形还原

词形还原是一个类似于词干提取的过程，它的目的是将一个词简化为词根形式。它的与众不同之处在于，它不仅仅删除单词的末尾以获取词根形式，而是遵循一个过程，遵守规则，并且经常使用WordNet进行映射以将单词返回到其根形式。

6.标记化

标记化是将语料库分解为单个标记的过程。标记是最常用的单词。因此，此过程将语料库分解为单个单词，但也可以包括标点符号和空格等。这项技术是最重要的技术之一，因为它是我们在下一章中学习的许多自然语言处理应用的先决条件，例如词性（Parts-of-Speech，PoS）标记。这些算法将标记作为输入，并且不能使用字符串或文本段落作为输入