37、自然语言处理中的文本处理与应用-优快云博客

本文链接：https://blog.youkuaiyun.com/t8u9v0/article/details/152402810

自然语言处理中的文本处理与应用

1. 理解机器如何读取文本

在计算机对文本进行处理之前，它需要以某种方式读取文本。文本数据通常以字符串形式表示，这与分类数据和结构化数据（如地址或目录条目）类似。不同的是，文本数据以非结构化方式呈现丰富的含义和信息。

1.1 输入数据的定义

首先，我们需要定义输入数据。这里使用三个短语作为示例，将它们放在一个列表 corpus 中， corpus 是一组用于自然语言处理分析的同质文档集合。以下是具体代码：

text_1 = 'The quick brown fox jumps over the lazy dog.'
text_2 = 'My dog is quick and can jump over fences.'
text_3 = 'Your dog is so lazy that it sleeps all the day.'
corpus = [text_1, text_2, text_3]

1.2 文本向量化

使用 Scikit-learn 中的 CountVectorizer 类可以轻松地将文本转换为词袋（BoW）表示。以下是具体代码：

from sklearn.feature_extraction import text
vectorizer = text.CountVectorizer(binary=True)
ve