NLP基础知识 - 向量化
目录
NLP基础知识 - 向量化
什么是向量化?
向量化是自然语言处理(NLP)领域的核心步骤之一。它的目标是将文本数据转换为数学形式(向量),使其能够被机器学习模型处理。
在实际操作中,文本中的单词或句子被表示为一个高维空间中的点,这些点可以捕捉文本之间的语义关系。向量化是 NLP 中将非结构化数据结构化的关键环节。
为什么需要向量化?
- 机器学习模型输入要求:机器学习模型只能处理数值数据,因此需要将文本数据转换为数字形式。
- 捕捉语义关系:向量化允许模型捕捉单词、短语和句子之间的语义关系,例如同义词或相似词。
- 简化文本计算:数学向量便于执行计算,例如相似度度量(余弦相似度、欧氏距离等)。
常见的向量化方法
1. 词袋模型(Bag of Words, BoW)
词袋模型是最简单的向量化方法之一。它将文本中的单词表示为特征,并统计每个单词的出现次数。
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
"我喜欢自然语言处理",
"自然语言处理很有趣",
"机器学习和深度学习都是AI的组成部分"
]
# 创建词袋模型
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
# 显示结果
print("词袋模型特征:",