NLP基础：文本的向量表示

最新推荐文章于 2025-06-01 09:29:33 发布

CQU-XJTU-Mr. Wu

最新推荐文章于 2025-06-01 09:29:33 发布

阅读量353

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP基础文章标签： python nlp 自然语言处理

本文链接：https://blog.youkuaiyun.com/weixin_43639369/article/details/108966619

本文深入探讨了自然语言处理中的文本向量表示方法，包括词袋模型和TF-IDF。通过sklearn库与手动计算进行比较，强调实践操作的重要性。同时指出TF-IDF计算公式与《统计学习方法》中的差异，以及高维问题对文本表示的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NLP基础：文本的向量表示

1. 词袋模型
2. TF-IDF
3. 总结

1. 词袋模型

1.1 利用sklearn函数

import numpy as np
from collections import Counter
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
corpus = [
     'He is going from Beijing to Shanghai.',
     'He denied my request, but he actually lied.',
     'Mike lost the phone, and phone was in the car.',
]
X = vectorizer.fit_transform(corpus)
print("文本的向量表示：Bag of Words")
print("sklearn函数输出：")
print(X.toarray())

1.2 手动计算

Y = []
word_voc = ['actually', 'and', 'beijing', 'but', 'car', 'denied', 'from', 'going', 'he', 'in', 'is', 'lied', 'lost', 'mike', 'my', 'phone', 'request', 'shanghai', 'the', 'to', 'was']

for sentence_ in corpus:
    sentence = []
    for x in sentence_[:-1].replace(',', '').split():
        sentence.append(x.lower())
    vector = [0]*len(word_voc)
    for word_index in range(len(word_voc)):
        word = word_voc[word_index]
        vector[word_index] = Counter(sentence)[word]
    Y.append(vector)
Y = np.array(Y)