sklearn 计算tf-idf

最新推荐文章于 2025-07-02 15:22:19 发布

原创最新推荐文章于 2025-07-02 15:22:19 发布 · 3.2k 阅读

1 ·

CC 4.0 BY-SA版权

sklearn 同时被 2 个专栏收录

2 篇文章

订阅专栏

NLP

1 篇文章

订阅专栏

本文提供了一个简洁实用的TF-IDF向量化示例代码，并对比了两种不同的实现方式。此外，还介绍了如何利用Python的pickle模块和sklearn的joblib来保存训练好的TF-IDF模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

官方文档太长了，貌似没有单独的Example

两种写法：

简洁的:

from sklearn.feature_extraction.text import TfidfVectorizer

def cal_tf_idf_sparse(train_corpus, test_corpus):
    tfidf_vec = TfidfVectorizer()
    print "fitting..."
    train_tfidf = tfidf_vec.fit_transform(train_corpus)
    print "transforming..."
    test_tfidf = tfidf_vec.transform(test_corpus)

    return train_tfidf, test_tfidf

可以直接跑的例子：

# coding=utf-8
from sklearn.feature_extraction.text import TfidfVectorizer

def cal_tf_idf_sparse(train_corpus, test_corpus):
    tfidf_vec = TfidfVectorizer()
    print "fitting..."
    train_tfidf = tfidf_vec.fit_transform(train_corpus)
    print "transforming..."
    test_tfidf = tfidf_vec.transform(test_corpus)

    return train_tfidf, test_tfidf

mydoclist = ['温馨 提示 ： 家庭 畅享 套餐 介绍 、 主卡 添加 / 取消 副 卡 短信 办理 方式 , 可 点击 文档 左上方  短信  图标 即可 将 短信 指令 发送给 客户',
'客户 申请 i 我家 ， 家庭 畅享 计划  后 ， 可 选择 设置 1 - 6 个 同一 归属 地 的 中国移动 网 内 号码 作为 亲情 号码 ， 组建 一个 家庭 亲情 网  家庭 内 ',
'所有 成员 可 享受 本地 互打 免费 优惠 ， 家庭 主卡 号码 还 可 享受 省内 / 国内 漫游 接听 免费 的 优惠']

test_doc = ['一个 客户 号码 只能 办理 一种 家庭 畅享 计划 套餐 ， 且 只能 加入 一个 家庭网']


train, test = cal_tf_idf_sparse(mydoclist, test_doc)

print train.todense()
print test.todense()

长的：

def cal_sparse_tf_idf(corpus, test_corpus):
    vectorizer = CountVectorizer()  # 该类会将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频
    transformer = TfidfTransformer()  # 该类会统计每个词语的tf-idf权值
    tf = vectorizer.fit_transform(corpus)
    tfidf = transformer.fit_transform(tf)  # 第一个fit_transform是计算tf-idf，第二个fit_transform是将文本转为词频矩阵

    test_tf = vectorizer.transform(test_corpus)
    test_tf_idf = transformer.transform(test_tf)
    # print  "test:", transformer.transform(test_tf)
    print "shape, train, test:", tfidf.shape, test_tf_idf.shape
    return tfidf, test_tf_idf

输入类似短的例子已经测试过可以直接跑

另外tf-idf的模型的保存和正常的sklearn一样

http://blog.youkuaiyun.com/ahora_wzy/article/details/51188453

在训练模型后将模型保存的方法，以免下次重复训练。

使用pickle模块或者sklearn内部的joblib

一、使用pickle模块

from sklearn import svm

from sklearn import datasets

clf=svm.SVC()

iris=datasets.load_iris()

X,y=iris.data,iris.target

clf.fit(X,y)