官方文档太长了,貌似没有单独的Example
两种写法:
简洁的:
from sklearn.feature_extraction.text import TfidfVectorizer
def cal_tf_idf_sparse(train_corpus, test_corpus):
tfidf_vec = TfidfVectorizer()
print "fitting..."
train_tfidf = tfidf_vec.fit_transform(train_corpus)
print "transforming..."
test_tfidf = tfidf_vec.transform(test_corpus)
return train_tfidf, test_tfidf
可以直接跑的例子:
# coding=utf-8
from sklearn.feature_extraction.text import TfidfVectorizer
def cal_tf_idf_sparse(train_corpus, test_corpus):
tfidf_vec = TfidfVectorizer()
print "fitting..."
train_tfidf = tfidf_vec.fit_transform(train_corpus)
print "transforming..."
test_tfidf = tfidf_vec.transform(test_corpus)
return train_tfidf, test_tfidf
mydoclist = ['温馨 提示 : 家庭 畅享 套餐 介绍 、 主卡 添加 / 取消 副 卡 短信 办理 方式 , 可 点击 文档 左上方 短信 图标 即可 将 短信 指令 发送给 客户',
'客户 申请 i 我家 , 家庭 畅享 计划 后 , 可 选择 设置 1 - 6 个 同一 归属 地 的 中国移动 网 内 号码 作为 亲情 号码 , 组建 一个 家庭 亲情 网 家庭 内 ',
'所有 成员 可 享受 本地 互打 免费 优惠 , 家庭 主卡 号码 还 可 享受 省内 / 国内 漫游 接听 免费 的 优惠']
test_doc = ['一个 客户 号码 只能 办理 一种 家庭 畅享 计划 套餐 , 且 只能 加入 一个 家庭网']
train, test = cal_tf_idf_sparse(mydoclist, test_doc)
print train.todense()
print test.todense()
长的:
def cal_sparse_tf_idf(corpus, test_corpus):
vectorizer = CountVectorizer() # 该类会将文本中的词语转换为词频矩阵,矩阵元素a[i][j] 表示j词在i类文本下的词频
transformer = TfidfTransformer() # 该类会统计每个词语的tf-idf权值
tf = vectorizer.fit_transform(corpus)
tfidf = transformer.fit_transform(tf) # 第一个fit_transform是计算tf-idf,第二个fit_transform是将文本转为词频矩阵
test_tf = vectorizer.transform(test_corpus)
test_tf_idf = transformer.transform(test_tf)
# print "test:", transformer.transform(test_tf)
print "shape, train, test:", tfidf.shape, test_tf_idf.shape
return tfidf, test_tf_idf
输入类似短的例子 已经测试过可以直接跑
另外tf-idf的模型的保存和正常的sklearn一样
http://blog.youkuaiyun.com/ahora_wzy/article/details/51188453
在训练模型后将模型保存的方法,以免下次重复训练。
使用pickle模块或者sklearn内部的joblib
一、使用pickle模块
from sklearn import svm
from sklearn import datasets
clf=svm.SVC()
iris=datasets.load_iris()
X,y=iris.data,iris.target
clf.fit(X,y)
import pickle
s=pickle.dumps(clf)
f=open('svm.txt','w')
f.write(s)
f.close()
f2=open('svm.txt','r')
s2=f2.read()
clf2=pickle.loads(s2)
clf2.score(X,y)
二、使用joblib
joblib更适合大数据量的模型,且只能往硬盘存储,不能往字符串存储
from sklearn.externals import joblib
joblib.dump(clf,'filename.pkl')