task4

原理:
带你理解朴素贝叶斯分类算法

利用朴素贝叶斯模型进行文本分类

from sklearn.naive_bayes import MultinomialNB
# 将文本进行tf-idf
tfv = TfidfVectorizer()
tfv.fit(list(xtrain) + list(xvalid))
xtrain_tfv =  tfv.transform(xtrain) 
xvalid_tfv = tfv.transform(xvalid)

clf = MultinomialNB()
clf.fit(xtrain_tfv, ytrain)
predictions = clf.predict_proba(xvalid_tfv)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

SVM的原理
SVM原理
利用SVM模型进行文本分类

clf = SVC(C=1.0, probability=True) 
clf.fit(xtrain_svd_scl, ytrain)
predictions = clf.predict_proba(xvalid_svd_scl)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

pLSA、共轭先验分布;LDA主题模型原理:
通俗理解LDA主题模型

from sklearn.decomposition import LatentDirichletAllocation,TruncatedSVD

lda=LatentDirichletAllocation(n_components=15,random_state=42,max_iter=10)
Z=lda.fit_transform(matrixTFIDF) 
get_topics(lda.components_,tfidf_v.get_feature_names(),n=15)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值