spark下的贝叶斯模型

最新推荐文章于 2025-04-16 14:00:49 发布

初夏11

最新推荐文章于 2025-04-16 14:00:49 发布

阅读量1.2k

点赞数

分类专栏：分类 spark MLlib 文章标签： spark 分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u013083549/article/details/51321527

版权

分类同时被 3 个专栏收录

3 篇文章

订阅专栏

1 篇文章

订阅专栏

1 篇文章

订阅专栏

这篇博客介绍了如何在Spark上实现贝叶斯分类模型。首先，通过`pyspark`库导入必要的模块，然后使用`HashingTF`和`IDF`进行特征工程，将文本数据转化为TF-IDF向量。接着，利用`NaiveBayes`训练模型，并对测试数据进行分类预测。最后，博主展示了如何将类别标签转换为数字并应用于模型训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

贝叶斯模型调用函数比较简单，重点是数据格式的读取。

还是在代码中说明吧

import os

import sys

from numpy import array

from pyspark import SparkConf

from pyspark import SparkContext

#from __future__ import print_function

from operator import add

from pyspark.mllib.feature import IDF

from pyspark.mllib.feature import HashingTF

from pyspark.mllib.linalg import Vectors

from pyspark.mllib.classification import NaiveBayes, NaiveBayesModel

from pyspark.mllib.regression import LabeledPoint

//以上是导入各种库

conf = SparkConf()

conf = conf.setMaster("local")

sc = SparkContext(conf=conf)

//以下这两个程序主要是为了把类别转成数字，对别人可能无用，可以借用的部分是，这样返回一个字典。

def split(line):

return line.split('\t')[1],line.split('\t')[0]

def relation():

fin = sc.textFile("file:///home/tag2.txt")

dict_tag = dict(fin.map(split).collect())//返回一个字典。

return dict_tag

//以下程序的读训练文本和训练的类，分别放在两个文件中，训练模型，并输入测试文本（只有一行）进行分类，返回类标号

def read_train_tag():

dict_tag = relation()

fin = sc.textFile("file:///new_train_tag")

train_tag = fin.map(lambda line :dict_tag[line.strip()]).collect()//将类对应到数字标号

return train_tag

def tfidf():

train_tag = read_train_tag()

doc = sc.textFile("file:///home/new_train_jieba")//分好词的训练文档

doc1 = doc.map(lambda line:line.split(" "))

htf = HashingTF(2000)//这里是把特征定义成2000维度，假如文本比较大，可以设置成默认的维度

tf = htf.transform(doc1)

idf = IDF()

model = idf.fit(tf)

tfidf = model.transform(tf)//构建tfidf模型

output = tfidf.collect()

data = []

//由于tfidf返回的是个稀疏矩阵，当时费了好大劲才知道该怎么做。首先是把稀疏矩阵转换成密集矩阵，使用toArray()函数可以把一个稀疏矩阵转成数组，转成数组后倒是可以不用转成密集矩阵了。转成密集矩阵并且加上类别label就是贝叶斯模型想要的格式

for i in range(len(output)):

data.append(LabeledPoint(train_tag[i],Vectors.dense(output[i].toArray())))

na_model = NaiveBayes.train(sc.parallelize(data))//要改成贝叶斯模型需要的数据格式

test = sc.textFile("file:///test_data")//输入测试数据就可以进行测试了，当然也要把测试数据改成和训练数据一样的格式

test1 = test.map(lambda line:line.split(" "))

test_tf = htf.transform(test1)

test_tfidf = model.transform(test_tf).collect()

s = na_model.predict(test_tfidf[0].toArray())

print (s)//是一个类别，后期调研一下，怎么得到每个类别以及概率

tfidf()

博客等级

码龄11年

12
原创

3
点赞

11
收藏

7
粉丝

关注

私信

热门文章

分类专栏

C++ 3篇
机器学习 13篇
数据结构
python 14篇
聚类
个性化推荐
机器学习库 2篇
分类 3篇
scikit-learn 10篇
计划 1篇
sklearn 1篇
分词 1篇
spark 1篇
MLlib 1篇

展开全部收起

最新评论

spark下的分词--spark+jieba
e_jiandan: 我这里显示因编码问题失败，你碰到过吗？可确认：1、py文件本身为utf-8编码；2、输入文件也是utf-8；错误信息如下： PySpark worker failed with exception: Traceback (most recent call last): File "/usr/local/spark-2.2.0/python/lib/pyspark.zip/pyspark/worker.py", line 181, in main write_with_length(traceback.format_exc().encode("utf-8"), outfile) UnicodeDecodeError: 'ascii' codec can't decode byte 0xe8 in position 553: ordinal not in range(128) 请教：该如何处理呢？或者如何排查此类问题。。。
spark下的分词--spark+jieba
shiter: 您好，我想问下，这个调用是分布式的么？每台机器上是不是都要安装结巴
spark下的分词--spark+jieba
初夏11 回复 liaicheng12: 没有遇到，你是不是哪里写错了。你可以不用spark，单机版写一行分词一下，看能加载成功不
spark下的分词--spark+jieba
liaicheng12: 你好，我在加载自己的词典后jieba.load_userdict('dict.txt')，对spark rdd的每个element进行分词，发现自己的dict是没有加载成功的，不知道你碰到这个问题了吗？
计划
accumulate_zhang: 好棒的

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。