Spark MLlib 入门学习笔记 - 逻辑回归

最新推荐文章于 2025-06-03 23:07:05 发布

hjh00

最新推荐文章于 2025-06-03 23:07:05 发布

阅读量2.9k

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： MLlib 逻辑回归 spark

本文链接：https://blog.youkuaiyun.com/hjh00/article/details/72801010

这篇博客介绍了Spark MLlib中逻辑回归的使用，包括数据处理、SGD与LBFGS两种算法的实践，以及如何进行模型训练和预测。通过一个交通事故统计案例，展示了如何将数据转化为LabeledPoint并利用LogisticRegressionWithSGD和LogisticRegressionWithLBFGS进行模型训练，最终得出LBFGS在该问题上表现更优的结论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于逻辑回归的算法原理 Spark官方文档里有说明，另外网上也有中文翻译文档可参考。本笔记是学习MLlib的辑回归API使用时一道练习题记录，通过这道练习，可以掌握基本使用。MLLib提供了两种算法实现，分别是SGD梯度下降法和LBFGS。

1. 数据文件

交通事故的统计文件，四列，accident(去年是否出过事故，1表示出过事故，0表示没有)，age(年龄数值型)，vision(视力状况，分类型，1表示好，0表示有问题)，drive(驾车教育，分类型，1表示参加过驾车教育，0表示没有)。第1列是因变量，其它3列是特征。这是一个用空格分隔的文本文件，要使用MLLib算法库，首先要读文件并转成LabeledPoint数据类型的RDD。