一个简单的Spark ML的例子

最新推荐文章于 2025-07-09 17:43:31 发布

Great1414

最新推荐文章于 2025-07-09 17:43:31 发布

阅读量4.5k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： spark ml spark机器学习

本文链接：https://blog.youkuaiyun.com/weixin_41512727/article/details/89851692

本文介绍了在Spark 2.4.1上使用SVM进行机器学习的实践过程。首先在虚拟环境中搭建Spark，并在IDEA中远程运行。文章详细阐述了配置步骤，包括所需jar包的获取。接着，展示了简单的机器学习流程，用代码展示了如何在Spark中实现。在运行过程中遇到的两个问题分别是缺少Hadoop环境及Master URL设置，作者提供了解决办法。最后，提供了GitHub项目链接，包含了完整的代码和数据集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1-配置

首先，我在虚拟上，搭建了一个单机spark2.4.1(无hadoop)。然后在本地的IDEA中远程运行spark，操作一个svm的小例子。
sbt文件：

name := "spark_ml_examples"
version := "0.1"
scalaVersion := "2.11.12"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.4.1"
libraryDependencies += "org.apache.spark" % "spark-streaming_2.11" % "2.4.1"
libraryDependencies += "org.apache.spark" % "spark-streaming-kafka-0-10_2.11" % "2.4.1"
libraryDependencies += "org.apache.spark" % "spark-sql_2.11" % "2.4.1"
libraryDependencies += "org.apache.spark" % "spark-mllib_2.11" % "2.4.1"
libraryDependencies += "org.json4s" %% "json4s-jackson" % "{latestVersion}"

其中kafka和stream这里没有用到，因为之前写的，没有移除。关于加载的jar包，我提供几个地址去查询，直接给链接。
https://www.mvnjar.com/org.apache.spark/list.html
h