Spark 机器学习实践：Iris数据集的分类

最新推荐文章于 2025-09-25 17:58:12 发布

原创

最新推荐文章于 2025-09-25 17:58:12 发布 · 3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #spark #机器学习

本文介绍了使用Spark进行机器学习的过程，通过Iris数据集进行分类任务。内容包括数据导入、特征提取、模型训练与验证。在模型训练中，遇到Spark的StringIndexer将类别转换为数值的问题，以及pyspark.ml和pyspark.mllib接口的选择。此外，尝试SVM时发现Spark的SVM仅支持二分类，不适用于多分类问题。最后，作者分享了在自定义转换分类标签时遇到的不可变性问题，提醒读者注意分布式环境下的并行处理特性。

今天试用了一下Spark的机器学习，体验如下：

第一步，导入数据

我们使用Iris数据集，做一个分类，首先要把csv文件导入。这里用到了spark的csv包，不明白为什么这么常见的功能不是内置的，还需要额外加载。

--packages com.databricks:spark-csv_2.11:1.4.0

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv')
    .options(header='true', inferschema='true')
    .load('iris.csv')
# Displays the content of the DataFrame to stdout
df.show()

结果如下：

+-----+------------+-----------+------------+-----------+-------+
|rowid|Sepal.Length|Sepal.Width|Petal.Length|Petal.Width|Species|
+-----+------------+-----------+------------+-----------+-------+
|    1|         5.1|        3.5|         1.4|        0.2| setosa|
|    2|         4.9|        3.0|         1.4|        0.2| setosa|
|    3|         4.7|        3.2|         1.3|        0.2| setosa|
|    4|         4.6|        3.1|         1.5|        0.2| setosa|
|    5|         5.0|        3.6|         1.4|        0.2| setosa|
|    6|         5.4|        3.9|         1.7|        0.4| setosa|
|    7|         4.6|        3.4|         1.4|        0.3| setosa|
|    8|         5.0|        3.4|         1.5|        0.2| setosa|
|    9|         4.4|        2.9|         1.4|        0.2| setosa|
|   10|         4.9|        3.1|         1.5|        0.1| setosa|
|   11|         5.4|        3.7|         1.5|        0.2| setosa|
|   12|         4.8|        3.4|         1.6|        0.2| setosa|
|   13|         4.8|        3.0|         1.4|        0.1| setosa|
|   14|         4.3|        3.0|

最低0.47元/天解锁文章

5 条评论

AIHUBEI 2020.01.07
你好，可以帮我一下吗？我这里有点问题

Burette_Lee 2019.12.27
这个一看就是抄的别人的吧，实际跑的时候会有个问题：pyspark.sql.utils.IllegalArgumentException: u'requirement failed: Column features must be of type struct<type:tinyint,size:int,indices:array<int>,values:array<double>> but was actually struct<type:tinyint,size:int,indices:array<int>,values:array<double>>.' 原因是：from pyspark.mllib.linalg import Vectors 正确应该是：from pyspark.ml.linalg import Vectors 参考：https://stackoverflow.com/questions/55438516/how-to-fix-pyspark-sql-utils-illegalargumentexception-incorrect-type-for-colum
- AIHUBEI回复Burette_Lee 2020.01.07
  [reply]qq_29303759[/reply]请问你有这份完整的程序么？
- AIHUBEI回复Burette_Lee 2020.01.07
  [reply]qq_29303759[/reply]你好，请问你有这个完整的程序么？
- AIHUBEI回复Burette_Lee 2020.01.07
  [reply]qq_29303759[/reply]你好，请问你有没有完整的程序啊？上面这个我跑着有问题，