今天试用了一下Spark的机器学习,体验如下:
第一步,导入数据
我们使用Iris数据集,做一个分类,首先要把csv文件导入。这里用到了spark的csv包,不明白为什么这么常见的功能不是内置的,还需要额外加载。
--packages com.databricks:spark-csv_2.11:1.4.0
结果如下:
本文介绍了使用Spark进行机器学习的过程,通过Iris数据集进行分类任务。内容包括数据导入、特征提取、模型训练与验证。在模型训练中,遇到Spark的StringIndexer将类别转换为数值的问题,以及pyspark.ml和pyspark.mllib接口的选择。此外,尝试SVM时发现Spark的SVM仅支持二分类,不适用于多分类问题。最后,作者分享了在自定义转换分类标签时遇到的不可变性问题,提醒读者注意分布式环境下的并行处理特性。
今天试用了一下Spark的机器学习,体验如下:
第一步,导入数据
我们使用Iris数据集,做一个分类,首先要把csv文件导入。这里用到了spark的csv包,不明白为什么这么常见的功能不是内置的,还需要额外加载。
--packages com.databricks:spark-csv_2.11:1.4.0
结果如下:
1080
598
3624