Scala学习(本地向量集 loadLibSVMFile)

最新推荐文章于 2025-10-11 15:39:49 发布

原创最新推荐文章于 2025-10-11 15:39:49 发布 · 7.1k 阅读

2 ·

CC 4.0 BY-SA版权

5、模式与算法专栏收录该内容

73 篇文章

订阅专栏

本文介绍了一种特定的SVM文件格式及其使用要点，并通过一个基于Spark MLlib的示例展示了如何加载和处理这种格式的数据。重点讨论了文件格式的要求、注意事项以及如何利用Spark进行分布式处理。

这是SVM文件格式例子：

1 1:2 2:3 3:4
2 1:1 2:2 3:3
1 1:1 2:3 3:3
1 1:3 2:1 3:3

需要注意以下几点：

1）标签列可以重复
2）索引要从1开始，从0开始的时候生成的内部索引时从-1开始，而且数据长度会比实际少1；
3）数据的长度是以最大列数为准的，因此最好是要保持数据列数一致；

Scala的MLib支持的本地数据的类型主要是整数和浮点数，因为MLib主要是用来计算。而向量数据和数学上的向量是对应的。

下面是测试代码：

def DoTestA9(): Unit ={
    var theConf = new SparkConf().setMaster("local").setAppName("testRDDMethod")
    var theSC = new SparkContext(theConf)
    var theMU = MLUtils.loadLibSVMFile(theSC,"d://lbl11.txt")
    theMU.foreach(println(_))
  }

从上面的例子也可以看出，文件的读取是需要用到SparkContext的，如果每个spark节点的文件名和存储路径都一样，就可以实现分布式的访问或者存储。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

广州接入

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark MLlib数据结构—Vector和Matrix

08-14

1万+

对于多类分类，标签应该是从零开始的类索引：0、1、2，MLlib支持密集矩阵和稀疏矩阵，密集矩阵的全部值按列主顺序存储在单个double类型数组中，稀疏矩阵的非零条目值按列主顺序以压缩稀疏列（CSC）格式存储。MLlib支持存储在单台机器上的局部向量和矩阵，以及由一个或多个RDD支持的分布式矩阵。记住，MLlib中的本地矩阵是按列的主顺序存储的。是一个面向行的分布式矩阵，没有有意义的行索引，由 RDD 和它的行支持，其中每行都是一个局部向量。是一个没有有意义行索引的行式分布式矩阵，例如，特征向量的集合。

生成libSVM的数据格式及使用方法总结

热门推荐

Studying……

05-18

7万+

首先介绍一下 libSVM的数据格式 Label 1:value 2:value …. Label：是类别的标识，比如上节train.model中提到的1 -1，你可以自己随意定，比如-10，0，15。当然，如果是回归，这是目标值，就要实事求是了。 Value：就是要训练的数据，从分类的角度来说就是特征值，数据之间用空格隔开比如: -15 1:0.708 2:10

2 条评论您还未登录，请先登录后发表或查看评论

loadLibSVMFile 源码

陈陈的专栏

06-17

2717

/** * Loads labeled data in the LIBSVM format into an RDD[LabeledPoint]. * The LIBSVM format is a text-based format used by LIBSVM and LIBLINEAR. * Each line represents a labeled sparse featur

MLUtils.loadLibSVMFile

weixin_30583563的博客

09-06

780

1 import org.apache.spark.mllib.util.MLUtils// Load and parse the data file. 2 3 val data = 4 5 MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 6 7 // Split data into traini...

基于spark-ml,gbdt scala实现 libsvm训练集和普通训练集

qq_37267359的博客

06-17

749

spark-ml,gbdt scla实现普通训练集读取数据 val conf = new SparkConf().setAppName("gbdt_ms").setMaster("local[*]") val spark = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate() //读取原始数据 val parsedRDD =spark.read.textFile("D:\\gbdt\\testSet.txt")

Spark mllib SVM

易水寒

07-31

921

package com.immooc.spark import org.apache.log4j.{Level, Logger} import org.apache.spark.mllib.classification.SVMWithSGD import org.apache.spark.mllib.util.MLUtils import org.apache.spark.{SparkConf...

Spark的MLlib使用基本数据类型：向量、标签点、矩阵、稀疏格式文件libSVM

金啊豆嘞的博客

04-23

618

Spark MLlib库实现了很多的机器学习算法，其基本的几类数据类型解释及代码演示如下。 import org.apache.spark.mllib.linalg.distributed.{BlockMatrix, CoordinateMatrix, IndexedRow, IndexedRowMatrix, MatrixEntry, RowMatrix} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark

Spark机器学习--矩阵的定义——scala版本

m0_37611613的博客

02-14

614

目录一、本地向量二、含类标签的点三、稀疏数据Sparse data 四、本地矩阵五、分布式矩阵 5.1) 面向行的分布式矩阵(RowMatrix) 5.2) 行索引矩阵(IndexedRowMatrix) 5.3) 三元组矩阵(CoordinateMatrix) 一、本地向量本地向量的基类是 Vector,我们提供了两个实现 DenseVector 和 SparseVector。我们建议...

请使用scala和spark mllib 编写一个支持向量机分类算法

04-27

以上代码实现了使用Scala和Spark MLlib训练一个基于梯度下降法的支持向量机分类模型，并使用测试数据集评估模型性能，最后将模型保存到本地磁盘。请注意，这只是一个简单的示例，实际应用中需要根据数据集的特性和...

数据挖掘与机器学习

Winyar的博客

07-21

4769

数据挖掘数据挖掘：也就是data mining，是一个很宽泛的概念，也是一个新兴学科，旨在如何从海量数据中挖掘出有用的信息来。数据挖掘这个工作BI（商业智能）可以做，统计分析可以做，大数据技术可以做，市场运营也可以做，或者用excel分析数据，发现了一些有用的信息，然后这些信息可以指导你的business，这也属于数据挖掘。机器学习机器学习：machine learning，是计算机科学...

17、Spark、机器学习库与云计算数据库的应用与实践

最新发布

xgboost6farmer的博客

10-11

本文探讨了Spark及其机器学习库在环境科学领域大规模数据处理中的应用，介绍了RDD的基本操作与生命周期，并结合实际练习展示了如何利用Spark进行污染数据分析与预测。同时，文章对比了传统RDBMS与NoSQL数据库的差异，阐述了NoSQL在云计算环境下的优势。进一步，文章分析了Spark与NoSQL数据库（如Cassandra、MongoDB）的协同架构，提升了数据处理效率，并通过环境监测和智能农业等案例展示了技术的实际应用。最后，展望了Spark与NoSQL在人工智能、物联网等领域的广阔前景。

ml_utils：来自graphlab和numpy的机器学习工具

02-20

安装光盘./ml_utils <sudo> 机器学习实用程序文件（API）

mllib逻辑回归 spark_MLlib数据格式

weixin_32058931的博客

01-07

166

巧妇无为无米之炊，只有先有数据，然后才有数据分析，这是我最大的败笔，我之前讲的课，没有告诉听众，如何获取数据。这也是我自己遇到的困扰，我学习一门新技术的时候，如果没有数据，光抽象的讲解，我也会感觉不亲切，也会感觉抽象。我现在正在学习的《Spark MLlib机器学习》，这本书就没有给出数据集的下载地址，说实话，我觉得一般般，只想赶快结束。数据处理生成样本一、数据处理MLUtils用于辅助加载、保存...

Spark MLlib分布式机器学习源码分析：集成树模型

大数据之眸

03-26

691

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。本文结合机器学习思想与Spark框架代码结构来实现分布式机器学习过程，希望与大家一起学习进步～目录 1.随机森林概念 2随机森林参数 3.随机森林实例 4.随机森林源码 5...

Spark的MLLib中，SVM官方示例所用的load方法源码解读

wangzfox的博客

05-17

3785

Spark中MLLib中SVM官方算法的load方法的阅读

关于SparkMLlib的基础数据结构Spark-MLlib-Basics

canglingye的专栏

11-20

2万+

此部分主要降价写关于MLlib的集中基础的数据结构

Spark MLlib数据类型

weixin_30609287的博客

09-24

238

MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵. 1,本地向量(Local Vector) 一个本地向量是由从0开始的整型下标和double型值组成,存储在一个单机节点上.MLlib支持两种类型的本地向量:密集的和稀疏的.密集向量用一个doub...

Spark MLlib学习（二）——分类和回归

myy1012010626的专栏

05-16

8874

MLlib支持多种分类方法，如二分类、多分类和回归分析等。问题类型支持的方法二分类线性SVM, 逻辑回归，决策树，随机森林，GBDT，朴素贝叶斯多分类决策树，随机森林，朴素贝叶斯回归

关于spark的mllib学习总结（Java版）

qq_30843221的博客

04-23

1万+

本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据，具体的流程如下图所示：加载数据对于数据的加载或保存，mllib提供了MLUtils包，其作用是Helper methods to load,save and pre-process data used in MLLib.博客中的数据是采用spark中提供的数据sample_libsvm_data.txt，其有一百个数据