Spark Mllib里如何采用保序回归做回归分析（图文详解）

最新推荐文章于 2024-08-27 21:15:17 发布

转载最新推荐文章于 2024-08-27 21:15:17 发布 · 65 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/zlslch/p/7486835.html

本文介绍了保序回归的基本思想及其应用场景，特别强调了在处理大规模数据集时的优势，并通过实例展示了保序回归的具体操作过程。

　　不多说，直接上干货！

　　相比于决策树，保序回归的应用范围没有决策树算法那么广泛。

　　特别在数据处理较为庞大的时候，采用保序回归做回归分析，可以极大地节省资源，从而提高计算效率。

　　保序回归的思想，是对数据进行均值排序，从数据集的第一个数开始，如果下一个数出现乱序，即与设定的顺序不符，则从乱序的数据开始逐个开始求得平均值，直到求得的平均值与下一个数据比较不成为乱序为止。

　　例如一个数据集：

 {1,3,2,4,5}

　　要求其按照保序回归由小到大进行排列。

　　首先观察第一个数是1，可以不做变动继续存放。第二个是2，仍然不需要变动。第三个数是2，是属于乱序从而需要对其重新计算。

　　第三个数是乱序，需要对其重新计算，提取数据2和下一个数据4，计算得到平均值为3，因此，可获得一个新的数据集：

 {1,3,3,3,5}

　　具体，见

Spark Mllib机器学习实战的第8章决策树与保序回归

转载于:https://www.cnblogs.com/zlslch/p/7486835.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30699831

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark MLlib案例：采用线性回归模型预测房价

howard2005的专栏

06-18

1474

基于Spark RDD采用线性回归模型预测房价

Spark MLlib 机器学习详解

考研小钻风

06-06

1952

易于使用：提供了丰富的 API，支持 Scala、Java、Python 和 R 等多种编程语言。高度可扩展：可以处理海量数据，适用于大规模机器学习任务。丰富的算法库：支持分类、回归、聚类、降维、协同过滤等常用算法。本文详细介绍了 Spark MLlib 的功能及其应用，结合实例演示了分类、回归、聚类、降维、协同过滤等常用机器学习任务的实现过程。通过这些实例，我们可以看到 Spark MLlib 强大的数据处理和机器学习能力，非常适合大规模数据的处理与分析。

参与评论您还未登录，请先登录后发表或查看评论

保序回归问题

Freopen的博客

07-11

497

Spark机器学习(3)：保序回归算法

weixin_33709609的博客

06-15

384

保序回归即给定了一个无序的数字序列，通过修改其中元素的值，得到一个非递减的数字序列，要求是使得误差（预测值和实际值差的平方）最小。比如在动物身上实验某种药物，使用了不同的剂量，按理说剂量越大，有效的比例就应该越高，但是如果发现了剂量大反而有效率降低了，这个时候就只有把无序的两个元素合并了，重新计算有效率，直到计算出来的有效率不大于比下一个元素的有效率。 MLlib使用的是PAVA（Pool Ad...

SparkML之回归(三)保序回归

bbbeoy的专栏

11-20

880

在写這篇博客的时候，翻阅了一些互联网上的资料，发现文献[1]写的比较系统。所以推荐大家读读文献[1].但是出现了一些错误，所以我在此简述一些。如果推理不过去了。可以看看我的简述。 ------------------------------------前言背景：（1）在医学领域药物剂量反应中，随着药物剂量的增加，疗效和副作用会呈现一定趋势。比如剂量越高，疗效越

预测房价实验-房价数据集

weixin_33742618的博客

10-15

2255

house.csv position;square;price;direction;type;name; 0;190;20000;0;4室2厅2卫;中信城(别墅); 0;190;20000;0;4室2厅2卫;中信城(别墅); 5;400;15000;0;4室3厅3卫;融创上城; 0;500;15000;0;5室3厅2卫;中海莱茵东郡; 5;500;15000;0;5室3厅4卫;融创...

Spark mllib 线性回归测试数据

05-27

通过对给定的Spark MLlib线性回归测试数据的详细分析，我们不仅了解了线性回归的基本原理和在Spark MLlib中的实现方式，还深入探讨了如何利用这样的数据来训练和评估模型。在未来的工作中，合理利用这些知识可以帮助...

mllib逻辑回归 spark_Spark Mllib中逻辑回归

weixin_34589862的博客

02-17

737

Spark MLlib模型训练—回归算法 Linear regression

最新发布

2401_84052244的博客

08-27

4116

线性回归作为一种经典的回归方法，虽然简单但在实际应用中依旧表现出强大的效果。借助 Spark 的分布式计算框架，我们可以在大规模数据集上高效地进行线性回归建模。在本文中，我们详细介绍了线性回归的原理、参数、模型实现与调优，并结合 ScalaSpark 线性回归的优化策略特征标准化：在线性回归中，标准化特征有助于提升模型收敛速度，避免特征值差异过大引起的计算问题。特征选择：在高维数据集中，选择相关性高的特征可以提高模型的预测准确性。交叉验证。

保序回归

duncan

10-26

491

保序回归（英文：Isotonic regression）在数值分析中指的是在保序约束下搜索一个加权 w 的最小二乘 y 以拟合变量 x，它是一个二次规划问题 python的实现版本：http://scikit-learn.org/stable/auto_examples/plot_isotonic_regression.html#example-plot-isotonic-reg...

Spark-MLlib的快速使用之十五（ 保序回归）

tbb_1984的博客

11-20

247

(1) 描述这种回归，是这一种单调函数的回归，回归模型中后一个x一定比前一个x大，也就是有序，具体的数学公式在上面两个网址中都有。 保序回归并不需要制定的目标函数。 保序回归的应用之一就是用来做统计推断，比如药量和毒性的关系，一般认为毒性随着药量是不减或者递增的关系，借此可以来估计最大药量。问题描述：给定一个无序数字序列y，通过修改每个元素的值得到一个非递减序列 y‘ ，问如何使y和 ...

Spark mllib 保序回归

易水寒

07-15

545

从该序列的首元素往后观察，一旦出现乱序现象停止该轮观察，从该乱序元素开始逐个吸收元素组成一个序列，直到该序列所有元素的平均值小于或等于下一个待吸收的元素。举例：原始序列：<9, 10, 14>结果序列：<9, 10, 14>分析：从9往后观察，到最后的元素14都未发现乱序情况，不用处理。原始序列：<9, 14, 10>结果序列：<9, 12, 12>...

Spark中组件Mllib的学习41之保序回归（Isotonic regression）

Keep Learning

05-25

2170

保序回归（isotonic_regression）

zhangbaoanhadoop的博客

08-31

2196

http://scikit-learn.org/stable/auto_examples/plot_isotonic_regression.html#example-plot-isotonic-regression-py代码就不贴了，参考上面链接。看代码，给人的直观感受类似于CART，具有分段回归的效果。不过很少见人用这个方法，还是推荐使用CART吧，不过了解一下思想罢了。。。给个简单的例子：问题描

Isotonic regression--保序回归

Spark Mllib里如何采用保序回归做回归分析（图文详解）

Spark Mllib机器学习实战的第8章 决策树与保序回归

Spark Mllib机器学习实战的第8章决策树与保序回归