多变量分组最优数量的探索与应用
在数据分析领域,准确地对数据进行分组是一项关键任务,它有助于我们深入理解数据的特征和规律,从而制定更有效的策略。本文将详细介绍如何使用 Elbow 函数和 K-means 算法来确定单变量和多变量数据的最优分组数量,并通过实际案例展示其应用。
单变量数据分组
在处理单变量数据时,我们可以使用 Elbow 函数来确定最优的分组数量。以产品利润数据为例,Elbow 函数会返回一个曲线,我们选择曲线开始变平的点所对应的数值作为最优分组数量。在图 5.13 中,曲线在数值 5 处变平,因此 5 就是该产品利润数据的最优分组数量。
接下来,我们使用 K-means 函数进行分组。在 BERT 控制台中运行 K-means 函数时,需要传递三个参数:
- 要处理的分组数量
- 输入数据的范围
- 存储分组分配结果的范围
具体操作步骤如下:
1. 写入要处理的分组数量范围,例如在单元格 F1:F1 中:
rng <- EXCEL$Application$get_Range( "F1:F1" )
- 写入输入数据的范围,如 E2:E38073:
rng <- EXCEL$Application$get_Range( "E2:E38073" )
- 写入存储分组分配结果的范围,如 F2:F38073: </
多变量分组最优数量探索
超级会员免费看
订阅专栏 解锁全文
1199

被折叠的 条评论
为什么被折叠?



