众筹平台捐赠者细分与活动分析
1. 数据处理与基础概念
在数据分析中,数据点之间的距离用 (d(X_i, X_j)) 表示。平均相异度定义为数据点 (X_i) 到其他簇 (C_{k’})((C_k \neq C_{k’}))中所有点的最小平均距离,即:
[b_i = \min_{k \neq k’} \frac{1}{|C_{k’}|} \sum_{X_j \in C_{k’}} d(X_i, X_j)]
数据点 (X_i) 的轮廓系数计算方式为:
[s_i = \frac{b_i - a_i}{\max{a_i, b_i}}]
整个数据集的轮廓系数是所有 (s_i) 的平均值。
2. 捐赠者聚类分析
通过聚类分析,确定了四个最优的捐赠者簇,各簇的关键属性如下表所示:
| 簇编号 | 簇大小 | R(天) | F(每年) | M(美元) | 总捐赠(美元) |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 1 | 674 (3.80%) | 388.9 | 4.04 | 652.93 | 741,462.56 |
| 2 | 6203 (35.01%) | 84.08 | 1.07 | 84.34 | 523,187.28 |
| 3 | 3908 (22.05%) | 315.02 | 1.18 | 132.91 | 519,398.88 |
| 4 | 6935 (39.14%) | 684.46 | 1.16 | 106.92 | 440,073.60 |
各簇的特点及分析如下:
-
超级会员免费看
订阅专栏 解锁全文
41

被折叠的 条评论
为什么被折叠?



