电力消费聚类与比特币地址图分析
电力消费聚类相关研究
聚类指标与方法
在电力消费聚类研究中,为了评估聚类结果,常使用有效性指标,如Davies - Bouldin(DB)指数和SD有效性指数。DB指数衡量每个聚类与其最相似聚类的相似度均值,可判断聚类是否需要合并;SD指数基于聚类的平均离散度和聚类间的总距离,聚类越紧凑、间距越大,聚类结果越好,且这两个指数值越低,聚类效果越优。
实验数据集与流程
实验选用了3个数据集(CR1、CR2、CR3),每个数据集包含2000个电力分配消费者数据实例。对每个评估的指标,对每个数据集进行19次k - Means++聚类,目标聚类数从2到20个,选取有效性指标最佳的聚类配置。同时,由于DB和SD指数计算也需要指标,所以每个聚类结果用创建时使用的相同指标进行评估。
不同指标聚类结果
| 指标 | 聚类数量范围 |
|---|---|
| 欧几里得指标 | 每个数据集11 - 14个聚类 |
| 曼哈顿指标 | 根据数据集不同为7或8个聚类,但超90%数据实例聚到单个聚类,不符合预期 |
| 余弦相似度、互相关和Spearman系数 | 每个数据集3个聚类 |
| 曲线形状距离 | 每个数据集10 - 14个聚类 |
有效性指数结果
PCA转换数据的DB有效性指数
| 指标 | CR1 | CR2 | CR3 |
|---|---|---|---|
| 欧几里得(L2) | 1.52 | 1.59 | 1.25 |
| 余弦 | 2.70 | 2.33 | 2.63 |
| 互相关 | 1.85 | 1.92 | 1.89 |
| Spearman | 4.35 | 4.76 | 4.76 |
| 曲线形状距离 | 1.79 | 1.67 | 1.79 |
PCA转换数据的SD有效性指数
| 指标 | CR1 | CR2 | CR3 |
|---|---|---|---|
| 欧几里得(L2) | 0.70 | 0.72 | 0.70 |
| 余弦 | 1.00 | 1.02 | 0.80 |
| 互相关 | 1.00 | 1.18 | 0.96 |
| Spearman | 1.06 | 1.23 | 1.23 |
| 曲线形状距离 | 0.84 | 0.70 | 0.63 |
实验结论
从PCA转换数据的实验结果来看,欧几里得指标聚类效果最佳,曲线形状距离次之,基于相关性的指标效果较差。推测相关性指标表现不佳可能是PCA转换去除了数据实例间的相关性,因此后续对原始未转换数据进行了重复测试。
未进行PCA转换数据的实验结果
未进行PCA转换数据的DB有效性指数
| 指标 | CR1 | CR2 | CR3 |
|---|---|---|---|
| 欧几里得(L2) | 1.56 | 1.33 | 1.43 |
| 余弦 | 1.59 | 1.61 | 1.59 |
| 互相关 | 2.22 | 2.17 | 2.17 |
| Spearman | 2.38 | 2.44 | 2.56 |
| 曲线形状距离 | 1.28 | 1.47 | 1 |
未进行PCA转换数据的SD有效性指数
| 指标 | CR1 | CR2 | CR3 |
|---|---|---|---|
| 欧几里得(L2) | 0.79 | 0.72 | 0.69 |
| 余弦 | 0.68 | 0.62 | 0.65 |
| 互相关 | 1.32 | 1.39 | 1.16 |
| Spearman | 1.25 | 1.25 | 1.19 |
| 曲线形状距离 | 0.35 | 0.47 | 0.42 |
去除PCA转换对互相关和Spearman系数的聚类结果影响不大,欧几里得指标的指数略有升高,而余弦相似度和曲线形状距离的指数降低,表明聚类质量提高,其中曲线形状距离的指标最佳,且未出现维度灾难问题。
电力消费聚类流程mermaid图
graph LR
A[选择数据集CR1、CR2、CR3] --> B[选择评估指标]
B --> C[k - Means++聚类,目标聚类数2 - 20]
C --> D[计算DB和SD有效性指数]
D --> E[选取最佳聚类配置]
E --> F[判断是否PCA转换]
F -- 是 --> G[分析PCA转换数据结果]
F -- 否 --> H[分析未转换数据结果]
比特币地址图分析
比特币简介
比特币是最具代表性的去中心化、无监管的虚拟货币,基于加密技术,即“加密货币”。与法定货币不同,比特币没有预设身份,不受中央机构控制,以点对点网络组织,所有交易记录存储在公共分布式账本——比特币区块链中。
比特币基本实体
- 用户与地址 :每个用户可以持有多个密钥对和地址,存储在“钱包”中,鼓励每次交易使用新地址以增加匿名性。
- 交易规则 :地址余额需通过汇总未花费输出计算,输出中的比特币值不能部分花费,每次交易输入总和必须等于输出总和,多余输入可作为“找零”返回原地址或同一用户的其他地址。
比特币地址图构建
从区块链中提取所有交易,创建属性图,节点代表地址,边代表地址间的交易。节点和边可携带额外描述属性。
研究贡献
- 提供2009年1月3日至2016年10月31日所有比特币地址和交易的全面图表示。
- 对地址图进行结构分析,研究其随时间的结构变化。
- 研究可明确或隐含分配给现实世界参与者的比特币地址比例及其随时间的变化。
- 考虑虚拟货币与法定货币汇率,研究用户交易行为。
- 从用户角度分析虚拟货币功能,通过分析地址和地址簇的活动周期。
相关研究
- 匿名性研究 :众多研究聚焦比特币的匿名性及地址去匿名化策略,如分析用户行为、通过启发式聚类和重新识别攻击、关联IP地址等方法揭示用户身份。
- 现实参与者研究 :研究现实世界参与者在比特币生态系统中的属性和行为,如分析混合服务可靠性、比特币交易所盗窃事件等。
- 图表示研究 :对从比特币区块链提取的图表示进行研究,如分析特定事件前后比特币图的属性、深入了解比特币拓扑结构等。
比特币系统基本原理mermaid图
graph LR
A[用户U1、U2] --> B[钱包(含多个地址)]
B --> C[交易T]
C --> D[输入(指向先前交易输出)]
C --> E[输出(指向接收地址)]
D --> F[地址A1、A2等]
E --> F
C --> G[广播到网络]
G --> H[矿工收集]
H --> I[打包成新块]
I --> J[添加到区块链]
电力消费聚类与比特币地址图分析实验结论及展望
电力消费聚类实验总结
综合电力消费聚类的实验结果,我们可以得出以下结论:
-
PCA转换数据
:在使用PCA转换数据进行聚类时,欧几里得指标表现最佳,能得到质量较高的聚类结果,曲线形状距离指标次之。而基于相关性的指标,如余弦相似度、互相关和Spearman系数,表现相对较差。这可能是因为PCA转换去除了数据实例之间的相关性,使得这些基于相关性的指标无法发挥优势。
-
未转换数据
:当使用原始未转换数据进行聚类时,曲线形状距离指标取得了最佳的聚类效果,其DB和SD有效性指数均为最低。欧几里得和余弦指标的表现也较为出色,可并列第二。而互相关和Spearman系数的指标依然较高,聚类质量不佳。同时,曲线形状距离指标在未转换数据上未出现维度灾难问题,说明该指标在处理原始数据时具有较好的稳定性。
电力消费聚类指标性能对比表格
| 指标类型 | PCA转换数据表现 | 未转换数据表现 |
|---|---|---|
| 欧几里得指标 | 最佳,聚类数量11 - 14个 | 较好,指数略有升高 |
| 曲线形状距离 | 第二佳,聚类数量10 - 14个 | 最佳,指数最低,无维度灾难 |
| 余弦相似度 | 较差,聚类数量3个 | 较好,指数降低 |
| 互相关 | 较差,聚类数量3个 | 较差,指数较高 |
| Spearman系数 | 较差,聚类数量3个 | 较差,指数较高 |
电力消费聚类后续建议
如果数据实例数量较少,或者硬件性能足够强大,能够对原始数据进行聚类操作,建议选择原始数据和曲线形状距离指标。这样可以避免PCA转换带来的相关性丢失问题,从而获得更好的聚类效果。
比特币地址图分析实验结果
地址图结构特征
对比特币地址图的分析揭示了其高度偏斜的度分布,存在少量异常值,并且整个图在快速扩张。这表明比特币网络中存在少数具有大量连接的节点,这些节点可能在网络中扮演着重要的角色,如大型交易所或矿池。
地址聚类启发式方法
通过地址聚类启发式方法,能够识别出偏好使用比特币进行价值转移而非存储的现实世界参与者。这说明该方法在挖掘比特币网络中用户行为模式方面具有一定的有效性。
比特币地址图分析研究展望
- 聚类算法拓展 :计划评估其他聚类算法,如Follow - the - leader、凝聚式或模糊聚类算法,并分析这些算法所得到的负载类型的质量。不同的聚类算法可能会发现不同的用户行为模式,从而为比特币网络分析提供更多的视角。
- 消费型指标开发 :开发基于消费的指标,考虑聚类负载轮廓的物理属性。这种定制化的指标可能会进一步提高聚类结果的准确性,更好地反映比特币用户的实际消费行为。
- 大数据集验证 :在更多、更大的数据集上重复评估指标,以分析实验结果的统计显著性,并进一步验证实验结论。大数据集可以提供更全面的信息,减少样本偏差,从而使研究结果更加可靠。
比特币地址图分析研究流程mermaid图
graph LR
A[获取比特币区块链数据] --> B[构建比特币地址图]
B --> C[分析地址图结构特征]
C --> D[应用地址聚类启发式方法]
D --> E[识别现实世界参与者]
E --> F[评估聚类结果]
F --> G[拓展聚类算法研究]
F --> H[开发消费型指标]
F --> I[大数据集验证实验]
总结
通过对电力消费聚类和比特币地址图分析的研究,我们在不同领域取得了有价值的成果。在电力消费聚类中,明确了不同指标在不同数据处理方式下的性能表现,为电力消费数据的聚类提供了有效的方法和建议。在比特币地址图分析中,深入了解了比特币网络的结构特征和用户行为模式,并提出了后续的研究方向。未来,随着研究的不断深入,我们有望在这两个领域取得更加显著的成果,为相关行业的发展提供有力的支持。
整体研究流程对比表格
| 研究领域 | 数据获取 | 数据分析方法 | 主要结论 | 后续研究方向 |
|---|---|---|---|---|
| 电力消费聚类 | 3个数据集,每个含2000个电力消费实例 | k - Means++聚类,计算DB和SD有效性指数 | 欧几里得和曲线形状距离指标表现较好 | 评估其他聚类算法,开发消费型指标 |
| 比特币地址图分析 | 比特币区块链数据 | 构建地址图,应用地址聚类启发式方法 | 地址图高度偏斜且快速扩张,可识别用户行为模式 | 拓展聚类算法研究,开发消费型指标,大数据集验证 |
超级会员免费看
1万+

被折叠的 条评论
为什么被折叠?



