15、电力消费聚类与比特币地址图分析

电力消费聚类与比特币地址图分析

电力消费聚类相关研究

聚类指标与方法

在电力消费聚类研究中,为了评估聚类结果,常使用有效性指标,如Davies - Bouldin(DB)指数和SD有效性指数。DB指数衡量每个聚类与其最相似聚类的相似度均值,可判断聚类是否需要合并;SD指数基于聚类的平均离散度和聚类间的总距离,聚类越紧凑、间距越大,聚类结果越好,且这两个指数值越低,聚类效果越优。

实验数据集与流程

实验选用了3个数据集(CR1、CR2、CR3),每个数据集包含2000个电力分配消费者数据实例。对每个评估的指标,对每个数据集进行19次k - Means++聚类,目标聚类数从2到20个,选取有效性指标最佳的聚类配置。同时,由于DB和SD指数计算也需要指标,所以每个聚类结果用创建时使用的相同指标进行评估。

不同指标聚类结果

指标 聚类数量范围
欧几里得指标 每个数据集11 - 14个聚类
曼哈顿指标 根据数据集不同为7或8个聚类,但超90%数据实例聚到单个聚类,不符合预期
余弦相似度、互相关和Spearman系数 每个数据集3个聚类
曲线形状距离 每个数据集10 - 14个聚类

有效性指数结果

PCA转换数据的DB有效性指数
指标 CR1 CR2 CR3
欧几里得(L2) 1.52 1.59 1.25
余弦 2.70 2.33 2.63
互相关 1.85 1.92 1.89
Spearman 4.35 4.76 4.76
曲线形状距离 1.79 1.67 1.79
PCA转换数据的SD有效性指数
指标 CR1 CR2 CR3
欧几里得(L2) 0.70 0.72 0.70
余弦 1.00 1.02 0.80
互相关 1.00 1.18 0.96
Spearman 1.06 1.23 1.23
曲线形状距离 0.84 0.70 0.63

实验结论

从PCA转换数据的实验结果来看,欧几里得指标聚类效果最佳,曲线形状距离次之,基于相关性的指标效果较差。推测相关性指标表现不佳可能是PCA转换去除了数据实例间的相关性,因此后续对原始未转换数据进行了重复测试。

未进行PCA转换数据的实验结果

未进行PCA转换数据的DB有效性指数
指标 CR1 CR2 CR3
欧几里得(L2) 1.56 1.33 1.43
余弦 1.59 1.61 1.59
互相关 2.22 2.17 2.17
Spearman 2.38 2.44 2.56
曲线形状距离 1.28 1.47 1
未进行PCA转换数据的SD有效性指数
指标 CR1 CR2 CR3
欧几里得(L2) 0.79 0.72 0.69
余弦 0.68 0.62 0.65
互相关 1.32 1.39 1.16
Spearman 1.25 1.25 1.19
曲线形状距离 0.35 0.47 0.42

去除PCA转换对互相关和Spearman系数的聚类结果影响不大,欧几里得指标的指数略有升高,而余弦相似度和曲线形状距离的指数降低,表明聚类质量提高,其中曲线形状距离的指标最佳,且未出现维度灾难问题。

电力消费聚类流程mermaid图

graph LR
    A[选择数据集CR1、CR2、CR3] --> B[选择评估指标]
    B --> C[k - Means++聚类,目标聚类数2 - 20]
    C --> D[计算DB和SD有效性指数]
    D --> E[选取最佳聚类配置]
    E --> F[判断是否PCA转换]
    F -- 是 --> G[分析PCA转换数据结果]
    F -- 否 --> H[分析未转换数据结果]

比特币地址图分析

比特币简介

比特币是最具代表性的去中心化、无监管的虚拟货币,基于加密技术,即“加密货币”。与法定货币不同,比特币没有预设身份,不受中央机构控制,以点对点网络组织,所有交易记录存储在公共分布式账本——比特币区块链中。

比特币基本实体

  • 用户与地址 :每个用户可以持有多个密钥对和地址,存储在“钱包”中,鼓励每次交易使用新地址以增加匿名性。
  • 交易规则 :地址余额需通过汇总未花费输出计算,输出中的比特币值不能部分花费,每次交易输入总和必须等于输出总和,多余输入可作为“找零”返回原地址或同一用户的其他地址。

比特币地址图构建

从区块链中提取所有交易,创建属性图,节点代表地址,边代表地址间的交易。节点和边可携带额外描述属性。

研究贡献

  • 提供2009年1月3日至2016年10月31日所有比特币地址和交易的全面图表示。
  • 对地址图进行结构分析,研究其随时间的结构变化。
  • 研究可明确或隐含分配给现实世界参与者的比特币地址比例及其随时间的变化。
  • 考虑虚拟货币与法定货币汇率,研究用户交易行为。
  • 从用户角度分析虚拟货币功能,通过分析地址和地址簇的活动周期。

相关研究

  • 匿名性研究 :众多研究聚焦比特币的匿名性及地址去匿名化策略,如分析用户行为、通过启发式聚类和重新识别攻击、关联IP地址等方法揭示用户身份。
  • 现实参与者研究 :研究现实世界参与者在比特币生态系统中的属性和行为,如分析混合服务可靠性、比特币交易所盗窃事件等。
  • 图表示研究 :对从比特币区块链提取的图表示进行研究,如分析特定事件前后比特币图的属性、深入了解比特币拓扑结构等。

比特币系统基本原理mermaid图

graph LR
    A[用户U1、U2] --> B[钱包(含多个地址)]
    B --> C[交易T]
    C --> D[输入(指向先前交易输出)]
    C --> E[输出(指向接收地址)]
    D --> F[地址A1、A2等]
    E --> F
    C --> G[广播到网络]
    G --> H[矿工收集]
    H --> I[打包成新块]
    I --> J[添加到区块链]

电力消费聚类与比特币地址图分析实验结论及展望

电力消费聚类实验总结

综合电力消费聚类的实验结果,我们可以得出以下结论:
- PCA转换数据 :在使用PCA转换数据进行聚类时,欧几里得指标表现最佳,能得到质量较高的聚类结果,曲线形状距离指标次之。而基于相关性的指标,如余弦相似度、互相关和Spearman系数,表现相对较差。这可能是因为PCA转换去除了数据实例之间的相关性,使得这些基于相关性的指标无法发挥优势。
- 未转换数据 :当使用原始未转换数据进行聚类时,曲线形状距离指标取得了最佳的聚类效果,其DB和SD有效性指数均为最低。欧几里得和余弦指标的表现也较为出色,可并列第二。而互相关和Spearman系数的指标依然较高,聚类质量不佳。同时,曲线形状距离指标在未转换数据上未出现维度灾难问题,说明该指标在处理原始数据时具有较好的稳定性。

电力消费聚类指标性能对比表格

指标类型 PCA转换数据表现 未转换数据表现
欧几里得指标 最佳,聚类数量11 - 14个 较好,指数略有升高
曲线形状距离 第二佳,聚类数量10 - 14个 最佳,指数最低,无维度灾难
余弦相似度 较差,聚类数量3个 较好,指数降低
互相关 较差,聚类数量3个 较差,指数较高
Spearman系数 较差,聚类数量3个 较差,指数较高

电力消费聚类后续建议

如果数据实例数量较少,或者硬件性能足够强大,能够对原始数据进行聚类操作,建议选择原始数据和曲线形状距离指标。这样可以避免PCA转换带来的相关性丢失问题,从而获得更好的聚类效果。

比特币地址图分析实验结果

地址图结构特征

对比特币地址图的分析揭示了其高度偏斜的度分布,存在少量异常值,并且整个图在快速扩张。这表明比特币网络中存在少数具有大量连接的节点,这些节点可能在网络中扮演着重要的角色,如大型交易所或矿池。

地址聚类启发式方法

通过地址聚类启发式方法,能够识别出偏好使用比特币进行价值转移而非存储的现实世界参与者。这说明该方法在挖掘比特币网络中用户行为模式方面具有一定的有效性。

比特币地址图分析研究展望

  • 聚类算法拓展 :计划评估其他聚类算法,如Follow - the - leader、凝聚式或模糊聚类算法,并分析这些算法所得到的负载类型的质量。不同的聚类算法可能会发现不同的用户行为模式,从而为比特币网络分析提供更多的视角。
  • 消费型指标开发 :开发基于消费的指标,考虑聚类负载轮廓的物理属性。这种定制化的指标可能会进一步提高聚类结果的准确性,更好地反映比特币用户的实际消费行为。
  • 大数据集验证 :在更多、更大的数据集上重复评估指标,以分析实验结果的统计显著性,并进一步验证实验结论。大数据集可以提供更全面的信息,减少样本偏差,从而使研究结果更加可靠。

比特币地址图分析研究流程mermaid图

graph LR
    A[获取比特币区块链数据] --> B[构建比特币地址图]
    B --> C[分析地址图结构特征]
    C --> D[应用地址聚类启发式方法]
    D --> E[识别现实世界参与者]
    E --> F[评估聚类结果]
    F --> G[拓展聚类算法研究]
    F --> H[开发消费型指标]
    F --> I[大数据集验证实验]

总结

通过对电力消费聚类和比特币地址图分析的研究,我们在不同领域取得了有价值的成果。在电力消费聚类中,明确了不同指标在不同数据处理方式下的性能表现,为电力消费数据的聚类提供了有效的方法和建议。在比特币地址图分析中,深入了解了比特币网络的结构特征和用户行为模式,并提出了后续的研究方向。未来,随着研究的不断深入,我们有望在这两个领域取得更加显著的成果,为相关行业的发展提供有力的支持。

整体研究流程对比表格

研究领域 数据获取 数据分析方法 主要结论 后续研究方向
电力消费聚类 3个数据集,每个含2000个电力消费实例 k - Means++聚类,计算DB和SD有效性指数 欧几里得和曲线形状距离指标表现较好 评估其他聚类算法,开发消费型指标
比特币地址图分析 比特币区块链数据 构建地址图,应用地址聚类启发式方法 地址图高度偏斜且快速扩张,可识别用户行为模式 拓展聚类算法研究,开发消费型指标,大数据集验证
下载方式:https://pan.quark.cn/s/26794c3ef0f7 本文阐述了在Django框架中如何适当地展示HTML内容的方法。 在Web应用程序的开发过程中,常常需要向用户展示HTML格式的数据。 然而,在Django的模板系统中,为了防御跨站脚本攻击(XSS),系统会默认对HTML中的特殊字符进行转义处理。 这意味着,如果直接在模板代码中插入包含HTML标签的字符串,Django会自动将其转化为文本形式,而不是渲染为真正的HTML组件。 为了解决这个问题,首先必须熟悉Django模板引擎的安全特性。 Django为了防止不良用户借助HTML标签注入有害脚本,会自动对模板中输出的变量实施转义措施。 具体而言,模板引擎会将特殊符号(例如`<`、`>`、`&`等)转变为对应的HTML实体,因此,在浏览器中呈现的将是纯文本而非可执行的代码。 尽管如此,在某些特定情形下,我们确实需要在页面上呈现真实的HTML内容,这就需要借助特定的模板标签或过滤器来调控转义行为。 在提供的示例中,开发者期望输出的字符串`<h1>helloworld</h1>`能被正确地作为HTML元素展示在页面上,而不是被转义为文本`<h1>helloworld</h1>`。 为实现这一目标,作者提出了两种解决方案:1. 应用Django的`safe`过滤器。 当确认输出的内容是安全的且不会引发XSS攻击时,可以在模板中这样使用变量:```django<p>{{ data|safe }}</p>```通过这种方式,Django将不会对`data`变量的值进行HTML转义,而是直接将其当作HTML输出。 2. 使用`autoescape`标签。 在模板中,可以通过`autoesc...
已经博主授权,源码转载自 https://pan.quark.cn/s/1d1f47134a16 Numerical Linear Algebra Visual Studio C++实现数值线性代数经典算法。 参考教材:《数值线性代数(第2版)》——徐树方、高立、张平文 【代码结构】 程序包含两个主要文件 和 。 中实现矩阵类(支持各种基本运算、矩阵转置、LU 分解、 Cholesky 分解、QR分解、上Hessenberg化、双重步位移QR迭代、二对角化),基本方程组求解方法(上三角、下三角、Guass、全主元Guass、列主元Guass、Cholesky、Cholesky改进),范数计算方法(1范数、无穷范数),方程组古典迭代解法(Jacobi、G-S、JOR),实用共轭梯度法,幂法求模最大根,隐式QR算法,过关Jacobi法,二分法求第K大特征值,反幂法,SVD迭代。 中构建矩阵并求解。 【线性方程组直接解法】 不选主元、全主元、列主元三种Guass消去法,Cholesky分解及其改进版。 【report】 【方程组解误差分析】 矩阵范数计算、方程求解误差分析。 【report】 【最小二乘】 QR分解算法求解线性方程组、最小二乘问题。 【report】 【线性方程组古典迭代解法】 Jacobi迭代法、G-S迭代法、SOR迭代法求解方程组。 【report】 【共轭梯度法】 实用共轭梯度法。 【report】 【非对称特征值】 幂法求模特征根、QR方法(上Hessenberg分解、双重步位移QR迭代、隐式QR法) 【report】 【对称特征值】 过关Jacobi法、二分法、反幂法。 【report】 【对称特征值】 矩阵二对角化、SVD迭代。 【report】
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值