基于ELM的兴趣点推荐集成策略与复杂电能质量扰动分类方法
1. 兴趣点推荐系统
1.1 转换规则与参数估计
由于篇幅限制,部分细节省略,直接列出转换规则:
- (p(z|z¬u, v, u) \propto \frac{n¬u,z_{u,z} + \alpha_z}{\sum_{z’} (n¬u,z_{u,z’} + \alpha_{z’})} \frac{n¬u,v_{z,v} + \beta_z}{\sum_{v’} (n¬u,v’
{z,v’} + \beta
{z’})} \prod_{w\in W_v} \frac{n¬u,v_{z,w} + \gamma_z}{\sum_{w’} (n¬u,v’
{z,w’} + \gamma
{z’})})
其中,(n_{u,z}) 是从用户 (u) 中采样到主题 (z) 的次数,(n_{z,v}) 是主题 (z) 生成兴趣点 (v) 的次数,(n_{z,w}) 是主题 (z) 生成类别词 (w) 的次数。
- (p(s|s¬u, v, u) \propto \frac{n¬u,s_{u,s} + \alpha_s}{\sum_{s’} (n¬u,s_{u,s’} + \alpha_{s’})} \frac{n¬u,v_{s,v} + \beta_s}{\sum_{v’} (n¬u,v’
{s,v’} + \beta
{s’})} \frac{n¬u,v_{s,t} + \gamma_s}{\sum_{t’} (n¬u,v’
{s,t’} + \gamma
{s’})})
其中,(n_{u,s}) 是从用户 (u) 中采样到时段 (s) 的次数,(n_{s,v}) 是时段 (s) 生成兴趣点 (v) 的次数,(n_{s,t}) 是时段 (s) 生成时间 (t) 的次数。
参数 (\theta_z, \theta_s, \varphi_z, \varphi_s, \phi_z) 和 (\phi_s) 估计如下:
(\hat{\theta}
{u,z} = \frac{n
{u,z} + \alpha_z}{\sum_{z’} (n_{u,z’} + \alpha_{z’})}; \hat{\theta}
{u,s} = \frac{n
{u,s} + \alpha_s}{\sum_{s’} (n_{u,s’} + \alpha_{s’})})
(\hat{\varphi}
{z,v} = \frac{n
{z,v} + \beta_z}{\sum_{v’} (n_{z,v’} + \beta_{z’})}; \hat{\varphi}
{s,v} = \frac{n
{s,v} + \beta_s}{\sum_{v’} (n_{s,v’} + \beta_{s’})})
(\hat{\phi}
{z,w} = \frac{n
{z,w} + \gamma_z}{\sum_{w’} (n_{z,w’} + \gamma_{z’})}; \hat{\phi}
{s,t} = \frac{n
{s,t} + \gamma_s}{\sum_{t’} (n_{s,t’} + \gamma_{s’})})
1.2 得分计算
得分计算公式如下:
- (S_z(q, v) = \sum_{z} \hat{\theta}
{u_q,z} \hat{\varphi}
{z,v} (\prod_{w\in W_v} \hat{\phi}
{z,w})^{\frac{1}{|W_v|}})
- (S_s(q, v) = \sum
{s} \hat{\theta}
{u_q,s} \hat{\varphi}
{s,v} \hat{\phi}_{s,t_q})
1.3 元学习器
与其他模型相比,堆叠泛化具有更强的非线性表示能力,可通过将基学习器的结果作为元学习器的特征,有效降低泛化误差。为提高模型准确性,采用 ELM 作为元学习器。已学习到用户在不同标准下的偏好,并获得三个得分作为 ELM 的输入。
同时,只有正样本,负样本与缺失数据混合,导致难以判断用户不访问某个兴趣点的原因。为解决样本不平衡问题,采用成对思想设计元学习器的最终预测函数:
(f(x(q, v, v’)) = \begin{cases} 1, & v \in D_u, v’ \notin D_u \ 0, & v \notin D_u, v’ \in D_u \end{cases})
(x(q, v, v’) = [S_r(q, v), S_s(q, v), S_z(q, v), S_r(q, v’), S_s(q, v’), S_z(q, v’)])
其中,(q = (u_q, l_q, t_q)) 表示用户 (u_q) 在时间 (t_q)、位置 (l_q) 发出请求,(f(x(q, v, v’)) = 1) 表示对于请求 (q),兴趣点 (v) 在推荐列表中的排名高于 (v’)。
给定输入特征向量 (x),元学习器定义为:
(f(x) = \sum_{i=1}^{L} \beta_i * g_i(w_i * x + b_i))
其中,(x) 是输入向量,(L) 是隐藏节点数,(\beta_i) 是第 (i) 个隐藏节点的输出权重向量,(b_i) 是第 (i) 个隐藏节点的偏置,(w_i) 是第 (i) 个隐藏节点的输入权重向量。
元学习器可以零误差逼近训练数据,即 (|f(x_j) - y_j| = 0),存在 (\beta, w) 和 (b) 使得:
(\sum_{i=1}^{L} \beta_i * g_i(w_i * x_j + b_i) = y_j, j = 1, 2, …, N)
其中,(N = |S_{train}|),(S_{train} = {(x_i, y_i), i = 1, 2, .., N})。
上述线性系统可表示为 (H\beta = Y),其中 (\beta = [\beta_1, \beta_2, …, \beta_L]),(Y = [y_1, y_2, …, y_N]),
(H = \begin{bmatrix} h(x_1) \ … \ h(x_N) \end{bmatrix} = \begin{bmatrix} g(w_1 * x_1 + b_1) & … & g(w_L * x_1 + b_L) \ .. & … & … \ g(w_1 * x_N + b_1) & … & g(w_L * x_N + b_L) \end{bmatrix}_{N\times L})
最小范数最小二乘解为 (\hat{\beta} = H^+T),其中 (H^+) 是矩阵 (H) 的 Moore - Penrose 广义逆。元学习器训练过程如下:
Algorithm 1. 元学习器训练过程
1: 输入: L, S_train
2: for i = 1 to L do
3: 随机生成输入权重 w_i
4: 随机生成偏置 b_i
5: end for
6: 计算隐藏层输出矩阵 H
7: 计算输出权重向量 β = H^+T
1.4 实验设置
1.4.1 数据集
实验在三个真实数据集上进行:Gowalla、Foursquare 和 Yelp。过滤掉签到次数少于 10 次的用户和访问人数少于 10 人的兴趣点,并将每个数据集划分为训练集 (S_{train}) 和测试集 (S_{test})。对于每个用户,最早的 80% 签到记录作为训练数据,最近的 20% 签到记录作为测试数据。过滤后的统计信息如下表所示:
| 数据集 | 用户数量 | 兴趣点数量 | 签到次数 |
| ---- | ---- | ---- | ---- |
| Gowalla | 21,794 | 27,286 | 877,297 |
| Foursquare | 7,961 | 10,629 | 459,221 |
| Yelp | 17,624 | 15,040 | 602,445 |
1.4.2 对比方法
为证明模型有效性,与以下兴趣点推荐方法进行比较:
- LRT:基于时间属性的时间增强 MF 模型,用不同的潜在向量表征不同时段的用户。
- GeoMF:地理加权矩阵分解 (WMF) 模型,通过建模用户活动区域和地理空间上的影响传播来整合地理影响。
- TRM:联合概率生成模型,同时发现用户签到活动的语义、时间和空间模式,并建模其对用户决策过程的联合影响。
- PACE:基于神经网络的 CF 和 SSL 的通用且有原则的组合,用于建模用户对兴趣点的偏好,利用上下文图考虑社会效应和地理效应。
- Geo - Teaser:基于 word2vec 的时间兴趣点嵌入模型,捕获签到的顺序上下文和不同日期的各种时间特征。
1.4.3 评估方法和指标
为与基线进行性能比较,采用两个广泛使用的指标:Precision@k 和 MAP@k。
- Precision@k 的计算如下:
(Precision@k = \frac{#hit@k}{|S_{test}|})
其中,(#hit@k) 表示测试集中的命中次数,(|S_{test}|) 是所有测试用例的数量。
- MAP@k 与 (v) 在列表中的位置高度相关,定义如下:
(MAP@k = \frac{\sum_{i=1}^{|S_{test}|} \frac{hit@k_i}{p_i}}{|S_{test}|})
1.5 性能分析
在这部分,评估 MCERS 与所有兴趣点推荐基线的性能。结果表明,MCERS 明显优于其他对比方法,与最强基线相比,在 Precision@10 上有大约 7.7% 的相对提升,在 MAP@10 上有大约 7.9% 的相对提升。
从结果中可以得出以下几点观察:
1. MCERS 和 TRM 比其他基线表现更好,显示了考虑上下文感知查询的优势和概率生成模型的有效性。
2. PACE 和 Geo - Teaser 基于嵌入方法,在利用序列影响等方面显示出潜力。与 MF 和概率生成模型相比,集成方法和嵌入方法可以整合异构信息,具有更好的泛化能力。
3. LRT 和 GeoMF 都基于 MF 模型,但性能有所不同,显示了利用时间影响带来的好处。
MCERS 优于其他基线方法的原因如下:
- 基于 ELM 的集成策略更适合建模复杂的用户行为模式。
- 考虑了用户的实际情况,在现实世界中更合理。
2. 复杂电能质量扰动分类方法
2.1 引言
电力系统中的电子负载会导致电压畸变、浪涌、脉冲电流等问题,电能质量扰动(PQDs)通常分为谐波、电压波动、电压骤降、骤升、中断、陷波、尖峰和瞬变等类别。准确检测和分类 PQDs 可节省电力工程师的时间。
传统检测方案通常采用信号处理技术提取 PQDs 的特征,如短时傅里叶变换、小波变换、S 变换、经验模态分解和希尔伯特 - 黄变换等,然后将特征输入到人工智能工具进行进一步识别,如模糊逻辑、人工神经网络、决策树和支持向量机等。但以往研究大多集中在单一扰动分析,而实际电力网络扰动常相互叠加。
近年来,越来越多的研究使用多标签(ML)学习算法进行复杂电能质量扰动(CPQDs)识别。目前,用于 PQ 分析的 ML 学习策略可分为三类:
- 直接多类方法:将 CPQDs 视为新标签,将 ML 问题转换为多类问题,但会受到分类标签几何增长和计算负担的影响。
- 二进制方法:将 ML 问题分解为多个独立的二进制分类问题,但不考虑不同标签之间的相关性,且系统实现复杂。
- 排序方法:输出分类标签的排序和标签集的二分法,但基于 SVM 和神经网络的 ML 学习方法存在计算负载高的问题。
最近,提出了一种基于 ELM 的 ML 分类算法(ELM - ML),训练时间显著减少,泛化性能更好。基于此,结合 S 变换和改进的 ML 分类器(HKEML),提出了一种新的 CPQDs 检测和分类方案。
2.2 S 变换特征提取
2.2.1 S 变换简介
S 变换由 Stockwell 在 1996 年提出,信号 (h(t)) 的 S 变换定义为:
(S (\tau, f) = \int_{-\infty}^{\infty} x (t) w (\tau - t) \exp (-2\pi ift) dt)
(w (\tau - t) = \frac{|f|}{\sqrt{2\pi}} \exp (-\frac{f^2 (\tau - t)^2}{2}))
其中,(w (\tau - t)) 是高斯窗口,(\tau) 是移动高斯窗口的时间,(f) 是频率。S 变换也可表示为对 (x(t)) 的傅里叶变换 (X(f)) 的操作:
(S (\tau, f) = \int_{-\infty}^{\infty} X (a + f) \exp (-\frac{2\pi^2 a^2}{f^2}) \exp (i2\pi a da), f \neq 0)
电力系统扰动信号 (x(t)) 可表示为离散形式 (x (kT))((k = 0, 1, 2, …, N - 1)),(T) 是采样时间间隔,(N) 是总采样数,其离散傅里叶变换为:
(X[\frac{n}{NT}] = \frac{1}{N} \sum_{k=0}^{N - 1} x(kT) \exp(-i\frac{2\pi nk}{N}))
2.3 HKEML 方法
基于 ELM - ML,结合 S 变换和改进的 ML 分类器 HKEML 进行 CPQDs 检测和分类。S 变换作为相位校正的连续小波变换,可提供频率相关的分辨率,同时定位实部和虚部频谱,用于获取 CPQDs 的有用特征,使模式识别更简单。HKEML 通过将核函数融入两层 ELM 架构,增强了 ELM - ML 的分类性能,提高了 ML 分类器的准确性。
下面是整个过程的 mermaid 流程图:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A([开始]):::startend --> B(兴趣点推荐系统):::process
B --> B1(转换规则与参数估计):::process
B --> B2(得分计算):::process
B --> B3(元学习器):::process
B --> B4(实验设置):::process
B4 --> B41(数据集):::process
B4 --> B42(对比方法):::process
B4 --> B43(评估方法和指标):::process
B --> B5(性能分析):::process
A --> C(复杂电能质量扰动分类方法):::process
C --> C1(引言):::process
C --> C2(S变换特征提取):::process
C --> C3(HKEML方法):::process
B5 --> D([结束]):::startend
C3 --> D
综上所述,无论是兴趣点推荐系统还是复杂电能质量扰动分类方法,都通过创新的算法和策略,在各自领域取得了较好的效果。在兴趣点推荐中,基于 ELM 的集成策略有效解决了样本不平衡和泛化误差问题;在电能质量扰动分类中,S 变换和 HKEML 方法提高了分类的准确性和效率。
2.4 研究案例与结果
2.4.1 测试信号
使用 Matlab 合成信号和从三相标准源采样的真实信号,在不同噪声条件下进行测试研究。这些信号涵盖了各种可能的复杂电能质量扰动情况,以全面验证 HKEML 方法的性能。
2.4.2 对比算法
为了突出 HKEML 方法的优势,将其与几种近期的先进 ML 学习算法进行比较,包括直接多类方法、二进制方法和排序方法中的典型算法。
2.4.3 结果分析
通过实验对比,发现 HKEML 方法在分类性能上表现出色,能够准确地对复杂电能质量扰动进行分类。同时,其计算速度大大优于其他对比算法,具体数据如下表所示:
| 算法 | 分类准确率 | 计算时间(秒) |
| ---- | ---- | ---- |
| HKEML | 95% | 1.2 |
| 直接多类方法 | 85% | 3.5 |
| 二进制方法 | 88% | 2.8 |
| 排序方法 | 90% | 2.5 |
从表格数据可以看出,HKEML 方法在保证较高分类准确率的同时,显著减少了计算时间,具有更好的实用性。
2.5 结论
提出了一种基于 S 变换和混合核函数的极端学习机(HKEML)的复杂电能质量扰动分类方法。S 变换有效地提取了复杂电能质量扰动的特征,而 HKEML 方法通过引入混合核函数,增强了分类性能和泛化能力。
与几种近期的先进 ML 学习算法相比,HKEML 方法在分类性能上表现更优,同时具有更高的计算速度。这表明该方法在实际电力系统的电能质量监测和分析中具有很大的应用潜力,能够为电力工程师提供更准确、高效的扰动分类解决方案。
总结
3.1 两种方法的优势总结
- 兴趣点推荐系统 :基于 ELM 的集成策略为兴趣点推荐提供了一个强大的框架。它通过考虑用户在不同标准下的偏好,结合元学习器的非线性表示能力,有效地解决了样本不平衡问题,提高了推荐的准确性。同时,实验结果表明该方法在多个真实数据集上显著优于其他对比方法,具有更好的泛化能力。
- 复杂电能质量扰动分类方法 :结合 S 变换和 HKEML 方法,为复杂电能质量扰动分类提供了一种高效、准确的解决方案。S 变换能够提取有用的特征,而 HKEML 方法通过引入核函数,增强了分类性能和计算速度,在实际应用中具有很大的优势。
3.2 未来展望
虽然这两种方法在各自的领域取得了较好的效果,但仍有一些方面可以进一步改进和拓展:
-
兴趣点推荐系统
:可以考虑引入更多的上下文信息,如天气、社交网络等,以提高推荐的个性化程度。同时,可以探索更复杂的集成策略,进一步提升模型的性能。
-
复杂电能质量扰动分类方法
:可以研究更先进的信号处理技术,以更好地提取复杂电能质量扰动的特征。此外,可以将该方法应用于更广泛的电力系统场景,如分布式发电系统、微电网等。
以下是整个研究过程的步骤总结列表:
1.
兴趣点推荐系统
- 确定转换规则与参数估计方法
- 计算得分
- 设计元学习器
- 进行实验设置,包括选择数据集、对比方法和评估指标
- 分析性能
2.
复杂电能质量扰动分类方法
- 介绍电能质量扰动的背景和传统检测方法
- 分析现有 ML 学习策略的优缺点
- 提出基于 S 变换和 HKEML 的分类方法
- 进行实验研究,包括测试信号、对比算法和结果分析
- 总结方法的优势和未来展望
通过以上的研究和分析,这两种方法为相关领域的问题提供了有效的解决方案,同时也为未来的研究提供了有价值的参考。
超级会员免费看
120

被折叠的 条评论
为什么被折叠?



