大数据挖掘与智能校园安全保障
1. 模式发现相关技术
1.1 模式发现阶段方法
模式发现阶段采用了多种领域的技术,如统计学、机器学习等,常用关联规则、数据挖掘等方法来寻找有趣的模式。此阶段常见的方法有关联规则和聚类,具体如下:
- 统计学 :从网络日志中周期性生成统计信息报告,供网站管理员改善系统性能,便于网站修改。
- 聚类 :将相似的数据项归为一类,不同的数据项归为不同类。这里选用了K - MEANS和DBSCAN聚类算法来提取有用信息,对具有相同内容或密度的元素进行分组。
1.2 K - Means聚类算法
K - means聚类算法用于在网站数据元素中寻找聚类组,并确定每个元素所属的聚类。其工作流程如下:
1. 用户指定K值,算法初始化K个聚类的质心。
2. 将数据点分配到最近的聚类。
3. 重新计算聚类质心,并更新质心位置。
4. 重复上述过程,直到聚类结果不再变化,数据点不再从当前聚类转移到其他聚类。
距离计算通常使用欧几里得距离,公式如下:
假设存在两个点$P = (x_1(P), x_2(P), x_3(P))$和$Q = (x_1(Q), x_2(Q), x_3(Q))$,距离计算公式为:
[
d(P, Q) = \sqrt{(x_1(P) - x_1(Q))^2 + (x_2(P) - x_2(Q))^2 + \cdots} = \sqrt{\sum_{J = 1}^{P} (x_j(P) - x_j(Q))^2}
]
聚类质心是最重要
超级会员免费看
订阅专栏 解锁全文

1041

被折叠的 条评论
为什么被折叠?



