聚类算法文档(业务进程+业务URL)

本文介绍一种针对大量终端的关联性分析方法,通过分析终端所使用的业务软件进程及URL,形成终端间的关联度矩阵,并利用聚类算法实现相似终端的归类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

假设:

终端=4000;业务软件进程=100;URL=16000;

第i个终端包含xi个不同业务软件进程,包含yi个URL。

该算法关键是需要将业务进程名集和URL进程名集转换成数值相似性集合,便于聚类分析。

 

1、             首先将终端与对应的业务软件进程集作关联性分析;

第i个终端业务进程名数=ki(Process_1,…,Process_ki),该终端权重=ki/100,分析每个终端与其他终端之间的关联性(两个终端之间使用相同进程名的重合度*权重)。首先分析终端1与终端2…终端4000之间的关联性,依次迭代计算终端之间的关联性,最后形成终端与使用业务软件进程之间的关联度数值矩阵4000*4000。

 

2、             将终端与URL进程集作关联性分析;

第i个终端访问URL数=mi(URL_1,…,URL_mi),该终端权重=mi/16000,分析每个终端与其他终端之间的关联性(两个终端之间使用相同进程名的重合度*权重)。首先分析终端1与终端2…终端4000之间的关联性,依次迭代计算终端之间的关联性,最后形成终端与使用业务软件进程之间的关联度数值矩阵4000*4000。

 

3、             将两个关联性数值矩阵组合形成4000*8000的矩阵;

 

4、             根据这个矩阵采用聚类算法进行终端相似性聚合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值