假设:
终端=4000;业务软件进程=100;URL=16000;
第i个终端包含xi个不同业务软件进程,包含yi个URL。
该算法关键是需要将业务进程名集和URL进程名集转换成数值相似性集合,便于聚类分析。
1、 首先将终端与对应的业务软件进程集作关联性分析;
第i个终端业务进程名数=ki(Process_1,…,Process_ki),该终端权重=ki/100,分析每个终端与其他终端之间的关联性(两个终端之间使用相同进程名的重合度*权重)。首先分析终端1与终端2…终端4000之间的关联性,依次迭代计算终端之间的关联性,最后形成终端与使用业务软件进程之间的关联度数值矩阵4000*4000。
2、 将终端与URL进程集作关联性分析;
第i个终端访问URL数=mi(URL_1,…,URL_mi),该终端权重=mi/16000,分析每个终端与其他终端之间的关联性(两个终端之间使用相同进程名的重合度*权重)。首先分析终端1与终端2…终端4000之间的关联性,依次迭代计算终端之间的关联性,最后形成终端与使用业务软件进程之间的关联度数值矩阵4000*4000。
3、 将两个关联性数值矩阵组合形成4000*8000的矩阵;
4、 根据这个矩阵采用聚类算法进行终端相似性聚合。