SeLeCT：Self-Learning Classifier for Internet Trafﬁc

最新推荐文章于 2024-01-12 15:24:40 发布

xieqb

最新推荐文章于 2024-01-12 15:24:40 发布

阅读量711

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：流量分类迭代聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xieqb/article/details/41826437

机器学习专栏收录该内容

3 篇文章

订阅专栏

本文探讨了聚类迭代算法的输出评估方法，包括使用2个度量准则（聚类个数和被聚类流百分比）进行评估，并通过混淆矩阵解释分类结果。文中介绍了总体精度、召回和精度三个评估标准，强调了混淆矩阵在评估分类能力方面的应用，同时提供了用于评估的参数设置细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

4.实验结果

A、实验数据集

B、性能评估

用2个度量准则对聚类迭代算法的输出进行评估，聚类的个数以及被聚类流的百分比。

用混淆矩阵对分类结果进行说明，混淆矩阵的每一行的代表分类的实际结果，每一列代表实际的分类结果。对性能进行评估时，采用以下三个度量标准：总体精度，召回，精度。

总体精度并不能完全评估分类的能力，如果一个trace里面有90%的流为HTTP，讲所有的流都归为HTTP，其总体精度也将达到90%。

召回是针对每一个具体的来来说，上面的例子中，除了HTTP外，其它召回率均为0。

精度的结果同上。

%%%%%%%%%%%%%%说明%%%%%%%%%%%%%%

假定：从一个大规模数据集合中检索文档的时，可把文档分成四组：

- 系统检索到的相关文档（A）

- 系统检索到的不相关文档（B）

- 相关但是系统没有检索到的文档（C）

- 不相关且没有被系统检索到的文档（D）

则：

- 召回率R：用检索到相关文档数作为分子，所有相关文档总数作为分母，即R = A / ( A + C )

- 精度P：用检索到相关文档数作为分子，所有检索到的文档总数作为分母．即P = A / ( A + B ).

%%%%%%%%%%%%%%说明%%%%%%%%%%%%%%

文中其它参数的设置如下:

批处理包的大小为10000；种子个数为8000，聚类中流的阈值为20，迭代次数为3，迭代次数小于3时端口过滤阈值为0.5，最终端口过滤阈值为0.2，聚类算法中，K=100，总的迭代步数小于1000000，独立执行10次，选择均方误差最小的值作为聚类结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。