16、机器学习算法在网站分类中的应用及互联网与极端主义的关联

julia4scientist

于 2025-10-04 14:11:43 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：物联网时代的安全与隐私文章标签：机器学习网站分类随机欠采样

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/julia4scientist/article/details/152883840

物联网时代的安全与隐私专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习算法在网站分类中的应用及互联网与极端主义的关联

1. 机器学习算法在网站分类中的数据处理

1.1 随机欠采样

在处理网站分类的数据时，存在一类样本数量远多于另一类的情况，即良性网站数量远多于恶意网站。这种数据不平衡若不有效处理，会导致机器学习算法过拟合。由于不平衡程度较大，随机欠采样是合适的处理方法。具体操作是从数量较多的类别中移除部分样本，直至两类样本数量相同。虽然这样会使数据集变小，但在某些情况下能显著提高机器学习算法在初始样本较少类别的准确性。而采用过采样方法可能会使数据集包含少数类别的大量重复样本，导致该类别的过拟合。

1.2 数据缩放

数据处理后可用于机器学习，但数据范围和值的显著差异会使机器学习算法对属性赋予不平衡的重要性。为解决此问题，可将数据集进行转换，使所有属性具有相似的统计属性，如范围、标准差或均值。本研究选择了范围为 -1 到 1 的最小 - 最大缩放方法，原因是缺失数据都被设置为 -1，这种缩放方式能保留所需的区分度。最小 - 最大缩放的函数如下：
[X_{std}=\frac{X - X_{min}}{X_{max}-X_{min}}]
[X_{scaled}=(X_{std}*(max - min)) + min]
其中：
- (X) = 待缩放的值
- (X_{min}) = 属性值的最小值

最小 - 最大缩放与标准化相比，主要缺点是得到的标准差较小，这意味着异常值较难检测。但本研究使用的数据集数据准确，在收集和生成过程中没有误差，所以未出现问题。

1.3 降维

大量数据对确保机器学习算法的准确性和质量很重要，但处理这些数

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。