机器学习算法在网站分类中的应用及互联网与极端主义的关联
1. 机器学习算法在网站分类中的数据处理
1.1 随机欠采样
在处理网站分类的数据时,存在一类样本数量远多于另一类的情况,即良性网站数量远多于恶意网站。这种数据不平衡若不有效处理,会导致机器学习算法过拟合。由于不平衡程度较大,随机欠采样是合适的处理方法。具体操作是从数量较多的类别中移除部分样本,直至两类样本数量相同。虽然这样会使数据集变小,但在某些情况下能显著提高机器学习算法在初始样本较少类别的准确性。而采用过采样方法可能会使数据集包含少数类别的大量重复样本,导致该类别的过拟合。
1.2 数据缩放
数据处理后可用于机器学习,但数据范围和值的显著差异会使机器学习算法对属性赋予不平衡的重要性。为解决此问题,可将数据集进行转换,使所有属性具有相似的统计属性,如范围、标准差或均值。本研究选择了范围为 -1 到 1 的最小 - 最大缩放方法,原因是缺失数据都被设置为 -1,这种缩放方式能保留所需的区分度。最小 - 最大缩放的函数如下:
[X_{std}=\frac{X - X_{min}}{X_{max}-X_{min}}]
[X_{scaled}=(X_{std}*(max - min)) + min]
其中:
- (X) = 待缩放的值
- (X_{min}) = 属性值的最小值
最小 - 最大缩放与标准化相比,主要缺点是得到的标准差较小,这意味着异常值较难检测。但本研究使用的数据集数据准确,在收集和生成过程中没有误差,所以未出现问题。
1.3 降维
大量数据对确保机器学习算法的准确性和质量很重要,但处理这些数
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



