机器学习特定学习方法详解
1. 监督学习方法
监督学习方法需要从已知或有标签的数据开始。以恶意软件检测为例,若没有来自已知感染系统和已知正常系统的数据,就无法应用监督学习方法。不过,监督学习的强大功能或许会让前期的数据准备工作物有所值。以下是几种常见的监督学习方法:
1.1 线性回归(及数据转换)
线性回归在定量预测和对自变量进行推断方面非常流行。它起源于 19 世纪后期,如今已发展成为一种强大且灵活的方法。线性回归的一个重要特点是,它可以用于处理并非线性的数据。例如,通过对数据进行转换,就可以使用线性模型来描述非线性数据。但在转换变量时,要注意避免过拟合数据。
在 R 语言中,可以使用 lm() 和 glm() 命令来执行线性回归。经典的线性回归依赖于计算 p 值来评估模型和变量的强度,近年来也开始整合交叉验证等验证方法来支持模型选择和验证。
1.2 逻辑回归
线性回归适用于预测定量变量,但当问题不是定量问题时,它就不太有用了。例如,要将主机分类为是否感染,线性回归就派不上用场。这时可以使用逻辑回归,它是线性回归的扩展,用于建模二分类输出(是或否)。
在 R 语言中, glm() 函数可以处理大多数逻辑回归的情况。逻辑回归在进行分类时,无论如何设置阈值,都会不可避免地出现假阳性和假阴性的情况。
1.3 K - 近邻算法
K - 近邻算法可以用一个体育类比来描述。假设要随机选择一个人并预测其喜欢的运动队,可以询问其 k 个邻居和朋友支持的队伍,然后根据大多数邻居
机器学习方法详解与实战
超级会员免费看
订阅专栏 解锁全文

4771

被折叠的 条评论
为什么被折叠?



