机器学习中的特定学习方法
1. 监督学习方法
监督学习方法要求从已知或有标签的数据开始。在进行恶意软件检测时,如果没有来自已知感染系统和已知正常系统的数据,就无法应用监督学习方法。尽管在某些情况下获取这些数据可能是个挑战,但监督学习的强大功能使得付出额外努力是值得的。
1.1 线性回归(及数据转换)
线性回归在定量预测和对自变量进行推断方面是一种非常流行的方法,这是有充分理由的。它自19世纪末就已出现,并发展成为一种强大而灵活的方法。线性回归的一个令人惊喜的特点是,它可以用于处理并非线性的数据。
例如,线性回归中的“线性”指的是所估计的线性系数,而非数据本身。可以使用线性模型来描述非线性数据,诀窍在于在运行线性回归之前对数据进行转换。但在转换变量时,必须注意避免过拟合数据。
经典的线性回归依赖于计算p值来评估模型和变量的强度,近期趋势是结合交叉验证等验证方法来支持模型选择和验证。在R语言中,可以使用 lm() 和 glm() 命令执行线性回归。
1.2 逻辑回归
线性回归适用于预测定量变量,但当问题不是定量时,它就不太有用了。例如,在对主机是否感染进行分类时,线性回归就不适用,这时可以使用逻辑回归,它是线性回归的扩展,用于对二分类问题进行建模。
逻辑回归的输出是基于输入变量估计的主机感染概率。无论如何设置阈值,都会存在假阳性和假阴性的情况。在R语言中, glm() 函数可以处理大多数逻辑回归情况。
1.3 K近邻算法
K近邻算法可以用一个体育
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



