1.kNN
实现步骤:
1.计算测试数据与训练数据中每一点的距离
2.对距离进行排序,针对每个测试点,找出离测试点最近的k个训练数据
3.统计这k个训练数据的标签出现次数,把出现次数最多的标签作为该测试点的最终标签
优点:精度高,实现简单,对异常值不敏感.
缺点:时间和空间的复杂度高;不产生模型.
数据类型:数值型,标称型.
0.k小时,预测的时候会把噪声也学习进去;k大时,预测时会把距离很远的点也学习进去,造成欠拟合.
1.kNN可以用来解决回归问题,方法类似回归树,找k个相邻的点,求k个点的y的均值.
2.k越大,模型越简单(每个点起的作用越来越小),所以决策边界越来越光滑,偏差越来越大,方差越来越小.
3.kNN计算时需要求预测点到训练集中每个点的距离,而距离的计算与稀疏性无关,因而kNN不太适合高维稀疏数据.
4.距离计算不同,得出的结果会有偏差(距离不同,"近"的定义就不同,从Lp的距离图形可以解释
5.kNN训练阶段很快(无通过训练集得出一个待估参数的过程),不产生模型,直接通过训练集与测试集的距离计算即可得出结果
6.kNN是一种懒惰学习(高度依赖训练集)
2.朴素贝叶斯
实现步骤:
1.根据条件独立假设,统计出测试样本每个特征在训练样本中不同标签下出现的概率;
2.将每个特征在相同标签下的概率相乘作为该标签的可能性;
3.选择可能性最大的标签作为预测结果。
4.计算时可能需要平滑操作
优点:计算快,实现简单,数据少时仍可用,可实现多类别
缺点:对训练数据的预处理方式敏感
数据类型:标称型
0.朴素贝叶斯的假设是条件独立!(部分题目默认特征独立是正确的)
1.朴素贝叶斯由先验概率p(y)和条件概率p(x|y)推出p(y|x)
3.逻辑回归
实现步骤:
1.通过sigmod函数将线性回归模型的值映射到[0,1]空间中,并作为类别y=1的概率;
2.使用极大似然估计得出待优化模型
3.采用梯度下降法之类的优化算法得出参数估计值
优点:计算快,易于实现
缺点:容易欠拟合,缺失值得预处理
数据类型:数值型和标称型
0.逻辑回归是softmax退化到二分类时的情形
1.使用1对多解决n分类问题时,需要训练n个模型
2.svm与lr在数学上的本质区别时:损失函数的不同
2068

被折叠的 条评论
为什么被折叠?



