机器学习轨迹

最新推荐文章于 2024-06-25 09:51:12 发布

码砖小能手00

最新推荐文章于 2024-06-25 09:51:12 发布

阅读量437

点赞数

文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/weixin_44447309/article/details/109089973

版权

一.传统机器学习

1.KNN算法：是为了对实例进行正确地分类，其最大的缺点是无法给出数据的内在含义。该算法的关键在于针对不同的数据集选择合适的“距离”，因为对距离的定义我们有很多种方式，比如欧式距离、切比雪夫距离等。
2.决策树：既可以回归也可以分类；决策树通常有三个步骤：特征选择、决策树的生成、决策树的修剪；用决策树分类：从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子节点，此时每个子节点对应着该特征的一个取值，如此递归的对实例进行测试并分配，直到到达叶节点，最后将实例分到叶节点的类中；决策树学习的目标：根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类。
决策树学习的损失函数：正则化的极大似然函数
决策树学习的测试：最小化损失函数
其中分支节点为判断模块即对所选择的特征，叶子节点为最终分类结果的模块即可以得出最终的结论或者分类结果。
决策树的优势在于数据形式非常容易理解且可以更好地理解数据的内在含义。
构建决策树的实质时根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分，也对应着决策树的构建。即利用训练数据构建最优的决策树即可以花费最少的平均时间和步骤进行分类，然后待测点通过该决策树进行分类。
划分数据集有两种算法：ID3和C4.5；划分数据集的大原则是：将无序数据变得更加有序，在划分数据集前后信息发生的变化称为信息增益，获得信息增益最高的特征就是最好的选择，即先对每个特征对数据集进行划分，选取最高信息增益的特征为我们选择的最优特征。
所谓信息增益是指得知特征X的信息而使得类Y的信息不确定性减少的程度。
举个栗子，判断一个西瓜是否为好瓜，我们有许多特征进行判断，而如果我们仅做一次判断可以使得我们做出的决策正确概率最大的特征就是我们当前应当选取的特征。比如颜色，如果不是绿色，则我们可以断定它不是好瓜，但如果是绿色，我们还要进一步判断，信息增益是说，当我们已知该瓜的某一个特征比如颜色的情况下，我能进行正确分类的概率大大增加了，比如之前我只有0.5的概率猜对，而得知后，我有0.8的概率猜对，这就是信息增益即条件概率。
求解信息增益：熵、条件熵（H(Y∣X)表示在已知随机变量X的条件下随机变量Y的不确定性），而这里的概率就是统计频率即选择该特征的概率；因此，信息增益熵-条件熵，信息增益率信息增益/熵；这里的熵指的是无视任何属性的情况下，即不知任何先验信息的情况下，我瞎猜能猜对的平均概率有多大。经过第一轮选取最优属性后，将表划分为k个子表，再对子表重复上述操作直至无法划分子表为止。
小技巧：剪枝（预剪枝和后剪枝）；损失函数

二.深度学习

1.联邦学习：目的是为了解决数据孤岛，在不共享数据的前提下，实现数据的融合，充分利用大数据，再通过机器学习或者数据挖掘等技术将这些数据的潜在价值最大化
2.迁移学习：是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。可以提升效率，有些类似C++的代码重用的赶脚