【论文学习笔记】机器学习发展及八种机器学习的基础算法

最新推荐文章于 2024-06-20 20:58:33 发布

Ziko_AI

最新推荐文章于 2024-06-20 20:58:33 发布

阅读量383

点赞数 1

分类专栏：机器学习人工智能论文笔记文章标签：决策树算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43912994/article/details/104590902

版权

机器学习同时被 3 个专栏收录

8 篇文章

订阅专栏

3 篇文章

订阅专栏

2 篇文章

订阅专栏

本文回顾了机器学习的发展历程，从早期的自组织系统到现代的深度学习，涵盖监督、无监督和半监督学习。详细介绍了决策树、随机森林、神经网络、支持向量机等八大经典算法，探讨了其原理、应用及挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

你可以在我的幕布里面查看这篇文章，也可以查看对应的思维导图
在这里插入图片描述
你可以转载或者保存，如果能注明出处或者点个赞那是最好的啦
感谢！

论文学习：机器学习及其相关算法综述（2007）

label: 国内，机器学习，综述，人大统计学院
分类
- 按样本特性分？？
  - 监督学习（有指导的学习）:带有标签
  - 无监督学习：无标签
  - 半监督学习：部分带有标签
    - 采用归纳——演绎式方法：从带标签样本推断出一定规律，再用规律推断无标签样本的标志
    - 现阶段半监督学习性能不太稳定（2007）
    - 代表方法：1利用朴素贝叶斯生成式模型.
      2通过EM算法进行标记估计和参数估计。3.通过转导推断优化特定测试集上的性能。
      4.利用独立冗余属性来进行协同训练
- 按度量结果分
  - 回归问题（定量分析）：针对连续数据
  - 分类问题（定性分析）：针对离散数据
发展历程（四个时期）
- 机器学习是人工智能研究较为年轻的分支
- 第一阶段（热烈时期）：20世纪50年代中叶到60年代中叶
  - 热烈时期：“没有知识”的学习
  - 研究对象：各类自组织系统和自适应系统
  - 研究方法：不断修改系统的控制参数和修改系统的执行能力，不涉及具体任务
  - 代表成果：塞缪尔（Samuel）下棋程序
  - 结果：不能满足对机器学习系统的期望
- 第二阶段（）冷静时期）：20世纪60年代中叶到70年代中叶
  - 研究目标：模拟人类的概念学习过程
  - 研究方法：采用逻辑结构或图结构作为机器内部描述
  - 代表成果：温斯顿的结构学习系统，海梅罗思的基本逻辑的归纳学习系统
- 第三阶段（复兴阶段）：20世纪70年代中叶到80年代中叶
  - 进步：开始把学习系统与各种应用结合，从学习单个概念拓展到多个概念
  - 1980年美国卡内基梅隆（CMU）召开第一届及去学习国际研讨会——机器学习研究兴起
- 第四阶段（现阶段）：从三个研究方向进行
  - 1.面向任务：分析跟开发学习系统——专家系统
  - 2.认识模拟：研究模拟人类的学习过程——心理学角度
  - 3.理论分析
- 八种常用算法
  - 1.决策树
    - 树状预测模型，核心是选择分裂属性和决策树的剪枝
    - 算法：ID3，C4.5，CART。均采用自顶向下的贪婪算法
  - 2.随机森林算法
    - 当数据中噪声或者分裂属性过多时，无法解决决策树不平衡或过拟合的问题
    - 通过构造多分类器或回归器的集成能提高分类或预测精度
    - 随机森林由多个决策树构成，每一颗决策树对输入向量X进行投票，最终票数最多的就是最终标签
    - 可用于处理回归、分类、聚类以及生存问题等
    - 随机森林的广义误差上界可以根据两个参数推推导出来
  - 3.人工神经网络（ANN）
    - ANN模型之间的差异主要表现再：研究途径、网络结构、运行方式、学习算法和应用上
    - 常见模型：多层前向神经网络（MLFN）、自组织神经网络SOM、ART、Hopfield神经网络、模糊神经网络FNN
    - 重点：构造阈值逻辑单元
    - 神经网络是基于经验风险最小化原则的学习算法
    - 缺陷：层数跟神经元个数难以确定，容易陷入局部最优，过拟合。能通过SVM算法进行优化
  - 4.支持向量机（SVM算法）
    - 建立在统计学习理论基础上，自动寻找出那些对分类有较好区分能力的支持向量
    - 最大化类与类之间的间隔
    - 寻找一个超平面，将数据分开且类域边界沿垂直于改平面方向距离最大
    - 非线性问题可以通过非线性变化转化为某个高位空间中的线性问题
    - 核函数：多项式核、高斯（径向基函数）核、二层神经网络核
    - 算法：SVM—light、SMO、Chunking
    - 三个特点（1）结构风险最小化原则。（2）算法转化为线性约束的凸优化问题，保证全局最优解。（3）应用核技术，将输入空间中现性不可分问题转化为特征空间线性可分问题
  - 5.Boosting与Bagging算法
    - 是一种提高学习算法准确度的方法，通过构造预测函数，将弱学习算法提升为强学习算法
    - AdaBoost：对训练失败的样本赋予较大权重
    - Boosting是一种基于其他算法之上用于提高精度与性能的算法，无论用于线性回归、神经网络还是SVM都可以有效的提高精度。
    - 可以看作一种通用的增强基础算法性能的回归分析算法
    - Bagging与Boosting的区别在于Bagging的训练集是随机选择的，格伦训练集之间相互独立，所以可以通过并行训练节省大量时间开销
  - 6.关联规则算法
    - 关联规则课理解为：分析变量之间的饿关系，并且把这种关系表达成非常容易理解的规则的方法
    - 关联规则分析对数据分布不做任何要求，结构完全基于数据，反应数据，可以看作是数据中所有变量间规律的总结
  - 7.贝叶斯算法
    - 在已知先验概率与类条件概率的情况下的模式分类方法
  - 8.EM算法
    - 在存在潜在变量的情况下对模型参数进行估计的方法，极大似然估计
    - 不是直接对复杂的后验分布进行极大化或模拟，而是添加一些潜在数据
    - 特点是简单稳定，每一次迭代保证单调不减

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。