笔记1-机器学习预览

最新推荐文章于 2025-06-27 17:22:08 发布

一个没有姓名的咸鱼

最新推荐文章于 2025-06-27 17:22:08 发布

阅读量174

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习实战

本文链接：https://blog.youkuaiyun.com/qq_41682681/article/details/90714260

机器学习实战专栏收录该内容

1 篇文章

订阅专栏

本文介绍了机器学习与传统编程的区别，指出机器学习程序短、易维护、能解决复杂问题且适应新数据。阐述了机器学习的种类，包括监督、无监督、半监督和强化学习等。还分析了其面临的挑战，如数据不足、过拟合等，并提及测试与验证方法，如交叉验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习和传统的编程的区别

上图为传统的编程方法

上图为机器学习的方法

上图为机器学习自适应变化

机器学习的相对于普通的编程来说优点.

程序要短，而且易于维护，可能也更加准确.(不用编写复杂的规则)
可以解决无法用已知算法解决的问题。
可以对于环境的波动，可以适应新的数据。

机器学习的种类

是否在人类监督下训练分为（监督式学习、无监督式学习、半监督式学习和强化学习）
1. 监督学习：在监督式学习中提供给算法的包含所需解决方案的训练数据，称为标签或者标记。在机器学习中属性是一种数据类型，而特征取决于上下文，特征往往意味着是一个属性加上其值。常见算法 K-近邻、线性回归、逻辑回归、支持向量机、决策树和随机森林、神经网络
2. 无监督式学习：训练数据都是没经标记的。
  1. 聚类：k-平均算法、分层聚类分析、最大期望法
  2. 可视化和降维：主成分分析、核主成分分析、局部线性嵌入、t-分布随机近邻嵌入、
  3. 关联规则学习：Apriori 、Eclat
  将多个特征合并和一个特征的过程叫做：特征提取
  
  无监督还可以通过聚类进行相似性检测，数据的可视化，数据的降维，异常检测，挖掘大量数据的关联规则
3. 半监督式学习：处理部分标记的训练数据深度信念网络（DBN），可以用于图片搜索
4. 强化学习：自行进行学习。
是否可以动态地进行增量学习（在线学习和批量学习）
1. 批量学习：离线的使用全部数据进行模型的训练
2. 在线学习：可以采用小批量数据不断地进行训练模型。其整个过程也是离线完成的可以视为是增量学习同时要设置其适应不断变化的数据速度，通常和异常检测相结合
是简单地将新数据点和已知地数据点进行匹配，还是对训练数据进行模式检测，然后建立一个预测模型（基于实例地学习和基于模型的学习）
1. 基于实例的学习：系统先完全记住学习实例，然后然后通过某种相似度度量的方式将其泛化到新实例中。
2. 基于模型的学习，学习数据，选择模型，使用训练数据进行训练，最后应用模型进行预测。

机器学习的主要挑战

训练数据不足
训练数据不具有代表性 — 存在采用偏差
质量差的数据 – 训练数据集是错误的，异常值和噪声的
无关特征：
1. 特征选择：从现有的特征中选择最有用的特征进行训练
2. 特征提取：对现有特征进行整合，产生更有用的特征
3. 收集新数据创造特征
训练数据过度拟合
1. 简化模型：可以选择较少参数的模型，也可以通过减少训练数据的属性的数量，又或者约束模型
2. 收集更多的训练数据
3. 减少训练数据的噪声
训练数据拟不足
1. 选择一个带有更多参数的模型
2. 给学习算法提供更好的特征集（特征工程）
3. 减少模型中的约束