机器学习(1)

一、机器学习初步

利用经验改善系统自身性能,随着该领域的发展,目前主要研究智能数据分析的理论和方法,并已成为智能数据分析技术的源泉之一。

1 最典型的机器学习过程

在这里插入图片描述
通过label标签来进行类别标记。
在这里插入图片描述
对这些标签使用学习算法(learning algorithm)进行训练,拿到模型。
用新的数据(类别标记未知)输入给这个模型,模型会进行判断是好瓜坏瓜。
在这里插入图片描述
适用于全局的:模型
适用于局部的:模式
计算机科学:关于算法的学科

2 机器学习理论

最重要的理论模型: PAC(Probably Approximately Correct, 概率近似正确)learning model
P ( ∣ f ( x ) − y ∣ ≤ e ) ≥ 1 − δ P ( | f ( x ) - y | \leq e ) \geq 1 - δ P(f(x)ye)1δ

3 基本术语

基础

  • 数据集:一组记录的集合
  • 训练,测试
  • 示例(instance),样例(example):关于一个事件或对象的描述
  • 样本(sample)
  • 属性(attribute),特征(feature):反映事件或对象在某方面的表现或性质的事项
  • 属性值:属性上的取值
  • 属性空间,样本空间:属性张成的空间即 n n n 个特征描述出的 n n n 维空间
  • 输入空间:一个样本所有特征的集合
  • 特征向量(feature vector):每个示例在空间中的坐标向量
  • 标记空间,输出空间:所有标记的集合
  • 假设(hypothesis)
  • 真相(ground-truth)
  • 学习器(learner)

监督学习(supervised learning)

  • 分类:预测结果是离散值的学习任务
  • 回归:预测结果是连续值的学习任务
  • 二分类:涉及两个类别
  • 多分类:涉及多个类别
  • 正类,反类:“二分类”中的两个类别

无监督学习(unsupervised learning)

  • 泛化( generalization):学得模型适用于新样本的能力
  • 分布(distribution):通常假设样本空间中全体服从一个未知“分布”
  • 独立同分布(independent and identically distributed):每个样本都是独立地从这个分布上采样获得的

4 归纳偏好

归纳偏好(inductive bias): 任何一个有效的机器学习算法必有其偏好。
一般原则:奥卡姆剃刀(Occam’s razor) 若有多个假设与观察一致,则选最简单的那个。
“没有免费的午餐”定理(No Free Lunch Theorem,NFL定理): 无论学习算法 a a a 多聪明、学习算法 b b b 多笨拙,它们的期望性能都会相同。

  • NFL 定理前提:所有“问题”出现的机会相同、或所有问题同等重要
  • NFL 定理最重要的寓意:空泛的谈“什么学习算法更好毫无意义”,因为若考虑所有潜在的问题,则学习算法都一样好

学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值