机器学习绪论(1)

本文介绍了机器学习的基本术语,包括数据集、样本、属性等,并详细解释了监督学习和无监督学习的区别,以及分类、回归、聚类等核心任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基本术语


  • 数据集 :D={x1,x2,,xm}D={x1,x2,…,xm},D是包含m个样本的数据集
  • 示例或样本(sample)或特征向量 :xi={xi1,xi2,,xid}xi={xi1,xi2,…,xid}, 每个样本由d个属性描述,d是样本的维数
  • 属性或特征:反映事件或对象在某方面的表现或性质的事项
  • 属性值:属性上的取值
  • 属性空间:属性张成的空间
  • 样本空间或输入空间:d维空间

  • 学习或训练:执行某个学习算法从数据中学得模型
  • 训练数据、训练样本、训练集
  • 学习器:学习算法在给定数据和参数空间上的实例化
  • 学习过程使模型对应的 “假设” 逼近数据中的 “真相”

  • 预测:需要结果信息,样本结果的信息称为标记(label)
  • 样例(example):xi,yi(xi,yi) 表示第i个样例,example使拥有label的sample
  • 标记空间或输出空间:所有标记的集合

  • 分类:预测离散值,二分类和多分类
  • 回归:预测连续值
  • 预测任务是希望通过对训练集{x1,y1,(x2,y2),,(xm,ym)}{(x1,y1),(x2,y2),…,(xm,ym)} 进行学习,建立一个从输入空间到输出空间的映射f。(学习或训练过程主要为了学得f)
  • 测试:学习得到模型后,使用其进行预测的过程
  • 测试样本:被预测的样本,测试样本x,预测结果为f(x)

因为上述学习需要标记信息,所以被称为监督学习,对应的自然有无监督学习,如聚类


聚类:将训练集中的样本分成若干组,每组称为一个“簇”(cluster),这些自动形成的簇可能对应一些潜在的概念划分


泛化:学得模型适用于新样本的能力
机器学习的目标是使学得的模型具有强泛化能力,不论在有监督学习还是无监督学习
一般来说,训练样本越多,模型效果可能越好,即具有强泛化能力


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值