关于机器学习的一些基本概念的整理
1.前言
1.机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。1997年Mitchell给出一个更形式化的定义,假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
- 机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即学习算法(learning algorithm)。“数据”即是现实生活中的“经验”。
- 关于产生的模型(model),可以泛指从数据中学得的结果。但也有不同说法。Hand在2001年发表的一篇文献中就提到,模型是全局结果(例如一颗决策树),模式指的是局部性结果(例如一条规则)。
2. 基本术语
引例,假设搜集到一些关于西瓜的数据(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),(色泽 = 乌黑;根蒂 = 稍蜷;敲声 = 沉闷),(色泽 = 浅白;根蒂 = 硬挺;敲声 = 清脆),......
上述引例中,每对括号内是关于西瓜的(也可是任何一个事件或者对象的)一条记录,则有:
数据集 (data set): 一组记录的集合
示例/样本(instance/sample):上述都每一条记录,均可称为示例/样本
属性/特征(attribute/feature):反映事件或者对象在某方面的表现或者性质的事项。例如上述色泽,根蒂,敲声
属性值(attribute value): 属性上的取值,例如青绿,乌黑,等等
特征向量(feature vector): 属性空间上每一个点相对原点构成的坐标向量
样本维数(sample dimensionality): 每一个样本(示例)所包含的不同属性的数量
学习/训练(learning/training) : 从数据中学得模型的过程
训练数据(training data): 训练过程中使用的
机器学习基础概念解析

本文对机器学习的基本概念进行了深入的整理,包括前言、基本术语、假设空间和归纳偏好。介绍了机器学习的定义,强调了模型和学习过程的重要性。讨论了数据集、示例、属性、假设、分类与回归等核心概念,并探讨了监督学习与无监督学习的区别。此外,还阐述了假设空间和版本空间的概念,以及归纳偏好的作用,指出奥卡姆剃刀原则在模型选择中的指导意义。
最低0.47元/天 解锁文章
1014

被折叠的 条评论
为什么被折叠?



