机器学习(一)

1.1 引言

基础概念弄得清清楚楚,算法作业也是信手拈来,这门课成绩一定查不了!

基于经验的三个预判例子:

微湿路面、感到和风、看到晚霞,预判第二天天气很好;

色泽青绿、根蒂卷缩、敲声浊响,预判西瓜是好瓜;

下足功夫、弄清概念、做好作业,预判会取得好成绩。

我们能做出有效的判断,是因为我们已经积累了许多经验,而通过对经验的利用,就能对新情况做出有效的决策。

机器学习(Machine Learning)致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”的形式存在。因此,机器学习所研究的主要内容,是关于计算机上从数据中产生“模型”(model)的算法,即“学习算法”(Learning Algorithm)。

经验数据------>学习算法------>模型------>接收新情况------>做出新判断;机器学习是研究关于“学习算法”的学问。

本书中,用“模型”泛指从数据中学得的结果。有文献用“模型“指全局性结果(例如一棵决策树),而用”模式“指全局性结果(例如一条规则)。

1.2 基本术语

数据集(data set):是一组数据的集合。

示例(instance)或样本(sample):是数据集中每条记录,关于一个事件或对象的描述。

属性(attribute)或特征(feature):反映事件或对象在某方面的表现或性质的事项。

属性值(attribute value):属性上的取值。

属性空间(attribute space)、样本空间(sample space)或输入空间:是属性张成的空间。

特征向量(feature vector):我们把“色泽”、“根蒂”、“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个习惯都可以在这个空间中找到自己的坐标位置,由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个”特征向量“。

一般的,令D =  {x1, x2, ... , xm}表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例xi = {xi1, xi2, xi3, ... , xid}是d维样本空间X中的一个向量,xi 属于 X,其中xij是xi在第j个属性上的取值,d称为样本xi的“维数”(dimensionality)。

“学习(learning)”或“训练(training)”是指:从数据中学得模型的过程,这个过程通过执行某个学习算法来完成。

训练数据(training data)是指:训练过程中使用的数据。

训练样本(training sample)是指:训练数据中的每个样本。

训练集(training set)是指:训练样本组成的集合。

假设(hypothesis):学得模型对应了关于数据的某种潜在的规律。

“真相”或“真实”(groud-truth):这种潜在规律自身。

学习过程就是为了找出或逼近真相。

学习器(learner):本书有时将模型称为learner,可看作学习算法在给定数据和参数空间上的实例化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值