机器学习(周志华西瓜书)

注:此文仅作为个人学习笔记。



第一章 绪论

1.

机器学习(machine Learning):致力于研究如何通过计算的手段,利用经验来改善系统自身性能;

学习算法(learning algorithm):关于在计算机上从数据中产生“模型”(model)的算法;

2.(基本术语解释)

数据集(data set)

示例(instance)/样本(sample):数据集中每条记录是关于一个事件获对象的描述;

属性(attribute)/特征(feature):反映事物或对象在某方面的表现或性质的事项;

特征向量(feature vector):属性/特征 + 属性值 + 属性空间/样本空间/输入空间 构成三个坐标轴,每一个数据都可以在这个空间里找到自己的坐标位置。空间内每个点对应一个坐标向量,该向量为该数据的特征向量;

D = {X1,X2,...,Xm}表示包含m个示例的数据集;

每个示例由d个属性描述,则每个示例 Xi = (Xi1;Xi2;...;Xid)是d维样本空间中的点一个向量,其中Xij是Xi在第j个属性上的取值;d称为样本Xi的“维数”;

从数据中学得模型的过程称为“学习”(learning)或“训练”(training),这个过程通过执行某个学习算法来完成。

训练过程中使用的数据称为 “训练数据”(training data)

  其中每个样本称为一个 “训练样本”(training sample)

训练样本组成的集合称作 “训练集” (training set)

学得模型对应了关于数据的某种潜在的规律,称为 “假设”(hypothesis)

这种潜在规律自身,则称为 “真相” 或 “真实” (ground-truth)学习过程就是为了找出或者逼近真相

学习器(learner)看作学习算法在给定数据和参数空间上的实例化

建立预测(prediction)模型,获得训练样本的“结果”信息;

关于示例结果的信息称为 “标记”(label);

拥有了标记信息的示例称为 “样例”(example);

一般用(Xi,Yi)表示第i个样例,其中Yi是示例Xi的标记,Y是所有标记的集合,亦称为“标记空间”(label space)或“输出空间”;

若预测的是离散值 则称为分类(classification);

若预测的是连续值 则称为回归(regression);

只涉及两个类别的 “二分类”(binary classification)任务,

一个为正类(positive class)任务   另一个是反类/负类(muti-class classification)任务;

涉及到多个类别时,称为 “多分类”(multi-class classification)任务;

预测任务希望通过对训练集{(X1,Y1),(X2,Y2),...,(Xm,Ym)}进行学习,建立一个从输入空间X到输出空间Y的映射 f:X<-->Y;

对二分类任务,通常令 Y = {-1,+1}或{0,1};

对多分类任务,|Y| > 2;

对回归任务,Y = R,R为实数集;

学习模型后,使用其进行预测的过程称为:”测试“(testing),被预测的样本称为”测试样本“(testing sample)

Eg:学习 f 后,对测试例X,可得到其预测标记 y = f(x);

聚类(clustering)将训练集分为若干个小组,每个组称为一个”簇“(cluster),这些自动形成的簇对应一些潜在的概念划分,有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。

在聚类学习中,使用的训练样本通常不拥有标记信息;

监督学习(supervised learning):分类、回归

无监督学习(unsupervised learning):聚类

泛化能力(generalization):学得模型适用于新样本的能力;

具有强泛化能力的模型能很好的适用于整个样本空间,通常假设样本空间中全体样本服从一个未知的 ”分布“ (distribution)D;

我们获得的每个样本都是独立地从这个分布上采样获得的,即 ”独立同分布“(independent and identically distributed,简称i.i.d.)关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。



### 关于《机器学习周志华西瓜课后习题解析 #### 不同章节的习题特点与解决方法 对于不同章节中的具体题目,解决方案各有侧重。例如,在第九章中提到的内容涉及较为复杂的模型评估和技术应用[^1]。 #### 构建不剪枝决策树的具体案例分析 当处理特定的数据集如西瓜数据3.0α时,构建不剪枝决策树的过程不同于简单的决策桩。这里需要考虑更多的节点分裂标准以及如何全面地利用特征属性进行划分,而不是仅仅依赖单一条件做出判断[^2]。 #### 计算假设空间大小的方法探讨 针对西瓜分类问题中的假设空间计算,如果采用最多包含k个合取式的析合范式,则可以通过组合数学的方式估计可能存在的假设数量。这涉及到对给定条件下所有潜在模式的理解和量化[^3]。 #### 版本空间的概念及其求解过程说明 版本空间是指既能够解释已有观察又尽可能泛化到未见实例的一组假设集合。通过移除那些无法匹配已知正例或反而能解释负例的候选方案,可以逐步缩小这一范围直至找到最优解[^4]。 ```python def calculate_hypothesis_space_size(attributes, values_per_attribute): """ Calculate the size of hypothesis space given attributes and their possible value counts. :param attributes: List of attribute names :param values_per_attribute: Dictionary mapping each attribute to its number of distinct values :return: Total number of hypotheses in the space """ total_combinations = 1 for attr in attributes: if attr in values_per_attribute: total_combinations *= (values_per_attribute[attr] + 1) # Include wildcard '*' return total_combinations - 1 # Exclude completely wild card case '* * ...' # Example usage based on provided information from reference [3] attributes = ["色泽", "根蒂", "敲声"] value_counts = {"色泽": 2, "根蒂": 2, "敲声": 2} print(f"The estimated number of possible hypotheses is {calculate_hypothesis_space_size(attributes, value_counts)}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值